توقع سعر السيارة: EDA ، الانحدار ، اختبار الفرضية

تبدأ الحياة عندما تحل المشكلات ، بصفتي عالم بيانات أحب حل مشكلات العمل.

في كل يوم يمر يمكننا أن نرى أن سوق السيارات ينمو بسرعة ، وهذا يقودنا إلى باب حيث يشتري العديد من الناس ويبيعون السيارات في السوق ، وذلك لجعل هذه العملية أكثر مرونة ومع رؤية أفضل للسوق ، أقترح نموذجًا يأخذ معلومات معينة تتعلق بالسيارة ويتنبأ بسعر البيع. سيساعد هذا في الحصول على رؤية أفضل أثناء بيع وشراء السيارات.

وصف التنبؤ:

أتوقع سعر بيع السيارة بناءً على ميزات مختلفة للسيارات ، بما في ذلك السعر الحالي للسيارات. سأستخدم الانحدار الخطي المتعدد لبناء النموذج.

وصف البيانات:

مجموعة البيانات من Cardekho.com ، وتحتوي مجموعة البيانات هذه على معلومات حول السيارات المدرجة على موقع Cardekho.com

< المصدر:

مجتمع Kaggle Data Science

معلومات السمة:

تتكون مجموعات البيانات من عدة متغيرات مستقلة تشمل:

تحليل البيانات الاستكشافية:

هنا يمكننا أن نرى ما يلي:








U فهم المتغيرات:

دعنا نتعمق في فهم المتغيرات واستخدام مصفوفة الارتباط لتسهيل العملية.

مصفوفة الارتباط:

العناصر الأساسية:

دعنا الآن نتحقق مما إذا كانت لدينا قيم شاذة في بياناتنا.

لذا بدلاً من إزالة القيم المتطرفة ، نود تسجيلها.

اختبار الفرضية:

قبل الخوض في جزء النمذجة ، سنجري بعض اختبارات الفرضية.

سؤال البحث:

طوال العام الماضي ، ظل موقع Cardekho.com في السوق ، حيث ظل متوسط ​​سعر السيارات المباعة 5.5 ألفًا. تدعي Cardekho.com أن السعر لم يتغير وأن متوسط ​​سعر البيع له هو نفسه.

السكان: جميع البيانات المتوفرة لدى Cardekho.com حتى العام الحالي.

سنقوم الآن بتأطير الفرضية الصفرية والبديلة كـ ؛

فرضية لاغية: متوسط ​​سعر بيع السيارة 5.5 كهس.

H0: myu (u) = 5.5

الفرضية البديلة: انخفض متوسط ​​سعر بيع السيارات إلى أقل من ذلك وهو 4.6 الآن.

H1: myu (u)! = 5.5. #! = تدل على عدم المساواة.

البيانات: لدينا عينة من البيانات من Cardekho.com على مدار سنوات مختلفة وسنقوم باختبار فرضية على ذلك.

لذلك سنقوم بإجراء اختبار t (ذيلان) حيث لدينا الانحراف المعياري للعينة ، وسنأخذ مستوى الثقة بنسبة 95٪ والذي يعطي alpa = 0.05.

P-value (0.05) & gt؛ (0.0449) لذلك يمكننا أن نستنتج أن لدينا أدلة كافية لرفض الفرضية الصفرية (H0) ، وقبول الفرضية البديلة (H1).

يعني أن متوسط ​​سعر بيع السيارة ليس 5.5.

هنا الخطأ من النوع 1 هو 0.05 الذي أبقينا عليه منخفضًا قدر الإمكان لأن خطأ النوع الأول مهم بالنسبة لنا في الفرضية.

سؤال البحث:

يقول موقع Cardekho.com في مجال بيع السيارات أن معظم السيارات التي نشتريها تُباع مقابل سعر مرتفع فقط ، لذا فإن متوسط ​​السعر الإجمالي للسعر الحالي وسعر البيع يأتي كما هو في النهاية.

السكان: جميع البيانات الموجودة في Cardekho.com حتى الآن.

سنقوم الآن بصياغة الفرضية اللاغية والبديلة.

فرضية لاغية: متوسط ​​البيع والسعر الحالي هو نفسه.

H0: myu (u1) = myu (u2)

الفرضية البديلة: متوسط ​​البيع والسعر الحالي مختلفان.

H1: myu (u1)! = myu (u2) #! = تعني عدم المساواة.

البيانات: لدينا بيانات نموذجية لسعر البيع والسعر الحالي على مدار سنوات مختلفة من cardekho.com.

لذلك سنؤدي هنا Annova: عامل واحد هنا نحتاج إلى رؤية الفرق بين وسيلتين من السمات المختلفة.

ابدأ بالتفوق بنقرة واحدة ، في هذه الحالة ، لذلك سنقوم بإجراء هذا التحليل هناك وسنفهم ناتج تحليلنا.

ما سبق ، يمكننا أن نرى أن لدينا:

F (26.35) & GT. F crit (3.85)

لدينا أدلة كافية لرفض فرضية Null (H0) وقبول الفرضية البديلة (H1).

إذن ، الاستنتاج هو أن متوسط ​​سعر البيع ومتوسط ​​السعر الحالي للسيارات مختلفان عن بعضهما البعض.

الانحدار:

يتكون تحليل الانحدار من مجموعة من طرق التعلم الآلي التي تسمح لنا بالتنبؤ بمتغير نتيجة مستمر (ص) بناءً على قيمة متغير واحد أو متغير توقع متعدد (س). باختصار ، الهدف من نموذج الانحدار هو بناء معادلة رياضية تحدد y كدالة لمتغيرات x.

تحجيم الميزة:

سنقوم بتطبيق StandardScaler حيث تفترض StandardScaler أن بياناتك يتم توزيعها بشكل طبيعي داخل كل ميزة وسنقوم بتوسيع نطاقها بحيث يتركز التوزيع الآن حول 0 ، مع انحراف معياري قدره 1.

الآن سنفعل الانحدار بمساعدة Ols من مكتبة نموذج الإحصائيات:

هنا يمكننا أن نرى ما يلي:

سنقوم الآن بضبط النموذج بشكل أكبر:

دعنا نزيل متغير المالك لأنه أكبر من القيمة الاحتمالية (p-Value) ، أي (0.05) يتصرف على أنه غير مهم. لقد تحققنا أيضًا من أنه يجب عدم إسقاط Adj R_sqr.

النتيجة:

أخيرًا ، لدينا أفضل نموذج ملائم مع جميع القيم المستقلة المهمة ودرجة جيدة من Adj R2 91.5٪.

الخاتمة:

استخدمنا تحليل الانحدار وتوقعنا سعر بيع السيارة بناءً على الميزات المختلفة للسيارات بما في ذلك السعر الحالي للسيارات.