كيفية المقارنة: "سيارة مذهلة" و "كوخ قبيح" ، في استطلاع تسويقي وفي بيانات كبيرة

شاركنا جميعًا في الدراسات الاستقصائية ، عبر الإنترنت أو في الحياة الحقيقية. وعندما نبدأ مشروعًا جديدًا ، لا يمكننا الاستغناء عن الاستطلاعات. لكن في بعض الأحيان توجد نتائج للمسح لا يكون من الواضح ما يجب فعله باستثناء الابتسامة ، في الصورة أدناه ، نتيجة لاستطلاع الرأي الذي أجراه مركز عموم روسيا لبحوث الرأي العام (VTsIOM).


كنت مهتمًا بكيفية استخدام الأسئلة ذات التقييمات النوعية الآن ووجدت أن VTsIOM و POF و Levada Center يستخدمون أساسًا نطاق ثلاثي الموجات (ضعيف / عادي / جيد). في حالات الأسئلة الأكثر تفصيلاً ، يزيد المقياس إلى 5-6 وحدات ، ولكن نادرًا ما يحدث.



ثم ، اليوم ، هناك موقف يبتعد فيه علماء الاجتماع عن المقياس متعدد المستويات للتقييمات النوعية ويحاولون استخدام تقييم من ثلاثة مستويات. وإذا كان علم الاجتماع قادرًا على الخروج من هذا ، فعند تحليل كميات مناسبة من البيانات ، تصبح الحاجة إلى استخدام تقديرات نوعية عاملاً معقدًا وتقلل من موثوقية النتائج. لأنه ، على سبيل المثال ، من المستحيل عملياً التمييز بين المفاهيم: "شقة جميلة" و "سكن ممتاز" ، مع الأخذ في الاعتبار إجابة أحد شخصيات "الكراسي الاثني عشر": "لمن تكون العروس والفرس" ، فإن تقاطع الصفات المتعددة يتجاوز الحدود المعقولة.

هناك آلية تدرج ويتم استخدامها بشكل جيد من قبل البنوك في تحديد عمليات التزوير في المستندات المالية. هذا هو قانون توزيع Benford ، الذي أثبته تيد هيل عام 1984.
يتم تقديم الحسابات النظرية للأداة المقترحة في هذه المادة: " قانون بنفورد والتوزيعات التي تندرج تحته ".

في ويكيبيديا ، صيغ هذا القانون على النحو التالي: إذا كان لدينا قاعدة لنظام الأرقام b (b> 2) ، فعند الرقم d (d d {1 ، ... ، b - 1}) فإن احتمال كونك أول رقم مهم هو:



بناءً على ما تقدم ، نحصل على آلية تصنيف للميزات النوعية ، على النحو التالي.

اختر عدد الفواصل الزمنية ، حسناً ، دعنا نقول 5 ، أي أربعة تدرجات وفاصل وسط واحد. لذا ب = 6 ، نحصل على احتمالات الفواصل الزمنية:

الفاصل الأول - 0.386853 ؛
الفاصل الثاني - 0.226294 ؛
الفاصل الثالث - 0.160558 ؛
الفترة الرابعة - 0.124539 ؛
الفاصل الخامس - 0.101756.

من إحصائيات التردد والكلمات التي تقيم العلامات النوعية ، نقوم بعمل سلسلة بترتيب تصاعدي ونضع فهرسًا. نقوم بتنفيذ تحويل التردد إلى احتمال الكلام. بعد ذلك ، نقوم بتجميع الاحتمالات من الذيل ، حتى نحصل على قيمة مساوية للصف المدقع (الخامس) ، في حالتنا - 001756 والكلمات (تعريفات نوعية) ، الاحتمالات التي تندرج ضمن هذا المبلغ ، نحن نرتبط بالنطاق 5. علاوة على ذلك ، من خلال مؤشر تنازلي ، نقوم بإجراء المزيد من التلخيص حتى نقترب من قيمة الاحتمال للنطاق الرابع ، وكذلك ، بالمثل ، إلى قيمة الفاصل الأول.

نتيجة لذلك ، نحصل على مجموعات فرعية واضحة بتقدير رقمي حقيقي.

لن أطمئن إلى أن اختيار المرادفات سهل. لأن كل لنفسه يحدد نسبة النتيجة / الجهد مريحة.

Source: https://habr.com/ru/post/ar459052/


All Articles