Comment comparer: «voiture incroyable» et «hutte laide», dans une enquête marketing et dans le big data

Nous avons tous participé à des sondages, en ligne ou dans la vraie vie. Et lorsque nous démarrons un nouveau projet, nous ne pouvons pas nous passer d’enquêtes. Mais parfois, il y a des résultats d'enquête avec lesquels on ne sait pas quoi faire, sauf sourire , dans l'image ci-dessous, le résultat d'une enquête du Centre panrusse de recherche sur l'opinion publique (VTsIOM).


J'étais curieux de savoir comment les questions avec des évaluations qualitatives sont utilisées maintenant et j'ai constaté que VTsIOM, POF , Levada Center utilisent principalement une échelle tri-bande (médiocre / normal / bon). En cas de questions plus détaillées, l'échelle augmente à 5-6 unités , mais rarement.



Puis, aujourd'hui, il y a une situation dans laquelle les sociologues s'éloignent de l'échelle à plusieurs niveaux des évaluations qualitatives et essaient d'en utiliser une à trois niveaux. Et si la sociologie est capable de s'en sortir, alors lors de l'analyse de quantités décentes de données, la nécessité d'utiliser des estimations qualitatives devient un facteur de complication et réduit la fiabilité des résultats. Comme, par exemple, il est pratiquement impossible de faire la distinction entre les concepts: «un bel appartement» et «un excellent logement», et en tenant compte de la réponse de l'un des personnages des «douze chaises»: «À qui sont la mariée et la jument», le multi-croisement des qualités dépasse les limites raisonnables.

Il existe un mécanisme de gradation et il est bien utilisé par les banques pour déterminer les faux dans les documents financiers. Il s'agit de la loi de distribution de Benford , qui, en 1984, a été prouvée par Ted Hill .
Les calculs théoriques de l'outil proposé sont présentés dans ce document: "La loi de Benford et les distributions qui en découlent ".

Sur Wikipédia, cette loi est formulée comme suit: si nous avons la base du système numérique b (b> 2), alors pour le chiffre d (d ∈ {1, ..., b - 1}) la probabilité d'être le premier chiffre significatif est:



Sur la base de ce qui précède, nous obtenons un mécanisme de gradation pour les caractéristiques qualitatives, comme suit.

Choisissez le nombre d'intervalles, disons 5, c'est-à-dire quatre gradations et un intervalle intermédiaire. Donc b = 6, on obtient les probabilités pour les intervalles:

1er intervalle - 0,386853;
2e intervalle - 0,226294;
3e intervalle - 0,160558;
4ème intervalle - 0,124 539;
5ème intervalle - 0,101756.

A partir des statistiques de fréquence, des mots évaluant des signes qualitatifs, nous faisons une série en ordre croissant et posons un indice. Nous effectuons la conversion de fréquence en probabilité d'énonciation. Ensuite, nous accumulons les probabilités de la queue, jusqu'à ce que nous obtenions une valeur égale à la ligne extrême (5e), ​​dans notre cas - 0,101756 et les mots (définitions qualitatives), dont les probabilités tombent dans cette somme, nous nous rapportons à la 5e plage. De plus, par un indice décroissant, nous effectuons une sommation supplémentaire jusqu'à ce que nous approchions de la valeur de probabilité de la 4ème plage et, plus loin, de manière similaire, à la valeur du premier intervalle.

En conséquence, nous obtenons des sous-ensembles clairs avec une estimation numérique réelle.

Je ne rassurerai pas que la sélection des synonymes est facile. Puisque chacun détermine lui-même un rapport résultat / effort convenable.

Source: https://habr.com/ru/post/fr459052/


All Articles