Todos participamos de pesquisas, online ou na vida real. E quando começamos um novo projeto, não podemos ficar sem pesquisas. Mas, às vezes, existem resultados de pesquisas com os quais não está claro o que fazer, exceto
sorrir , na figura abaixo, o resultado de uma pesquisa do Centro de Pesquisa de Opinião Pública de Toda a Rússia (VTsIOM).
Fiquei curioso para saber como as perguntas com avaliações qualitativas estão sendo usadas agora e constatei que o VTsIOM,
POF ,
Levada Center usa principalmente uma escala de três bandas (ruim / normal / boa). Em casos de perguntas mais detalhadas, a escala aumenta para 5-6
unidades , mas raramente.

Hoje, existe uma situação em que os sociólogos se afastam da escala multinível de avaliações qualitativas e tentam usar uma escala de três níveis. E se a sociologia é capaz de escapar disso, ao analisar quantidades decentes de dados, a necessidade de usar estimativas qualitativas se torna um fator complicador e reduz a confiabilidade dos resultados. Como, por exemplo, é praticamente impossível distinguir entre os conceitos: `` um belo apartamento '' e `` excelente moradia '', e levando em consideração a resposta de um dos personagens das `` Doze Cadeiras '': `` Para quem a noiva e a égua são '', a interseção de qualidades ultrapassa limites razoáveis.
Existe um mecanismo de gradação e é bem utilizado pelos bancos na determinação de falsificações em documentos financeiros. Esta é
a lei de distribuição
de Benford , que, em 1984, foi comprovada por
Ted Hill .
Os cálculos teóricos da ferramenta proposta são apresentados neste material: "A
lei de Benford e as distribuições abrangidas por ela ".
Na Wikipedia, essa lei é formulada da seguinte forma: se tivermos a base do sistema numérico b (b> 2), para o dígito d (d ∈ {1, ..., b - 1}) a probabilidade de ser o primeiro dígito significativo é:

Com base no exposto, obtemos um mecanismo de gradação para características qualitativas, conforme a seguir.
Escolha o número de intervalos, digamos 5, ou seja, quatro gradações e um intervalo intermediário. Então b = 6, obtemos as probabilidades para os intervalos:
1º intervalo - 0,386853;
2º intervalo - 0,226294;
3º intervalo - 0,160558;
4º intervalo - 0,124539;
5º intervalo - 0,101756.
A partir das estatísticas de frequência, palavras avaliando sinais qualitativos, fazemos uma série em ordem crescente e colocamos um índice. Realizamos a conversão de frequência para a probabilidade de expressão. Em seguida, acumulamos as probabilidades a partir da cauda, até obtermos um valor igual à linha extrema (5a), no nosso caso - 0,101756 e palavras (definições qualitativas), cujas probabilidades se enquadram nessa soma, nos relacionamos com a 5a faixa. Além disso, por um índice decrescente, realizamos uma soma adicional até chegarmos ao valor de probabilidade do 4º intervalo e, além disso, da mesma forma que o valor do primeiro intervalo.
Como resultado, obtemos subconjuntos claros com uma estimativa numérica real.
Não vou garantir que a seleção de sinônimos seja fácil. Uma vez que cada um por si mesmo determina uma relação resultado / esforço conveniente.