Ele fala e mostra: a retórica dos políticos populares da Ucrânia é diferente?

É possível determinar por citação qual dos políticos é o autor? A ONG ucraniana Vox Ukraine está fazendo o projeto VoxCheck , no âmbito do qual verifica as declarações dos políticos mais cotados. Recentemente, eles postaram o banco de dados inteiro de cotações verificadas . Estou apenas ouvindo os cursos de PNL e decidi verificar com que precisão o autor pode ser identificado pelo texto da citação.

Isenção de responsabilidade . Este artigo foi escrito fora de interesse pelo tópico e pelo desejo de experimentar o material estudado na prática, sem exigir a análise mais precisa e detalhada.

Para análise, foi utilizado python, o código está disponível no github .

Dados


O banco de dados agora contém cotações de 1952 com a seguinte distribuição por política:



Para fins de análise, selecionei pessoas com> 200 citações. Consequentemente, Yuri Boyko, Oleg Tyagnibok, Andrey Sadovoy e Vladimir Zelensky caíram da análise. Existem 1.667 citações restantes na matriz. Dos seis oradores restantes, quatro (exceto Groysman e Rabinovich) são candidatos registrados para a próxima eleição presidencial.

As citações variam de curtas, com cerca de 30 caracteres ( “Eu já enviei 112 notas.” ) As longas, com cerca de 1.200 caracteres. O tamanho médio de uma citação é de cerca de 200 caracteres (por exemplo, "Em breve teremos que dar uma vaca um pouco menos para um museu e um dinossauro para crianças em ciências da natureza - pelo resultado de políticas políticas, por iaques para conduzir a estadia de um novato. Gado em menos de 2 meses . " )

TF-IDF


Primeiro, vamos ver quais palavras são mais características de certos falantes. Aqui estão as 10 principais palavras com o TF-IDF mais alto para cada candidato:



Brevemente sobre TF-IDF
TF-IDF (termo frequência - frequência inversa do documento) é um indicador que avalia a importância de uma palavra no contexto de um documento. As palavras TF-IDF são proporcionais à frequência de uso dessa palavra no documento e inversamente proporcional à frequência de uso da palavra em todos os documentos da coleção. No contexto de nossos dados, um alto TF-IDF significa que um político costuma usar essa palavra, enquanto outros políticos a usam relativamente menos.

Para contar o TF-IDF, o stemming foi usado - trazendo a palavra para a base.

As palavras que eu gostaria de comentar para cada palestrante dar um pouco de contexto são destacadas em verde.

Oleg Lyashko:

  • Polônia: Lyashko freqüentemente menciona a Polônia em conexão com a migração de ucranianos para o país e também compara a renda na Polônia e na Ucrânia
  • Cereais: Lyashko diz que a Ucrânia exporta grãos e perde, porque poderia ser mais caro exportar farinha
  • Oncologia, medicamentos: Lyashko é um oponente ardente da atual reforma médica e costuma dizer que o custo da oncologia quase não é coberto pelo estado

Poroshenko e Gritsenko falam muito sobre o conflito militar, o que é bastante lógico: Poroshenko é o presidente e, consequentemente, o supremo comandante em chefe, e Gritsenko é militar e foi o ministro da Defesa.

Groisman é o primeiro ministro e fala principalmente sobre a economia, inclusive sobre dívida pública.

As citações de Vadim Rabinovich não mostram tópicos específicos, talvez porque ele fale muito (444 de 1952, todos os outros têm menos de 300 citações).

Yulia Tymoshenko fala muito sobre o sistema de transmissão de gás da Ucrânia, sobre a liquidação de bancos e sobre os baixos indicadores econômicos do país.

Classificação de cotação


Então, temos 6 aulas (palestrantes). Para classificação, usei o ingênuo classificador bayesiano. Palavras de interrupção dos idiomas russo e ucraniano são excluídas do texto (usando o pacote stopwords). N-gramas de até 2 estão incluídos (opções com um comprimento de até 3 também foram testadas, mas mostraram super adequação). A amostra de teste é coletada em uma proporção de 20% do total.

A precisão total do modelo (proporção de citações corretamente classificadas) na amostra de treinamento foi de 74,8% , na amostra de teste - 75,7%

Resultados cruzados por autores:



A precisão mais alta para Vadim Rabinovich (97%) - provavelmente porque ele é o único falante de russo em seis. Alta precisão de classificação de Groisman e Lyashko (78% e 77%).

Um pouco acima de 60% são os indicadores de precisão para citar Poroshenko e Tymoshenko. O modelo define com mais frequência os dois como Groysman. Groysman, como primeiro ministro, frequentemente fala sobre o tema da economia na forma de um "relatório de progresso", e citações incorretamente classificadas por Poroshenko e Tymoshenko também são sobre isso (apenas Poroshenko como representante do governo é positivo e Tymoshenko tem o contrário).

Por exemplo, aqui está uma citação de Poroshenko definida pelo modelo como uma citação de Groisman:
5 bilhões de UAH, (tobto) 4 bilhões de UAH dessa rocha 'e 1 bilhão de UAH de toda a rocha diretamente para a medicina

E também uma citação de Tymoshenko, definida como uma citação de Groisman:
No orçamento ofensivo para a utilização das prisões, eles viam mais que centavos, menos para a ciência, como trabalhar na Academia de Ciências da Ucrânia.

A menor precisão (57%) nas citações de Anatoly Gritsenko. Seu modelo é frequentemente definido como Poroshenko (que é lógico, dados os tópicos militares de suas citações), bem como Lyashko. No caso de Lyashko, a classificação errada é citações que criticam as autoridades, incluindo, por exemplo, sobre migração: não pareço estar falando sobre o mesmo membro do seu pedido, Volodimir Borisovich, pan Klimkin dizendo que milhões deixaram o país.

Em geral, parece-me que o resultado não é ruim para citações curtas de formato semelhante (declarações orais de políticos) e tópicos (política ucraniana). A propósito, nos mesmos dados, tentei criar um modelo que defina a categoria de cotação (verdadeiro / falso / manipulação), mas a precisão foi muito baixa. O que, em princípio, é lógico: olhar para uma citação como "Tanto dinheiro foi gasto com isso, mas em um país como esse gasta tanto", é difícil determinar a veracidade dos dados nele contidos :)

Source: https://habr.com/ru/post/pt443264/


All Articles