Árvore de palavras-chave: análise gráfica para extração semântica

imagem


Este post é um pequeno resumo de uma pesquisa completa, focada no reconhecimento de palavras-chave. A técnica de extração semântica foi aplicada inicialmente no campo da pesquisa em mídias sociais de padrões depressivos. Aqui, concentro-me nos aspectos da PNL e da matemática sem interpretação psicológica. É claro que a análise de frequências de uma única palavra não é suficiente. A mistura aleatória múltipla da coleção não afeta a frequência relativa, mas destrói totalmente o efeito da informação - saco de palavras. Precisamos de uma abordagem mais precisa para a mineração de atratores semânticos.


De acordo com a RFT, as relações bidirecionais das entidades são elementos cognitivos básicos. A hipótese do dicionário bigram foi testada. Exploramos o topo da Muralha da Ajuda, que fala russo. 150.000 visitas por dia. As coleções de resposta / solicitação foram analisadas: 25.000 registros em 2018.


imagem


A limpeza de texto incluía padronizações de idade / sexo / texto e comprimento da mensagem. A padronização do sexo foi alcançada pelo reconhecimento [nome - sexo]. A limpeza morfológica e a tokenização permitiram obter substantivos na forma padrão. Vocabulário de bigrams com frequências correspondentes foi extraído. Os conjuntos de bigram são ordenados por frequência e normalizados para igual volume em ambos os grupos por critérios de corte. Cada grupo, Solicitar / Responder, é caracterizado por uma matriz bigram única. É mostrado o aumento da informação inversa à entropia de Shannon: 30% de incremento. I (3) -I (2) = 6% para os 3 gramas, [H (4) -H (3)] = 2% e menos de 1% para N> 4.


imagem


A matriz Bigram foi usada como um gerador de gráfico 3D não direcionado ponderado. A conversão foi implementada pelo algoritmo de layout direcionado à força Open Ord. Faz a transformação da matriz 2D para a topologia baseada em árvore. O peso de cada nó corresponde à frequência de uma única palavra (não mostrada), enquanto o comprimento da borda é a função inversa da frequência do bigram. Considerei entre a centralidade (BC) e os vizinhos mais próximos modificados. Entidades com BC extra alto podem ser consideradas como hubs de informações, que influenciam a semântica: a remoção dessas entidades afeta principalmente as informações . Os vizinhos mais próximos são baseados na análise de frequência de coocorrências. Eu considerei a encomenda de vizinhos modificados. O BC do vizinho inverso à distância de coocorrência (CD) foi utilizado como função de ponderação: BC / CD.


imagem


Examinamos os vizinhos mais próximos nas proximidades da raiz BC selecionada: #Life. O valor #Man (No. 1) está quase fundido com o atrator #Life. #Procreation (No. 2), #Family (No. 3) são as próximas entidades mais próximas com classificação BC / CD mais baixa. Os valores de resposta são representados na seguinte ordem: #Man No. 1, #Job No. 2, #Procreation No. 3. Deve-se notar que o viés de tópico está obviamente presente no grupo de respostas. No entanto, a separação de valores pessoais e de grupo (#Man vice #Life) é notável, apesar do ruído do tópico. O gráfico foi baseado em 10.000 bigrams mais frequentes: 44% dos dados. No entanto, as 5 principais entidades classificadas por BC / CD não mudam após o redimensionamento para 50% e 88% do dicionário de bigram.


Os resultados considerados se correlacionam com observações empíricas em psicologia. Consequentemente, eles confirmam preliminarmente o algoritmo selecionado de BC / CD variando para reconhecimento de atratores semânticos. É conveniente se você lida com dados ruidosos de texto / fala. Pode ser usado para minerar palavras-chave em relação à entidade selecionada ou em termos absolutos. Você pode ler mais aqui . O instrumento também pode ter aplicações na avaliação de RH. Os autores realizam pesquisas relevantes no segmento de língua inglesa e buscam colaboração. A versão completa da pesquisa está pendente na revista revisada por pares. No entanto, você pode solicitar um rascunho mediante solicitação pessoal . Obrigada


Gostaria de agradecer a Dmitry Vodyanov pela frutuosa discussão.

Source: https://habr.com/ru/post/pt470301/


All Articles