Árbol de palabras clave: análisis gráfico para extracción semántica

imagen


Esta publicación es un pequeño resumen de la investigación a gran escala centrada en el reconocimiento de palabras clave. La técnica de extracción semántica se aplicó inicialmente en el campo de la investigación en redes sociales de patrones depresivos. Aquí me centro en PNL y aspectos matemáticos sin interpretación psicológica. Está claro que el análisis de frecuencias de una sola palabra no es suficiente. La mezcla aleatoria múltiple de la colección no afecta la frecuencia relativa pero destruye la información totalmente - efecto de bolsa de palabras. Necesitamos un enfoque más preciso para la extracción de atractores semánticos.


Según la teoría del marco relacional (RFT), los enlaces bidireccionales de entidades son elementos cognitivos básicos. La hipótesis del diccionario bigram ha sido probada. Exploramos el mejor muro de ayuda de habla rusa. 150,000 visitas por día. Se analizaron las colecciones de respuesta / solicitud: 25,000 de registros en 2018.


imagen


La limpieza del texto incluía estandarizaciones de edad / sexo / texto y longitud del mensaje. La estandarización del sexo se alcanzó mediante el reconocimiento [nombre - sexo]. La limpieza morfológica y la tokenización permitieron obtener sustantivos en forma estándar. Se extrajo el vocabulario de bigrams con las frecuencias correspondientes. Los conjuntos de Bigram se ordenan por frecuencia y se normalizan a igual volumen en ambos grupos por criterios de corte. Cada grupo, Solicitud / Respuesta se caracteriza por una matriz bigram única. Se muestra un aumento de la información como inversa a la entropía de Shannon: 30% de incremento. I (3) -I (2) = 6% para los 3 gramos, [H (4) -H (3)] = 2% y menos del 1% para N> 4.


imagen


La matriz de Bigram se usó como un generador de gráfico 3D ponderado no dirigido. La conversión se implementó mediante el algoritmo de diseño dirigido por la fuerza de Open Ord. Realiza la transformación de matriz 2D a la topología basada en árbol. El peso de cada nodo corresponde a la frecuencia de una sola palabra (no se muestra), mientras que la longitud del borde es la función inversa de la frecuencia de bigramas. Consideré la centralidad entre BC (BC) y los vecinos más cercanos modificados. Las entidades con un BC extra elevado pueden considerarse centros de información, que influyen en la semántica: la eliminación de estas entidades afecta principalmente a la información . Los vecinos más cercanos se basan en el análisis de frecuencia de ocurrencia conjunta. Considere la orden de vecino modificado. Se usó BC de la distancia inversa inversa a la coincidencia (CD) como función de ponderación: BC / CD.


imagen


Examinamos a los vecinos más cercanos en la vecindad de la Raíz BC seleccionada: #Life. El valor #Man (No. 1) está casi fusionado con #Life atractor. #Procreation (No. 2), #Family (No. 3) son las siguientes entidades más cercanas con menor grado BC / CD. Los valores de respuesta se representan en el siguiente orden: #Man No. 1, # Job No. 2, #Procreation No. 3. Debe notarse que el sesgo del tema está obviamente presente en el grupo de respuesta. Sin embargo, la separación de los valores personales y grupales (#Man vice #Life) es notable a pesar del ruido del tema. El gráfico se basó en los 10,000 bigramas más frecuentes: 44% de los datos. Sin embargo, las 5 principales entidades clasificadas por BC / CD no cambian después de reescalar al 50% y al 88% del diccionario bigram.


Los resultados considerados se correlacionan con las observaciones empíricas en psicología. En consecuencia, confirman preliminarmente el algoritmo seleccionado de BC / CD para el reconocimiento de atractores semánticos. Es conveniente si trata con Big Noisy Text / Speech Data. Se puede usar para extraer palabras clave en relación con la entidad seleccionada o en términos absolutos. Puedes leer más aquí . El instrumento también puede tener aplicaciones en la evaluación de recursos humanos. Los autores realizan investigaciones relevantes en el segmento de habla inglesa y buscan colaboración. La versión completa de la investigación está pendiente en la revista revisada por pares. Sin embargo, puede solicitar un borrador a solicitud personal . Gracias


Me gustaría agradecer a Dmitry Vodyanov por la fructífera discusión.

Source: https://habr.com/ru/post/470301/


All Articles