
Dieser Beitrag ist eine kleine Zusammenfassung der umfassenden Forschung, die sich auf die Erkennung von Schlüsselwörtern konzentriert. Die Technik der Semantik-Extraktion wurde ursprünglich im Bereich der Social-Media-Forschung zu depressiven Mustern angewendet. Hier konzentriere ich mich auf NLP- und mathematische Aspekte ohne psychologische Interpretation. Es ist klar, dass die Analyse einzelner Wortfrequenzen nicht ausreicht. Das mehrfache zufällige Mischen der Sammlung wirkt sich nicht auf die relative Häufigkeit aus, zerstört jedoch die Informationen vollständig - Effekt der Wortsammlung. Wir brauchen einen genaueren Ansatz für den Abbau von Semantikattraktoren.
Nach der Relational Frame Theory (RFT) sind bidirektionale Verknüpfungen von Entitäten grundlegende kognitive Elemente. Die Hypothese des Bigram-Wörterbuchs wurde getestet. Wir haben die russischsprachige Wall of Help erkundet. 150.000 Besuche pro Tag. Antwort- / Anforderungssammlungen wurden analysiert: 25.000 Datensätze im Jahr 2018.

Die Textbereinigung umfasste Standardisierungen für Alter / Geschlecht / Text und Nachrichtenlänge. Die Geschlechtsstandardisierung wurde durch [Name - Geschlecht] Anerkennung erreicht. Durch morphologische Reinigung und Tokenisierung konnten Substantive in Standardform erhalten werden. Der Wortschatz von Bigrams mit entsprechenden Frequenzen wurde abgebaut. Bigram-Sets sind nach Häufigkeit geordnet und in beiden Gruppen nach Cutoff-Kriterien auf gleiches Volumen normiert. Jede Gruppe, Request / Responce, ist durch eine eindeutige Bigram-Matrix gekennzeichnet. Die Zunahme der Informationen invers zur Shannon-Entropie wird angezeigt: 30% des Inkrements. I (3) -I (2) = 6% für die 3 Gramm, [H (4) -H (3)] = 2% und weniger als 1% für N> 4.

Die Bigram-Matrix wurde als Generator für gewichtete ungerichtete 3D-Graphen verwendet. Die Konvertierung wurde durch einen erzwungenen Open Ord-Layoutalgorithmus implementiert. Es wird eine Transformation von einer 2D-Matrix in eine baumbasierte Topologie durchgeführt. Das Gewicht jedes Knotens entspricht der Einzelwortfrequenz (nicht gezeigt), während die Kantenlänge die Umkehrfunktion der Bigramfrequenz ist. Ich habe zwischen Zentralität (BC) und modifizierten nächsten Nachbarn nachgedacht. Entitäten mit besonders hohem BC können als Informationsdrehkreuze betrachtet werden, die die Semantik beeinflussen: Das Entfernen dieser Entitäten wirkt sich hauptsächlich auf Informationen aus . Die nächsten Nachbarn basieren auf einer Häufigkeitsanalyse des gleichzeitigen Auftretens. Ich dachte über eine modifizierte Nachbarbestellung nach. Als Gewichtungsfunktion wurde BC des Nachbarn invers zur Koexistenzentfernung (CD) verwendet: BC / CD.

Wir haben die nächsten Nachbarn in der Nähe ausgewählter BC-Wurzeln untersucht: #Life. Der Wert #Man (Nr. 1) ist fast mit dem #Life-Attraktor verschmolzen. #Procreation (Nr. 2), #Family (Nr. 3) sind die nächstgelegenen Einheiten mit niedrigerem BC / CD-Grad. Die Antwortwerte werden in der folgenden Reihenfolge dargestellt: #Man Nr. 1, #Job Nr. 2, #Procreation Nr. 3. Es sollte beachtet werden, dass in der Antwortgruppe offensichtlich eine thematische Voreingenommenheit vorliegt. Die Trennung von persönlichen und Gruppenwerten (#Man vice #Life) ist jedoch trotz Themenlärm bemerkenswert. Die Grafik basierte auf 10.000 häufigsten Bigrams: 44% der Daten. Die nach BC / CD geordneten Top-5-Entitäten ändern sich jedoch nicht, nachdem sie auf 50% und 88% des Bigram-Wörterbuchs neu skaliert wurden.
Die betrachteten Ergebnisse korrelieren mit empirischen Beobachtungen in der Psychologie. Folglich bestätigen sie vorab ausgewählte Algorithmen des BC / CD-Bereichs zur Erkennung semantischer Attraktoren. Es ist praktisch, wenn Sie mit großen verrauschten Text- / Sprachdaten arbeiten. Es kann zum Mining von Schlüsselwörtern in Bezug auf ausgewählte Entitäten oder in absoluten Zahlen verwendet werden. Hier können Sie mehr lesen. Das Instrument kann auch Anwendungen in der HR-Bewertung haben. Autoren führen relevante Forschungen im englischsprachigen Bereich durch und suchen nach Zusammenarbeit. Die Vollversion der Forschung steht im Peer-Review-Journal noch aus. Sie können jedoch auf persönliche Anfrage einen Entwurf anfordern . Danke.
Ich möchte Dmitry Vodyanov für die fruchtbare Diskussion danken.