Pohon Kata Kunci: analisis grafik untuk ekstraksi semantik

gambar


Posting ini adalah abstrak kecil dari penelitian skala penuh yang berfokus pada pengenalan kata kunci. Teknik ekstraksi semantik pada awalnya diterapkan di bidang penelitian media sosial tentang pola depresi. Di sini saya fokus pada aspek NLP dan matematika tanpa interpretasi psikologis. Jelas bahwa analisis frekuensi kata tunggal tidak cukup. Pencampuran koleksi acak yang banyak tidak mempengaruhi frekuensi relatif tetapi menghancurkan informasi secara total - bag of word effect. Kami membutuhkan pendekatan yang lebih akurat untuk menambang penarik semantik.


Menurut Relational Frame Theory (RFT), link dua arah entitas adalah elemen kognitif dasar. Hipotesis kamus bigram telah diuji. Kami menjelajahi Wall Of Help top berbahasa Rusia. 150.000 kunjungan per hari. Respons / permintaan koleksi telah diuraikan: 25.000 catatan pada 2018.


gambar


Pembersihan teks termasuk usia / jenis kelamin / teks dan standardisasi panjang pesan. Standardisasi jenis kelamin dicapai dengan pengakuan [nama - jenis]. Pembersihan dan tokenisasi morfologis memungkinkan mendapatkan kata benda dalam bentuk standar. Kosakata bigrams dengan frekuensi yang sesuai ditambang. Set bigram disusun berdasarkan frekuensi dan dinormalisasi ke volume yang sama di kedua kelompok dengan kriteria cutoff. Setiap kelompok, Permintaan / Respons ditandai dengan matriks bigram unik. Peningkatan informasi sebagai kebalikan dari entropi Shannon ditampilkan: 30% kenaikan. I (3) -I (2) = 6% untuk 3-gram, [H (4) -H (3)] = 2% dan kurang dari 1% untuk N> 4.


gambar


Matriks Bigram digunakan sebagai generator dari grafik 3D tertimbang yang tidak tertimbang. Konversi dilaksanakan oleh algoritma tata letak gaya terbuka yang diarahkan oleh Ord. Itu membuat transformasi dari matriks 2D ke topologi berbasis pohon. Berat masing-masing node sesuai dengan frekuensi kata tunggal (tidak ditampilkan) sedangkan panjang tepi adalah fungsi terbalik dari frekuensi bigram. Saya mempertimbangkan antara sentralitas (BC) dan tetangga terdekat yang dimodifikasi. Entitas dengan BC ekstra tinggi dapat dianggap sebagai hub informasi, yang memengaruhi semantik: penghapusan entitas ini sebagian besar memengaruhi informasi . Tetangga terdekat didasarkan pada analisis frekuensi kejadian bersama. Saya mempertimbangkan pemesanan tetangga yang dimodifikasi. BC tetangganya terbalik dengan co-occence distance (CD) digunakan sebagai fungsi pembobotan: BC / CD.


gambar


Kami memeriksa tetangga terdekat di sekitar BC Root yang dipilih: #Life. Nilai #Man (No. 1) hampir menyatu dengan penarik #Life. #Propreation (No. 2), #Family (No. 3) adalah entitas terdekat berikutnya dengan nilai BC / CD yang lebih rendah. Nilai respons direpresentasikan dalam urutan berikut: #Man No. 1, #Job No. 2, #Penciptaan No. 3. Harus diperhatikan bahwa bias topik jelas ada dalam kelompok respons. Namun pemisahan nilai-nilai pribadi dan kelompok (#Man wakil #Life) adalah luar biasa terlepas dari kebisingan topik. Grafik didasarkan pada 10.000 bigrams paling sering: 44% dari data. Namun 5 entitas teratas yang diperingkat oleh BC / CD tidak berubah setelah diubah menjadi 50% dan 88% dari kamus bigram.


Hasil yang dipertimbangkan berkorelasi dengan pengamatan empiris dalam psikologi. Akibatnya mereka terlebih dahulu mengkonfirmasi algoritme BC / CD yang dipilih mulai untuk pengakuan penarik semantik. Sangat nyaman jika Anda berurusan dengan Data Noise Teks / Pidato Besar. Ini dapat digunakan untuk penambangan kata kunci dalam kaitannya dengan entitas yang dipilih atau dalam istilah absolut. Anda dapat membaca lebih lanjut di sini . Instrumen mungkin memiliki aplikasi dalam evaluasi SDM juga. Penulis melakukan penelitian yang relevan di segmen berbahasa Inggris dan mencari kolaborasi. Versi lengkap dari penelitian ini ditangguhkan dalam jurnal peer-review. Namun Anda dapat meminta konsep atas permintaan pribadi . Terima kasih


Saya ingin mengucapkan terima kasih kepada Dmitry Vodyanov atas diskusi yang bermanfaat ini.

Source: https://habr.com/ru/post/id470301/


All Articles