Apa yang dilakukan R&D ABBYY: NLP Advanced Research Group

Apa yang mereka lakukan di departemen R&D di ABBYY? Untuk menjawab pertanyaan ini, kami memulai serangkaian publikasi tentang bagaimana pengembang kami menciptakan teknologi baru dan meningkatkan solusi yang ada. Hari ini kita akan berbicara tentang jalur Natural Language Processing (NLP).

Kami di ABBYY terlibat dalam penelitian di bidang pemrosesan bahasa alami dan menangani masalah ilmiah yang kompleks yang tidak ada solusi siap pakai. Jadi kami menciptakan inovasi yang membentuk dasar produk dan membantu pelanggan kami, dan kami bergerak maju. Ngomong-ngomong, pada tanggal 24 November, pada sebuah kuliah di School of Deep Learning di Institut Fisika dan Teknologi Moskow, Ivan Smurov, kepala NLP Advanced Research Group di departemen R&D ABBYY, akan memberi tahu Anda apa masalah analisis teks di dunia dan bagaimana jaringan saraf modern dapat menyelesaikannya. Dan di pos ini, Ivan memberi tahu kami tentang tiga tugas yang sedang dikerjakannya.

Penting bagi kolega-kolega dari NLP Advanced Research Group untuk memilih tugas-tugas yang terisolasi, yaitu, tidak terlalu ketat terkait dengan teknologi dan solusi ABBYY yang ada. Kadang-kadang karyawan kita sendiri menemukan tugas-tugas seperti itu, kadang-kadang R&D kita berbicara tentang mereka dan meminta bantuan dengan solusi mereka, dan kemudian dengan publikasi hasil dalam jurnal ilmiah. Jadi, tugas pertama.

Sammarisasi: tidak lebih rumit daripada menceritakan kembali?


Teknik analisis teks ini memungkinkan Anda mengubahnya menjadi menceritakan kembali atau anotasi. Dalam bentuk ini, orang telah lama menggunakan sammarisasi. Kami di ABBYY mencoba menerapkan teknik sammarisasi dalam arti yang diperluas: kami berusaha menyelesaikan masalah-masalah yang secara tradisional tidak diselesaikan dengan bantuan sammarisasi, misalnya, untuk mendapatkan karakteristik integral dari teks dan menyoroti peristiwa yang terjadi dalam teks.

Sammarisasi dapat menyederhanakan saluran pipa tradisional. Sebagai contoh, sekarang, untuk mengekstraksi nama-nama perusahaan pihak ke kontrak dari dokumen, banyak tugas NLP berurutan secara tradisional diselesaikan, dari mengidentifikasi entitas untuk menyaring fakta yang diekstraksi. Semua tugas ini tergantung satu sama lain, dan yang paling penting, masing-masing membutuhkan markup referensi sendiri. Dan menciptakan markup dalam pembelajaran mesin adalah salah satu hal yang paling mahal.

Dengan bantuan sammarization, adalah mungkin untuk mengekstraksi fakta dari ujung ke ujung, yaitu, tanpa langkah menengah, subtugas dan markup. Dan itu akan sesederhana dan secepat menceritakan kembali teks. Dan mungkin lebih murah.

Parsing sintaksis: mencari elipsis


Ingat, di sekolah kami melakukan parsing kalimat: subjek, predikat, tambahan? Dalam arti linguistik, penguraian kalimat lebih kompleks dan terperinci. Semuanya dapat digambarkan sebagai ketergantungan, di mana hal utama adalah predikat atau kata kerja, dan subjek, tambahan, dll tergantung padanya.Parser sintaksis berurusan dengan analisis kalimat dalam program modern. Biasanya, parser sintaksis menghabiskan sebagian besar waktu untuk membuat dan membuang nol sintaksis yang muncul dalam elipsis .

Berikut ini sebuah contoh: Misha memakan buah pir, dan Masha memakan buah apel . Baik dalam pidato lisan dan tertulis, kita hanya melewatkan kata kerja "ate" dan artinya bagi kita tidak berubah. Tetapi untuk linguistik komputer, mendefinisikan nol sintaksis adalah masalah yang kompleks. Ada banyak jenis elipsis, mereka dapat berada di tempat kalimat yang berbeda. Akibatnya, parser dipaksa untuk memeriksa ulang banyak hipotesis: apakah ada nol, yang sebenarnya bukan nol?

Memeriksa ulang seperti itu menyulitkan dan memperlambat pekerjaan parser, di samping itu, dibutuhkan banyak daya komputasi. Karena itu, kami menemukan cara baru untuk mencari tempat di mana sintaks nol cenderung terjadi. Ini akan mengurangi waktu selama parser akan menentukan elipsis.

Omong-omong, minat pada elipsis dalam linguistik komputer telah tumbuh secara signifikan tahun ini. Artikel penelitian " Kalimat dengan Gapping: Parsing dan Reconstructing Elided Predicates " diterbitkan oleh ahli bahasa komputer terbesar di zaman kita, Sebastian Schuster , Joachim Nivre, dan Christopher Mining . Dengan demikian, studi tentang elipsis adalah tugas yang baik, solusinya dapat memberikan hasil, baik untuk komunitas ilmiah maupun untuk aplikasi praktis.

Disambiguasi Leksikal


Apa itu "berhenti"? Ini mungkin objek di mana bus tiba, atau mungkin berhenti untuk proses, atau mungkin berhenti dalam pembicaraan. Kata itu satu, tetapi ia memiliki banyak arti.

Banyak perusahaan memiliki thesauri di mana makna ini dijelaskan. Lebih mudah untuk secara otomatis menerima dari urutan kata, bentuk kata atau token - urutan makna atau kelas semantik. Di ABBYY kami mencoba membuat model terisolasi yang secara akurat mendefinisikan makna kata dengan kualitas dan kecepatan yang baik. Jika Anda dengan cepat menghapus ambiguitas leksikal, maka Anda dapat dengan cepat mempercepat pekerjaan - apakah itu parsing atau mengekstraksi entitas / fakta yang disebutkan.

Dan apa hubungan jaringan saraf dan Deep Learning School dengannya?


Semua tugas ini diselesaikan menggunakan jaringan saraf. Bukan berarti mereka tidak dapat diselesaikan tanpa jaring, tetapi sekarang ini adalah metode yang paling modern. Jaringan saraf rekursif memberikan hasil yang lebih baik untuk tugas-tugas NLP. Jadi ini bukan hanya fenomena mode abstrak, tetapi apa yang digunakan dalam praktik untuk menyelesaikan berbagai tugas NLP.

Ivan Smurov akan memberi tahu Anda lebih banyak tentang tugas-tugas apa untuk analisis teks, bagaimana jaringan saraf modern digunakan untuk menyelesaikan masalah seperti itu di Rusia dan di dunia, pada kuliah di School of Deep Learning di Institut Fisika dan Teknologi Moskow. Kuliah akan diadakan Sabtu ini, 24 November, pukul 17:00, di 9 Dmitrovskoye Shosse.

Source: https://habr.com/ru/post/id430730/


All Articles