❄️ ➡️ 👎 Apa yang akan menjadi "Dialog" ahli bahasa dan analisis data 🤙🏻 👉 ☝🏻

Dari 29 Mei hingga 1 Juni, konferensi ilmiah internasional ke-25 tentang linguistik komputer dan " Dialog " teknologi intelektual akan diadakan di Universitas Kemanusiaan Negara Rusia (RSUH). Tentang apa "Dialog" itu dan mengapa ABBYY adalah organisator utamanya, kami sudah berbicara tentang Habré . Dalam posting ini, kita akan berbicara tentang topik utama konferensi, pembicara utama, laporan mereka dan empat kompetisi untuk membuat sistem analisis teks otomatis dalam kerangka Evaluasi Dialog .

Tahun ini, Dialog akan memiliki beberapa topik utama:

Penggunaan jaringan saraf untuk analisis bahasa . Secara umum diterima bahwa pembelajaran mendalam adalah transformasi data mentah menjadi hasil (yang disebut end-to-end), di mana agak sulit untuk menafsirkan "logika" produksinya dalam konsep linguistik yang bermakna. Tetapi mengapa tidak menggunakan jaringan saraf untuk mendapatkan pengetahuan tentang bahasa itu sendiri?
Penggunaan model bahasa yang lebih kompleks dalam pembelajaran mendalam . Tren penting lain untuk Dialog: model distribusi ( embedding ) jelas berkembang dari metode " rumah sakit menengah" untuk memperoleh - ke penggunaan konteks, informasi sintaksis dan semantik.
Penerapan metode analisis data besar untuk tugas yang hanya ada sedikit data . 2019 telah dinyatakan sebagai Tahun Internasional Bahasa Adat , sehingga peserta dalam salah satu sesi Dialog akan membahas metode menggunakan pembelajaran mesin untuk menggambarkan dan melestarikan bahasa “sumber daya rendah” (misalnya, Evenki atau Selkup).
Korps Multichannel : hari ini ada kecenderungan untuk mempelajari tindak tutur secara keseluruhan, termasuk bagian verbal, intonasi, ekspresi wajah, gerak tubuh. Penelitian semacam itu sangat penting ketika melatih robot, asisten cerdas, dan chat bot.

Pakar internasional terkenal dalam linguistik komputer secara tradisional diundang ke Dialog. Tahun ini konferensi dihadiri oleh:

Chris Beeman dari Universitas Hamburg. Salah satu analis terkemuka di bidang semantik komputer. Dia akan berbicara tentang teknologi pembelajaran mesin adaptif yang memperhitungkan pengalaman individu. 31 Mei (Jumat), 3 sore - 4 sore

Peak Vossen dari Amsterdam Free University, Pendiri dan Presiden Global WordNet Association. Bidang minat utamanya adalah interaksi verbal seseorang dan komputer. Peak Vossen akan membuat presentasi tentang "Robot komunikatif yang mempelajari orang dan dunia." Dia akan berbicara tentang model robot yang mempelajari informasi tentang dunia dan lawan bicaranya melalui komunikasi bahasa alami. Robot mempelajari segala sesuatu yang orang katakan kepadanya, apa yang diamati dalam situasi yang berbeda, dan semua yang ditemukannya di Internet. 30 Mei (Kamis), 3 sore - 4 sore

Secara total, "Dialog" akan menyajikan 102 laporan jalur utama dan sekitar 20 laporan siswa. 29 Mei, pada hari pertama konferensi, pembicara berikut akan membuat presentasi :

Andrey Kibrik , Direktur Institut Linguistik dari Akademi Ilmu Pengetahuan Rusia. Dia akan membuat presentasi tentang metode corpus baru yang dibuat oleh kelompok risetnya untuk memperbaiki elemen komunikasi bicara dan isyarat. 29 Mei (Rabu), 10: 30-11: 50

Igor Boguslavsky , profesor di Universitas Teknologi Madrid, dan rekan-rekannya akan berbicara tentang bagaimana komputer dapat dilatih untuk menganalisis dengan benar apa yang dikenal sebagai "Skema Vinohrad" adalah yang baru dan lebih kompleks daripada tes Turing tradisional, cara untuk mengevaluasi kemampuan sistem kecerdasan buatan untuk memahami bahasa. 29 Mei, 12: 20-13: 30.

Valentina Apresyan , profesor di HSE School of Linguistics. Laporannya dikhususkan untuk implikasi : tidak secara eksplisit diungkapkan, tetapi makna dan asumsi berasal dari teks. Studi tentang implikasi, terutama yang palsu, memungkinkan, misalnya, untuk mengidentifikasi publikasi yang tidak adil di media. 29 Mei, 12: 20-13: 30.

Akan ada banyak hal menarik di hari lain. Secara tradisi, Dialog menaruh perhatian besar pada kemampuan ekspresif baru dari bahasa tersebut. Misalnya, Maria Polinskaya dari Universitas Harvard dan Irina Levontina dari OJ Institute akan menganalisis ekspresi emosional yang menjadi populer dalam pidato mereka, seperti "Mereka harus menggunakan infinitif" (omong-omong, ini adalah nama laporannya. Anda dapat mendengarkannya pada 30 Mei, 10: 00-13: 30 ) Antonina Laposhina dari Pushkin Institute dalam laporannya, "Apakah menurut Anda dingin?" menganalisis komposisi leksikal buku teks bahasa Rusia untuk sekolah dasar - dari sudut pandang ahli bahasa modern (29 Mei, 15: 00-18: 30).

Tentu saja, banyak pekerjaan yang dikhususkan untuk topik hangat penerapan jaringan saraf untuk masalah analisis bahasa. Sebagai contoh, pada tanggal 31 Mei, bagian khusus dari Dialog dikhususkan untuk bidang penelitian penting seperti model bahasa dalam pembelajaran mendalam, transfer pembelajaran, dll.

Pada tanggal 30 Mei, pukul 19:00, sebuah meja bundar akan diadakan mengenai prospek pemodelan tindak tutur dalam interaksi seseorang dengan komputer. Arah ini berkembang pesat, dan tidak mudah bagi linguistik multimodal analitik untuk mengikuti metode modern apa yang dapat dilakukan oleh analisis array besar informasi audiovisual.
31 Mei, pukul 19:00, kami mengundang Anda ke meja bundar “ Brave New DL Word: di mana tempat NLP? ". Peserta dalam diskusi akan membahas tesis "provokatif" bahwa NLP hari ini adalah "larut" dalam teknologi pembelajaran mesin dalam dan kehilangan status disiplin ilmu independen. Tentu saja, banyak peneliti tidak akan setuju dengan pernyataan ini, dan kami akan mengharapkan penampilan menarik dari lawan.

Salah satu peristiwa penting dari Dialog ini adalah penjumlahan dari kompetisi teknologi antara pengembang sistem analisis linguistik teks Evaluasi Dialog . Kompetisi tahun ini diadakan dalam empat tugas:

pembuatan berita utama secara otomatis;
analisis otomatis bahasa sumber daya rendah (ketika hanya ada sedikit data untuk pembelajaran mesin);
resolusi otomatis anafora dan penentuan rantai referensi (berbagai referensi ke objek yang sama dalam teks),
pemulihan kata secara otomatis berdasarkan konteks (beberapa varietas ellipsis).

Untuk melakukan kompetisi seperti itu, seperti biasa, perlu membuat data yang disiapkan secara khusus (dataset) untuk melatih algoritma yang diuji. Ini bukan pertama kalinya teknologi ABBYY terlibat dalam menciptakan kumpulan data semacam itu sebagai bagian dari kompetisi untuk analisis teks dalam bahasa alami . Ini memungkinkan kami untuk membuat selungkup lebih besar karena besarnya jumlah preprosesing yang dilakukan oleh komputer. Secara lebih rinci kami akan segera menceritakannya di Habré. Hasil Evaluasi Dialog akan diringkas pada "Dialog":

30 Mei, 10: 00-13: 30, sesi khusus berdasarkan hasil pengujian sistem pemrosesan otomatis untuk pemetaan elipsis.
31 Mei, 10: 00-13: 30, sesi khusus berdasarkan hasil pengujian sistem analisis anafora dan sesi khusus berdasarkan hasil pengujian sistem pembuatan headline berita
1 Juni, 10: 00-13: 30, sesi khusus berdasarkan sistem pengujian untuk menggambarkan bahasa sumber daya rendah.

Bahasa konferensi yang berfungsi adalah Rusia dan Inggris. Program konferensi terperinci tersedia di sini .

Proses konferensi akan diterbitkan dalam buku tahunan " Linguistik Komputer dan Teknologi Cerdas ", yang merupakan bagian dari sistem kutipan internasional Scopus .

Anda dapat mendaftar di sini , pendaftaran berlangsung hingga 28 Mei. Ketentuan partisipasi .

Elizaveta Titarenko, editor blog perusahaan ABBYY
dengan partisipasi Vladimir Selegey, Direktur Studi Linguistik di ABBYY

Apa yang akan menjadi "Dialog" ahli bahasa dan analisis data

More articles: