Bagaimana membaca sains bermanfaat bagi sains?

Terakhir kali kami menulis di Habré tentang crowdsourcing data linguistik . Itu tentang marka morfologis (bagian dari penandaan ucapan) teks-teks modern dalam bahasa Rusia. Sejak itu, sekitar 2,2 juta tugas telah ditandai, dan sekitar 3 ribu orang telah ambil bagian dalam hal ini. Kami telah berjalan sedikit lebih dari setengah jalan. Terima kasih telah membantu kami!

Di OpenCorpora, kami membuat data terbuka untuk pelatihan dan pengujian model matematika dari analisis teks dalam bahasa Rusia. Dengan demikian, kami membantu linguistik komputer Rusia mengejar ketinggalan dengan yang barat. Maka kami akan membantu untuk menyalip;)

Hari ini kita akan berbicara tentang markup entitas yang disebutkan. Ini adalah lapisan lain dari markup teks di Open Enclosure. Kami akan menyoroti dalam teks nama-nama orang, nama-nama perusahaan dan objek geografis.




Kenapa kita melakukan ini?

Kami memulai penandaan morfologis dan melanjutkan inisiatif kami sendiri. Kami mengerjakan markup entitas bersama dengan panitia penyelenggara kompetisi factRuEval-2016 , yang akan diadakan sebagai bagian dari konferensi Dialog-21 tentang linguistik komputer . Pada tahap ini, entitas tidak ditandai di seluruh gedung, tetapi hanya sebagian kecil dari itu, yang akan menjadi pelatihan dan koleksi tes untuk para peserta kompetisi. Secara total, ini adalah sekitar 1000 teks berita dalam volume 3-4 paragraf. Seperti biasa, hasil markup akan dipublikasikan di bawah lisensi Creative Commons. Bagian pelatihan dari koleksi akan dipublikasikan karena dimoderasi, dan markup bagian pengujian akan diterbitkan tidak lebih awal dari akhir kompetisi dan hasilnya.

Apa markup dari entitas bernama?

Mengekstrak entitas bernama dari teks adalah salah satu fungsi analitik teks yang dicari (lihat ini secara rinci, misalnya, di blog Textocat ).

Akan keren jika ada beberapa lusin solusi yang bersaing yang akan mendaftar semua objek yang disebutkan dalam teks, memberikan nama-nama yang dinormalisasi dan pengidentifikasi objek yang sesuai. Dan semua ini untuk bahasa Rusia dan open source. Mengambil bagian dalam organisasi kompetisi factRuEval dan dalam persiapan data untuk itu, kami mengambil langkah ke arah ini dan mengundang Anda untuk bergabung.

Singkatnya, pemilihan entitas bernama terdiri dari menemukan nama yang tepat dalam teks (nama lengkap orang, nama organisasi dan objek geografis), menyorotnya dan menandainya dengan tag yang sesuai. Misalnya, untuk orang, perlu mencatat nama keluarga, nama, dan patronimik secara terpisah, dan kemudian menggabungkan segmen yang dipilih menjadi satu referensi ke objek tipe Orang. Kami menulis instruksi terperinci tentang ini dan merekam video kecil .



Apa yang akan terjadi selanjutnya?

Menandai entitas sudah berlangsung. Langkah-langkah selanjutnya dalam menandai kumpulan teks untuk factRuEval akan menjadi identifikasi referensi ke objek di antara mereka sendiri, hubungannya dengan WikiDatadan markup fakta. Dua poin pertama menyiratkan bahwa beberapa referensi terpisah dalam teks dari objek yang sama dari dunia nyata (misalnya, Ivanov Ivan, Ivanov dan Ivanov II) akan digabungkan satu sama lain menjadi satu entitas. Pengidentifikasi dari WikiData akan ditentukan untuk entitas ini.



Yang kami maksud adalah hubungan yang dijelaskan dalam teks di antara objek-objek yang telah disorot pada tahap sebelumnya: hubungan kerja (bekerja di perusahaan) antara orang dan organisasi, hubungan kepemilikan antara orang dan organisasi dan hubungan serupa lainnya.



Bagaimana cara membantu kami?

1. ambil bagian dalam markup.
Sekarang kami memiliki dua bidang kerja: entitas bernama dan morfologi. Untuk menyelesaikan tugas di kedua arah, cukup baca instruksi.

2. Tulis tentang pekerjaan ini di jejaring sosial dan minta teman Anda untuk membantu kami.
Tidak semua orang membaca GeekTimes, tetapi banyak yang bersedia membantu sedikit.

Pembaruan: Tautan langsung ke markup entitas: http://opencorpora.org/ner.php (ada dalam instruksi, biarkan ada di sini juga).

Source: https://habr.com/ru/post/id388061/


All Articles