كيف يمكن لقراءة العلم أن تفيد العلم؟

آخر مرة كتبنا فيها حبري عن التعهيد الجماعي للبيانات اللغوية . كان الأمر يتعلق بالترميز المورفولوجي (جزء من علامات الكلام) للنصوص الحديثة باللغة الروسية. منذ ذلك الحين ، تم تمييز حوالي 2.2 مليون مهمة ، وشارك حوالي 3 آلاف شخص في ذلك. مشينا أكثر من نصف الطريق. شكرا لمساعدتنا!

في OpenCorpora ، نقوم بإنشاء بيانات مفتوحة للتدريب واختبار النماذج الرياضية لتحليل النص باللغة الروسية. وهكذا ، فإننا نساعد اللغويات الحاسوبية الروسية على اللحاق باللغة الغربية. ثم سنساعد على تجاوز ؛)

اليوم سنتحدث عن ترميز الكيانات المسماة. هذه طبقة أخرى من ترميز النص في Open Enclosure. سنسلط في النص الضوء على أسماء الأشخاص وأسماء الشركات والأشياء الجغرافية.




لماذا نفعل هذا؟

بدأنا الوسم الصرفي واستمرنا بمبادرة منا. نحن نعمل على ترميز الكيانات جنبًا إلى جنب مع اللجنة المنظمة لمسابقة factRuVal-2016 ، والتي ستعقد كجزء من مؤتمر Dialog-21 حول اللغويات الحاسوبية . في هذه المرحلة ، لا يتم وضع علامة على الكيانات في المجموعة بأكملها ، ولكن فقط في مجموعة فرعية صغيرة منها ، والتي ستصبح مجموعات تدريب واختبار للمشاركين في المسابقة. في المجموع ، هذا هو حوالي 1000 نص إخباري في مجلد من 3 إلى 4 فقرات. كالعادة ، سيتم نشر نتيجة الترميز بموجب ترخيص المشاع الإبداعي. سيتم نشر الجزء التدريبي من المجموعة لأنه خاضع للإشراف ، وسيتم نشر ترميز الجزء التجريبي قبل نهاية المسابقة ونتائجها.

ما هو ترميز الكيانات المسماة؟

يعد استخراج الكيانات المسماة من النص إحدى الوظائف المطلوبة في تحليلات النص (انظر هذا بالتفصيل ، على سبيل المثال ، في مدونة Textocat ).

سيكون من الرائع إذا كان هناك عشرات الحلول المتنافسة التي ستدرج جميع الكائنات المذكورة في النص ، وتعطي أسماءها المعيارية ومعرفات الكائنات المقابلة لها. وكل هذا للغة الروسية والمصدر المفتوح. من خلال المشاركة في تنظيم مسابقة factRuVal وإعداد البيانات الخاصة بها ، نخطو خطوة في هذا الاتجاه وندعوك للانضمام.

باختصار ، يتكون اختيار الكيانات المسماة من العثور على الأسماء المناسبة في النصوص (الأسماء الكاملة للأشخاص وأسماء المنظمات والأشياء الجغرافية) ، وتسليط الضوء عليها ووضع علامة عليها بالعلامة المناسبة. على سبيل المثال ، بالنسبة للأشخاص ، من الضروري ملاحظة اللقب والاسم والنص بشكل منفصل ، ثم دمج الأجزاء المحددة في مرجع واحد إلى كائن من النوع شخص. كتبنا تعليمات مفصلة حول هذا وسجلنا فيديو صغير .



ماذا سيحدث بعد ذلك؟

كيانات الوسم جارية بالفعل. الخطوات التالية في ترميز مجموعة من النصوص ل factRuEval ستكون تحديد المراجع للكائنات فيما بينها ، وارتباطها بـ WikiDataوترميز الحقائق. تشير النقطتان الأوليان إلى أن العديد من المراجع المنفصلة في نص نفس الكائن في العالم الحقيقي (على سبيل المثال ، Ivanov Ivan و Ivanov و Ivanov II) سيتم دمجها مع بعضها البعض في كيان واحد. سيتم تحديد معرف من WikiData لهذا الكيان.



بالوقائع نعني العلاقات الموضحة في النص بين الأشياء التي تم تسليط الضوء عليها بالفعل في المراحل السابقة: علاقة الاحتلال (العمل في الشركة) بين الشخص والمنظمة ، وعلاقة الملكية بين الشخص والمنظمة والعلاقات الأخرى المماثلة.



كيف تساعدنا؟

1. المشاركة في الترميز.
الآن لدينا مجالان للعمل: الكيانات المسماة والمورفولوجيا. لإكمال المهام في كلا الاتجاهين ، ما عليك سوى قراءة التعليمات.

2. اكتب عن هذا العمل على الشبكات الاجتماعية واطلب من أصدقائك مساعدتنا.
لا يقرأ الجميع GeekTimes ، ولكن الكثير منهم على استعداد للمساعدة قليلاً.

تحديث: رابط مباشر لترميز الكيان: http://opencorpora.org/ner.php (موجود في التعليمات ، فليكن هنا أيضًا).

Source: https://habr.com/ru/post/ar388061/


All Articles