يُعقد مؤتمر
الحوار كل عام في موسكو ، ويشارك فيه خبراء اللغة وخبراء تحليل البيانات. يناقشون ماهية اللغة الطبيعية ، وكيفية تعليم الآلة لفهمها ومعالجتها. عقد المؤتمر تقليديا المسابقات (المسارات)
تقييم الحوار . يمكن أن يحضرهم ممثلون عن الشركات الكبيرة التي تنشئ حلولًا في مجال معالجة اللغات الطبيعية (معالجة اللغات الطبيعية ، البرمجة اللغوية العصبية) ، بالإضافة إلى الباحثين الأفراد. قد يبدو أنك إذا كنت طالبًا بسيطًا ، فهل تتنافس مع الأنظمة التي أنشأها كبار المتخصصين في الشركات الكبرى لسنوات. تقييم الحوار - هذا هو الحال بالضبط عندما يكون الطالب البسيط في الترتيب النهائي أعلى من شركة مشهورة.
ستكون هذه السنة التاسعة على التوالي عند إجراء تقييم الحوار في الحوار. كل عام يختلف عدد المسابقات. أصبحت مهام البرمجة اللغوية العصبية (NLP) ، مثل تحليل المعنويات ، واستقراء تحسس الكلمات ، وتصحيح الإملاء التلقائي ، والتعرف على الكيانات المسماة ، وغيرها من الموضوعات بالفعل للمسارات.

هذا العام ، أعدت أربع مجموعات من المنظمين مثل هذه المسارات:
- توليد عناوين الأخبار.
- قرار من الجاذبية والجوهر.
- التحليل الصرفي على مواد اللغات منخفضة الموارد.
- التحليل التلقائي لأحد أنواع القطع (القطع).
اليوم سوف نتحدث عن آخرها: ما هو القطع الناقص والسبب في تعليم السيارة كيفية استعادتها في النص ، وكيف أنشأنا مبنى جديد لحل هذه المشكلة ، وكيف أجريت المسابقات والنتائج التي يمكن للمشاركين تحقيقها.
AGRR-2019 (دقة الثغرات التلقائية للروسية)
في خريف عام 2018 ، واجهنا مهمة بحث تتعلق بقطع ناقص - إهمال مقصود لسلسلة من الكلمات في نص يمكن استعادته من السياق. كيفية العثور تلقائيا على مثل هذه الفجوة في النص وتعبئته بشكل صحيح؟ من السهل بالنسبة للمتحدث الأصلي ، ولكن تعليم هذه السيارة ليس بالأمر السهل. بسرعة كبيرة أصبح من الواضح أن هذه مادة جيدة للمنافسة ، وقد وصلنا إلى العمل.
إن تنظيم المسابقات حول موضوع جديد له خصائصه الخاصة ، ويبدو لنا أنها مزايا إلى حد كبير. واحدة من الأشياء الرئيسية هي إنشاء مجموعة (العديد من النصوص مع العلامات التي يمكنك التعلم). ما الذي يجب أن يبدو عليه وكم يجب أن يكون؟ بالنسبة للعديد من المهام ، توجد معايير لتقديم البيانات يمكن البناء عليها. على سبيل المثال ، بالنسبة
لمهمة تحديد الكيانات المسماة ، فقد تم تطوير مخططات ترميز IO / BIO / IOBES ، ولمهام التحليل النحوي والمورفولوجي الذي يستخدم فيه تنسيق CONLL تقليديًا ، لا يلزم اختراع أي شيء ، ولكن يجب اتباع الإرشادات بدقة.
في حالتنا ، كان الأمر متروكًا لنا لتجميع السلك وصياغة المهمة.
هنا هذه المهمة ...
هنا سيتعين علينا حتما تقديم مقدمة لغوية شائعة حول ما هو القطع الإهليلجي بشكل عام والنقر كأحد أنواعه.
مهما كانت الأفكار التي لديك عن اللغة ، من الصعب القول بأن مستوى تعبير السطح (النص أو الكلام) ليس هو الوحيد. العبارة المذكورة هي غيض من فيض. يتضمن الجبل الجليدي نفسه تقييمًا عمليًا ، وإنشاء بنية نحوية ، واختيار المواد المعجمية وما إلى ذلك. Ellipsis هي ظاهرة تربط بشكل جميل مستوى السطح بالعمق. هذا هو حذف عناصر بناء جملة مكررة. إذا قدمنا التركيب النحوي للجملة في شكل شجرة ويمكن تحديد نفس الأشجار الفرعية في هذه الشجرة ، فغالبًا (ولكن ليس دائمًا) لكي تكون الجملة طبيعية ، يتم حذف العناصر المكررة. يسمى هذا الإزالة علامة القطع (مثال 1).
(1)
لم يتصلوا بي ، ولا أفهم لماذا لم يتصلوا بي .يمكن استعادة الفجوات التي تم الحصول عليها عن طريق القطع بشكل لا لبس فيه من سياق اللغة. قارن المثال الأول مع الثاني (2) ، حيث يوجد تمريرة ، لكن ما هو مفقود بالضبط ليس واضحًا. هذه الحالة ليست حذف.
(2)

يعد Gapping أحد أنواع تردد الحذف. النظر في المثال (3) وفهم كيف يعمل.
(3)
لقد ظننت أنها إيطالي ، وهو من أجل السويدي.في جميع الأمثلة ، يوجد أكثر من جملتين (جمل) ، وهي تتكون فيما بينها. في الفقرة الأولى ، يوجد فعل (من المرجح أن يقول اللغويون "المسند")
وقبله المشاركون فيه:
أنا ،
هي ، والإيطالية . في الفقرة الثانية ، لا يوجد تعبير صريح ، لا يوجد سوى "فلول" (أو فلول)
منه وللسويد غير مرتبطين جملة ، ولكننا نفهم كيف تتم استعادة التمرير.
لاستعادة المسار ، ننتقل إلى البند الأول وننسخ الهيكل بأكمله منه (مثال 4). نستبدل فقط تلك الأجزاء التي توجد بها فلول "متوازية" في جملة غير كاملة. لقد قمنا بنسخ المسند ، واستبدله
به ،
والإيطالية نستبدل به بقايا
السويدي . بالنسبة
لي ، لم يكن هناك بقايا متوازية ، مما يعني أننا نسختها دون استبدال.
(4)
لقد ظننتها على أنها إيطالي ، وخطأتها على أنها سويدي.يبدو أنه من أجل استعادة الفجوة ، يكفي أن نحدد ما إذا كان هناك فجوة في هذه الجملة ، والعثور على جملة غير كاملة والمادة بأكملها المرتبطة بها (التي أخذت منها المادة المراد استعادتها) ، ومن ثم فهم ماهية "البقايا" (البقايا) الموجودة في الفقرة غير المكتملة و ما تتوافق تماما. يبدو أن هذه الشروط كافية لملء الفجوة بشكل فعال. وبالتالي ، نحاول تقليد العملية في رأس شخص يقرأ أو يسمع نصًا قد يكون فيه حذف.
فلماذا هذا مطلوب؟
من الواضح أنه بالنسبة إلى الشخص الذي يسمع أولاً عن الحذف وصعوبات المعالجة المرتبطة به ، قد يطرح سؤال شرعي ، "لماذا؟" يرغب المتشككون في
دعوة آباء العلوم اللغوية إلى
القراءة ليوضحوا أنه إذا كان حل المشكلة التطبيقية يوفر مادة يمكن أن تكون مفيدة في البحث النظري ، فهذا يمثل بالفعل إجابة كافية على سؤال حول الغرض من هذا النشاط.
ظل المنظرون يدرسون القطع الناقص بلغات مختلفة منذ حوالي 50 عامًا ، ووصفوا القيود ، وسلطوا الضوء على الأنماط العامة بلغات مختلفة. في الوقت نفسه ، نحن لسنا على علم بوجود جسم يُظهر أي نوع من علامات القطع مع أكثر من بضع مئات من الأمثلة. ويرجع ذلك جزئيًا إلى ندرة الظاهرة (على سبيل المثال ، على بياناتنا ، لا يتم العثور على الرهان في أكثر من 5 جمل من أصل 10 آلاف). وبالتالي فإن إنشاء مثل هذا الفيلق هو بالفعل نتيجة مهمة.
في أنظمة التطبيق التي تعمل مع البيانات النصية ، يتيح لك ندرة الظاهرة ببساطة تجاهلها. عدم قدرة المحلل اللغوي على استعادة الثغرات المفقودة لا يجلب بالضبط الكثير من الأخطاء. ولكن من الأحداث النادرة ، يتم تشكيل محيط لغوي واسع النطاق ومتنوع. يبدو أن تجربة حل مثل هذه المشكلة في حد ذاتها يجب أن تكون موضع اهتمام أولئك الذين يرغبون في إنشاء أنظمة لا تعمل فقط على نصوص بسيطة وقصيرة ونظيفة مع مفردات مشتركة ، أي على نصوص كروية في فراغ لا يحدث عملياً في الطبيعة.
قليل من المحللون يتباهون بنظام فعال لاكتشاف وحل القطع. ولكن في المحلل اللغوي الداخلي ABBYY ، هناك وحدة مسؤولة عن استعادة التمريرات ، وهي تستند إلى قواعد مكتوبة يدويًا. بفضل هذه القدرة من المحلل اللغوي ، تمكنا من إنشاء هيئة كبيرة للمسابقة. تتمثل الفائدة المحتملة للمحلل الأصلي في استبدال وحدة بطيئة التشغيل. أيضًا ، أثناء العمل على القضية ، أجرينا تحليلًا تفصيليًا لأخطاء النظام الحالي.
كيف أنشأنا الجسم
تم تصميم مبنىنا أساسًا لتدريب الأنظمة التلقائية ، مما يعني أنه من الأهمية بمكان أن تكون ضخمة ومتنوعة. تسترشد بهذا ، قمنا ببناء عمل جمع البيانات على النحو التالي. بالنسبة إلى السلك ، اخترنا نصوصًا من أنواع مختلفة: من الوثائق الفنية وبراءات الاختراع إلى الأخبار ومنشورات من وسائل التواصل الاجتماعي. تم تمييز كل منهم بواسطة محلل ABBYY. خلال شهر ، قمنا بتوزيع البيانات بين اللغويين. تمت دعوة العلامات ، دون تغيير العلامات ، لتقييمها على نطاق واسع:
0 - لا يوجد أي تعيين في الجملة ، والعلامة غير ذات صلة.
1 - هناك تعيين ، وعلاماته صحيحة.
2 - هناك فجوة ، ولكن هناك خطأ ما في العلامات.
3 - حالة صعبة ، هل هي خريطة على الإطلاق؟
نتيجة لذلك ، أصبحت كل مجموعة في متناول يدي. تندرج أمثلة من الفئة 1 في الفئة الإيجابية لمجموعة البيانات الخاصة بنا. لم نرد بشكل أساسي إعادة صياغة الأمثلة يدويًا من الفئتين 2 و 3 لتوفير الوقت ، لكن هذه الأمثلة كانت مفيدة لنا في وقت لاحق لتقييم مجموعتنا الناتجة. من بينهم ، يمكن للمرء الحكم على الحالات التي يصادفها النظام بشكل غير صحيح ، مما يعني أنهم لا يقعون في سلكنا. وأخيرًا ، بما في ذلك في أمثلة الحالة التي صنفتها العلامات على أنها الفئة 0 ، فقد منحنا الأنظمة الفرصة "للتعلم من أخطاء الآخرين" ، ليس فقط محاكاة سلوك النظام الأصلي ، ولكن العمل بشكل أفضل منه.
تم تقييم كل مثال بواسطة علامتين. بعد ذلك ، وصل أكثر من نصف المقترحات إلى السلك من البيانات المصدر. فئة كاملة من الأمثلة الإيجابية وجزء من السلبية يتكون منها. قررنا أن نجعل الفصل السلبي ضعفًا إيجابيًا بحيث يمكن ، من ناحية ، أن تكون الفصول قابلة للمقارنة في الحجم ، ومن ناحية أخرى ، يتم الحفاظ على غلبة الطبقة السلبية الموجودة في اللغة.
للامتثال لهذه النسبة ، اضطررنا إلى إضافة المزيد من الأمثلة السلبية على الحالة ، بالإضافة إلى الأمثلة الموضحة للفئة 0. ونقدم مثالًا (5) من الفئة 0 ، والذي لا يمكن أن يخلط بين السيارة فحسب ، بل أيضًا الشخص.
(5)
ولكن بحلول ذلك الوقت كان جاك في حب سيندي بيج ، والآن السيدة جاك سفيتيك.في الفقرة الثانية ، لا تتعافى
في الحب ، لأنني أقصد الآن أن Cindy Page أصبحت السيدة Jack Svaytek لأنها تزوجته.
بشكل عام ، بالنسبة لهذه الظاهرة النحوية النادرة نسبيًا مثل الفجوة ، فإن المثال السلبي هو أي جملة عشوائية تقريبًا من اللغة ، لأن احتمال وجود فجوة صغيرة في جملة عشوائية. ومع ذلك ، يمكن أن يؤدي استخدام هذه الأمثلة السلبية إلى إعادة التدريب على علامات الترقيم. في حالتنا ، تم الحصول على أمثلة للفئة السالبة وفقًا لمعايير بسيطة: وجود الفعل ، ووجود فاصلة أو شرطة ، والحد الأدنى لطول الجملة لا يقل عن 6 رموز.
للمسابقة ، اخترنا من جزء تطوير مبنى التدريب (بنسبة 1: 5) ، والذي تمت دعوة المشاركين لاستخدامه لتكوين أنظمتهم. تم تدريب النسخ النهائية للأنظمة على الأجزاء المدمجة للقطار و dev. لقد صنفنا يدويًا حالة الاختبار (الاختبار) من تلقاء نفسه ، من حيث الحجم ، فهو الجزء العاشر من train + dev. هنا هو بالضبط عدد الأمثلة على الفصل:
بالإضافة إلى بيانات التدريب التي تم التحقق منها يدويًا ، أضفنا ملف ترميز خام تم استلامه من النظام المصدر. يوجد أكثر من 100 ألف مثال ، ويمكن للمشاركين استخدام هذه البيانات اختياريًا لاستكمال نموذج التدريب. بالنظر إلى المستقبل ، نقول إن مشاركًا واحدًا فقط اكتشف كيفية زيادة مبنى التدريب بشكل كبير باستخدام بيانات قذرة دون فقدان الجودة.
تنسيق العلامات
لقد رفضنا بشكل متعمد استخدام موزعي الطرف الثالث ووضع علامة تمييزية يتم تمييز كل العناصر التي تهمنا خطيًا في سطر النص. استخدمنا نوعين من العلامات. تم تصميم الأول ، الذي يمكن قراءته من قبل الإنسان ، للعمل مع العلامات ، وهو مناسب لتحليل أخطاء الأنظمة الناتجة. باستخدام هذه الطريقة ، يتم وضع علامة على كل عناصر الفجوة بين قوسين مربعين داخل الجملة. يتم تمييز كل زوج من الأقواس مع اسم العنصر المقابل. استخدمنا الترميز التالي:

نعطي أمثلة من الجمل مع الفجوة مع الأقواس.



الوسم القوسي مناسب لتحليل المواد. في هذه الحالة ، يتم تخزين البيانات في تنسيق مختلف ، والتي ، إذا رغبت في ذلك ، يمكن تحويلها بسهولة إلى قوس. سطر واحد يتوافق مع جملة واحدة. تشير الأعمدة إلى وجود فجوة في الجملة ، ولكل تسمية محتملة في إزاحات رمزية لها في بداية ونهاية القطعة المقابلة للعنصر. هذه هي الطريقة التي تبدو بها علامة الإزاحة ، المقابلة لترميز الأقواس في ().
المهام للمشاركين
يمكن للمشاركين في AGRR-2019 حل أي من المشكلات الثلاث:
- التصنيف الثنائي من الضروري تحديد ما إذا كان هناك فجوة في الجملة.
- الحصول على إذن. من الضروري استعادة موضع التمرير (V) وموضع وحدة تحكم الفعل (cV).
- العلامات الكاملة. تحتاج إلى تحديد الإزاحات لجميع عناصر الفجوة.
يجب أن تحل كل مهمة تالية المهمة السابقة بطريقة أو بأخرى. من الواضح أن أي توصيف ممكن فقط في الجمل التي يظهر فيها التصنيف الثنائي فئة إيجابية (يوجد تخطيط) ، كما يتضمن التوصيف الكامل أيضًا العثور على حدود المسندات المفقودة والسيطرة.
المقاييس
بالنسبة لمشكلة التصنيف الثنائي ، استخدمنا مقاييس قياسية: الدقة والاكتمال ، وتم تصنيف نتائج المشاركين حسب المقياس f.
بالنسبة لمهام حل الفجوة والترميز الكامل ، قررنا استخدام مقياس f رمزي ، حيث لم يتم تشفير نصوص المصدر ولم نرغب في أن يؤثر الفرق في الرموز المميزة التي استخدمها المشاركون على النتائج. لم تسهم الأمثلة الحقيقية السلبية في التدبير الرمزي f ، لكل عنصر ترميز تم أخذ مقياس f الخاص به ، وتم الحصول على النتيجة النهائية عن طريق حساب المتوسط الكلي على كامل الجسم. بفضل هذا الحساب للقياس ، تم تغريم الحالات الإيجابية الخاطئة بشكل كبير ، وهو أمر مهم عندما يكون هناك أمثلة إيجابية أقل عدة مرات في البيانات الحقيقية من الأمثلة السلبية.
بالطبع المنافسة
بالتوازي مع جمعية المبنى ، قبلنا طلبات المشاركة في المسابقة. نتيجة لذلك ، سجلنا أكثر من 40 مشاركًا. ثم وضعنا مبنى التدريب وأطلقنا المسابقة. وكان المشاركون 4 أسابيع لبناء نماذجهم.
كانت مرحلة تقييم النتائج على النحو التالي: تلقى المشاركون 20 ألف عرض بدون علامات ، داخلها تم اختبار حالة اختبار. كان على الفرق وضع علامة على هذه البيانات مع أنظمتها ، وبعد ذلك قمنا بتقييم نتائج العلامات على مبنى الاختبار. إن مزج الاختبار في كمية كبيرة من البيانات يضمن لنا أنه ، مع كل رغباتنا ، لا يمكن تحديد الحالة يدويًا في الأيام القليلة التي تم تقديمها للتشغيل (وضع علامة تلقائية).
نتائج المنافسة
وصلت تسعة فرق إلى النهائيات ، بما في ذلك ممثلين لشركتي تكنولوجيا المعلومات ، وباحثين من جامعة موسكو الحكومية ، ومعهد موسكو للفيزياء والتكنولوجيا ، و HSE و IPPI RAS.
شاركت جميع الفرق باستثناء واحدة في جميع المسابقات الثلاث. بموجب شروط AGRR-2019 ، نشرت جميع الفرق رمزًا لقراراتهم. يتم تقديم جدول ملخص بالنتائج في
مستودعنا ، حيث يمكنك أيضًا العثور على روابط للحلول الموضوعة للفرق ذات الأوصاف المختصرة.
تقريبا جميع أظهرت نتائج جيدة. فيما يلي تقييمات لقرارات الفرق الفائزة:
سيتم توفير وصف تفصيلي لأفضل الحلول قريبًا في مقالات المشاركين في مجموعة الحوار.
لذلك ، تحدثنا في هذا المقال عن كيفية صياغة مهمة وإعداد كتيبة وإجراء المسابقات ، مع الأخذ كأساس لظاهرة لغوية نادرة. هناك أيضًا فائدة من هذا العمل لمجتمع البرمجة اللغوية العصبية ، لأن المسابقات تساعد على مقارنة مختلف الهياكل والمناهج مع بعضها البعض على مواد محددة ، واللغويين يحصلون على حالة ظاهرة نادرة مع إمكانية تجديدها (باستخدام قرارات الفائزين). يكون السلك المُجمّع أكبر بعدة مرات من أحجام السلك الموجود حاليًا (علاوة على ذلك ، بالنسبة إلى الفجوة ، يكون حجم الجسم السالب ترتيبًا أكبر من حجم السلك ليس فقط للغة الروسية ، بل لجميع اللغات عمومًا). يمكن العثور على جميع البيانات والروابط لقرارات المشاركين في جيثب لدينا.
في 30 مايو ، في الجلسة الخاصة
للحوار المكرسة للتحليل التلقائي لمسابقات الفجوات ، سيتم تلخيص نتائج AGRR-2019. سنتحدث عن تنظيم المسابقة وسنتحدث عن محتوى المبنى الذي تم إنشاؤه ، وسيقدم المشاركون الهيكل المحدد الذي قاموا بحل المشكلة به.
مجموعة الأبحاث المتقدمة NLP