ماذا تفعل R&D ABBYY: NLP Advanced Research Group

ماذا يفعلون في قسم البحث والتطوير في ABBYY؟ للإجابة على هذا السؤال ، نبدأ سلسلة من المنشورات حول كيفية إنشاء المطورين لدينا تقنيات جديدة وتحسين الحلول الحالية. سنتحدث اليوم عن خط معالجة اللغات الطبيعية (NLP).

نحن في ABBYY منخرطون في البحث في مجال معالجة اللغة الطبيعية ونعالج المشاكل العلمية المعقدة التي لا توجد حلول جاهزة لها. لذا نبتكر ابتكارات تشكل أساس المنتجات وتساعد عملائنا ، ونحن نمضي قدمًا. بالمناسبة ، في 24 نوفمبر ، في محاضرة في مدرسة التعلم العميق في معهد موسكو للفيزياء والتكنولوجيا ، إيفان سموروف ، رئيس مجموعة NLP المتقدمة للأبحاث في قسم R&D ABBYY ، سيخبرك ما هي مشاكل تحليل النص في العالم وكيف يمكن للشبكات العصبية الحديثة حلها. وفي هذا المنشور ، أخبرنا إيفان عن المهام الثلاث التي يعمل عليها حاليًا.

من المهم للزملاء من NLP Advanced Research Group اختيار المهام المعزولة ، التي لا ترتبط ارتباطًا وثيقًا بتقنيات وحلول ABBYY الحالية. أحيانًا يجد موظفو الشركة أنفسهم مثل هذه المهام ، وأحيانًا يتحدث البحث والتطوير عنهم ويطلبون المساعدة في حلهم ، ثم مع نشر النتائج في المجلات العلمية. لذا ، المهمة الأولى.

السماره: ليس أكثر تعقيدًا من إعادة الرواية؟


تسمح لك تقنية تحليل النص هذه بتحويلها إلى إعادة بيع أو تعليق توضيحي. في هذا النموذج ، كان الناس يستخدمون السمار منذ فترة طويلة. نحن في ABBYY نحاول تطبيق تقنيات السمار بمعنى موسع: نحن نحاول حل تلك المشاكل التي لم يتم حلها تقليديًا بمساعدة السمار ، على سبيل المثال ، للحصول على الخصائص المتكاملة للنص وإبراز الأحداث التي تحدث في النص.

يمكن للسمارة تبسيط خط الأنابيب التقليدي. على سبيل المثال ، الآن ، من أجل استخراج أسماء الشركات الأطراف في العقد من الوثيقة ، يتم حل العديد من مهام NLP التسلسلية بشكل تقليدي ، من تحديد الكيانات إلى تصفية الحقائق المستخرجة. تعتمد كل هذه المهام على بعضها البعض ، والأهم من ذلك ، تتطلب كل منها ترميزها المرجعي الخاص بها. يعد إنشاء ترميز في التعلم الآلي أحد أغلى الأشياء.

بمساعدة السمار ، من الممكن استخلاص الحقائق من النهاية إلى النهاية ، أي بدون خطوات وسيطة ، مهام فرعية وعلامات. وستكون بسيطة وسريعة مثل إعادة سرد النص. وربما أرخص.

التحليل النحوي: البحث عن القطع الناقص


تذكر ، في المدرسة قمنا بتجميع الجمل: الموضوع ، المسند ، الإضافة؟ بالمعنى اللغوي ، فإن تحليل الجملة أكثر تعقيدًا وتفصيلاً. يمكن تصوير كل شيء على أنه تبعية ، حيث يكون الشيء الرئيسي هو المسند أو الفعل ، ويعتمد عليه الموضوع والإضافات ، وما إلى ذلك. ويتعامل المحلل النحوي مع هذا التحليل للجمل في البرامج الحديثة. عادةً ما يقضي المحلل النحوي جزءًا كبيرًا من الوقت في إنشاء الأصفار النحوية التي تظهر في الحذف وتجاهلها .

إليكم مثال: أكل ميشا الكمثرى ، وأكل ماشا تفاحة . في كل من الكلام الشفهي والمكتوب ، نتخطى ببساطة الفعل "أكل" ولا يتغير معناه. لكن بالنسبة للغويات الحاسوبية ، يعد تحديد الأصفار النحوية مشكلة معقدة. هناك العديد من أنواع القطع الناقص ؛ يمكن أن تكون في أماكن جمل مختلفة. ونتيجة لذلك ، يضطر المحلل اللغوي إلى التحقق مرة أخرى من العديد من الفرضيات: هل كان هناك صفر ، وهو في الواقع ليس صفرًا؟

إن إعادة الفحص هذه تعقد وتعطل عمل المحلل ، بالإضافة إلى أنها تتطلب الكثير من قوة الحوسبة. لذلك ، نحن نبتكر طرقًا جديدة للبحث عن الأماكن التي من المحتمل أن تحدث فيها أصفار بناء الجملة. سيؤدي ذلك إلى تقليل الوقت الذي سيحدد فيه المحلل اللغوي القطع الناقص.

بالمناسبة ، ازداد الاهتمام بالتدليل اللغوي في الكمبيوتر بشكل ملحوظ هذا العام. تم نشر مقالة البحث " الجمل مع الفجوات: التحليل وإعادة بناء المسندات المستندة " من قبل أكبر اللغويين في عصرنا ، سيباستيان شوستر ، يواكيم نيفري وكريستوفر ماينينغ . وبالتالي ، فإن دراسة القطع الناقص هي مهمة جيدة ، يمكن لحلها أن يعطي نتائج للمجتمع العلمي والتطبيق العملي على حد سواء.

توضيح المفردات


ما هي "التوقف"؟ قد يكون هذا هو الشيء الذي وصلت إليه الحافلة ، أو قد يكون توقف العملية ، أو ربما توقف الكلام. الكلمة واحدة ولكن لها معاني كثيرة.

العديد من الشركات لديها مكنز حيث يتم وصف هذه المعاني. من الملائم أن تتلقى تلقائيًا من سلسلة من الكلمات أو أشكال الكلمات أو الرموز المميزة - سلسلة من المعاني أو الفئات الدلالية. في ABBYY ، نحاول إنشاء نموذج معزول يحدد بدقة معنى كلمة بجودة وسرعة جيدة. إذا قمت بإزالة الغموض المعجمي بسرعة ، فيمكنك تسريع العمل بشكل لائق - سواء كان ذلك تحليل أو استخراج كيانات / حقائق محددة.

وما علاقة الشبكة العصبية وكلية التعليم العميق بها؟


يتم حل جميع هذه المهام باستخدام الشبكات العصبية. لا يعني ذلك أنه لا يمكن حلها بدون شبكات ، لكنها الآن الطريقة الأكثر حداثة. الشبكات العصبية العودية تعطي نتائج أفضل لمهام البرمجة اللغوية العصبية. إذن هذه ليست مجرد ظاهرة أزياء مجردة ، ولكن ما هو مستخدم عمليًا لحل مجموعة واسعة من مهام البرمجة اللغوية العصبية.

سيخبرك Ivan Smurov بالمزيد حول مهام تحليل النص الموجودة ، وكيف يتم استخدام الشبكات العصبية الحديثة لحل مثل هذه المشاكل في روسيا والعالم ، في محاضرة في مدرسة التعلم العميق في MIPT. ستعقد المحاضرة يوم السبت 24 نوفمبر الساعة 17:00 ، في 9 ديميتروفسكوي شوسي.

Source: https://habr.com/ru/post/ar430730/


All Articles