عادة ما يتم تحديث مجموعة البيانات الخاصة بنا على دلالات Open ، عشية العام الجديد. لقد تم إنجاز الكثير من العمل هذا العام ، لكنه لم يصل إلى نهايته المنطقية وسنواصله في العام المقبل. الآن نريد أن نتحدث عن مجموعة بيانات مفتوحة بنفس القدر من الأهمية أثارت اهتمامًا كبيرًا في عدد من المؤتمرات اللغوية هذا العام ، سواء من جانب الباحثين وممثلي الصناعة. سوف يركز هذا المنشور على القاموس النغمي المفتوح للغة الروسية.

لماذا؟
الدرجة اللونية ، أو بكلمات بسيطة جيدة / سيئة ، هي سمة طبيعية للكلمات. طبيعي للبشر وتصوراتهم ، ولكن ليس لفهم الكمبيوتر. يتم ترتيب اللغة بطريقة تحتوي على تناظر فيما يتعلق باستقطاب الكلمات ولا يمكن فصل الكلمات الجيدة عن الكلمات السيئة دون اللجوء إلى علامات خارجية. في الواقع ، نشأت في البداية مهمة إنشاء قاموس تدريجي من الحاجة إلى تجميع قوائم الكلمات التي يتم تلقيها تلقائيًا بواسطة الخوارزمية وفقًا لقطبتها.
بطبيعة الحال ، ليست الدرجة اللونية سوى جانب واحد من معنى الكلمة ، والفهم الحقيقي للمشاعر يتطلب تحليلًا كاملًا للدلالة ، وفهمًا للأدوار في موقف معين ، ومعرفة الموقع الذي يشغله المراقب. لذلك ، على سبيل المثال ، قد يكون "لتخفيض سعر الأسهم" للأطراف المختلفة له درجات مختلفة ، لكن "التكاليف زادت" و "الأرباح زادت" لها قطبية مختلفة ، على الرغم من أن العبارات تنمو وتنمو ، والتي لها تصنيف إيجابي إلى حد ما (وفقًا لمجموعة البيانات الخاصة بنا).
هناك مجموعة واسعة من الأسباب التي تجعلنا نسند كلمة معينة إلى مفتاح معين. في بعض الأحيان هذه هي الأحاسيس المباشرة - الفرح والشوق. في بعض الأحيان تكون صفات الشخص - الاحتراف والإهمال: وأحيانًا مفاهيم مثل التعليم أو ريادة الأعمال المرتبطة بالمؤسسات الاجتماعية المعقدة وتوفير المزايا على المدى الطويل. ويرتبط تقييم هذه الكلمات بقوة بالثقافة والعقد الاجتماعي. وبناءً على ذلك ، قد لا يكون له تقييم عالمي معترف به عالميًا.
ومع ذلك ، فإن اللغة والتواصل لا يمكن أن يكونا موجودين إذا لم يكن للأنظمة الإحداثية لأشخاص مختلفين داخل نفس الثقافة شيء مشترك مع بعضها البعض. وبالتالي ، بالنسبة للمجموعات الكبيرة إلى حد ما من الكلمات ، يكون مكونها المقدر ثابتًا إلى حد ما.
كيف؟
هناك طريقتان رئيسيتان لجمع كمية كبيرة من البيانات اللغوية - جذب الخبراء وإجراء مقابلات مع الأشخاص (أو إصدار أكثر حداثة من الأخير - التعهيد الجماعي). لن نكرر الاختلافات الواضحة بين هذه الأساليب ، بل ننتبه إلى تلك التي لها تأثير مباشر على خصائص مجموعة البيانات الناتجة.
وضع علامة على خبير يشير إلى وجود توجه واضح للاستخدام في المستقبل ، وبناء على ذلك ينص على طريقة صنع القرار في حالة الغموض التي تمليها هذا التطبيق. بالنسبة لمجموعة البيانات النهائية ، هذا يعني:
- تثبيت مجال الموضوع ؛
- تعريف واضح لموقف المراقب.
لذا ، إذا قام خبير بتجميع قاموس تدريجي لتحليل الأخبار المستهدفة لجمهور جماهيري ، فسوف يتولى منصب القارئ المعمم ويفترض الاتفاقات غير المعلنة بين وسائل الإعلام والقراء. قل "خفض التكلفة" في مثل هذه المنشآت سيكون له تقييم إيجابي ، و "نمو التعريفة" - سلبي (وفقًا لمجموعة بيانات RusCentiLex-2017).
يُحرم التعهيد الجماعي من إمكانية وضع مثل هذا الإطار وهو بالكاد الأداة المثلى لحل المشكلات التطبيقية عالية التخصص. لكنه يسمح لنا بالتقاط جانبًا مهمًا آخر لتقييم الدرجات اللونية - الاتساق بين المجيبين. سيتم تقييم بعض الكلمات بشكل لا لبس فيه بأنه إيجابي أو سلبي ؛ سيقسم البعض التقييم بين الخيارات المحايدة والقطبية ؛ وستظهر مجموعة صغيرة من الكلمات عدم تناسق واضح في التصنيفات.
توزيع تناسق الصفعلى اليسار على الرسم البياني يوجد أقصى اتساق للتقديرات ، وعلى اليمين يوجد أقصى تباين.
أيضًا ، على عكس تقييم الخبراء ، يتيح لك التعهيد الجماعي الحصول على قيمة مستمرة من القطبية ، وتحديد الكلمات الإيجابية (السلبية) ، والإيجابية إلى حد ما (السلبية) والمحايدة. يعتمد التوزيع بين هذه المجموعات ، بالطبع ، على قيم العتبة المحددة. ومع ذلك ، فإن أخذ العينات اختياري تمامًا - من الممكن بالنسبة لعدد من التطبيقات أن تكون القيمة المستمرة أكثر ملاءمة.
هيكل مجموعة البيانات
بنية مجموعة البيانات بسيطة للغاية: إنها قاموس تدريجي يطابق الكلمات مع تقييمها في النطاق من -1 (تصنيف سلبي هامشي) إلى +1 (تصنيف إيجابي هامشي). للراحة ، يشار إلى علامة قابلة للقراءة من الإنسان من مجموعة "موجبة" ، "محايدة" ، "سلبية" محسوبة باستخدام قيم العتبة.
أمثلة لكلمات إيجابية ومحايدة وسلبية من مجموعة البيانات- إيجابية: موثوقة ، توفيق ، لطف ، عفو ، ضميري ، تأخذ إلهامًا ، ضوئيًا ، ربحًا ، تربية جيدة ، لم الشمل ، إلهام ، ثقة ، حماسة ، أطفال ، تحويل ، عافية ، هووسورمينغ ، راحة ، عقلانية ، منحة ، متطوع ؛
- محايد: اختصار ، حساب ، عصا ، سترة ، متعدد الوجوه ، لمسة ، أثاث ، ساكن ، انقر ، تذوب ، استخدام ، خطوة على الطريق ، عنصر ، فرغ ، تأكيد ، شعار ، نزول ، مسلح طويل ، سبعة ، تعادل ؛
- سلبي: يتغيب ، سنيكر ، بلاب ، رهينة ، متخلف ، متكبر ، مزيف ، تلوث ، حسود ، خنق ، تجميد ، تبديد ، خداع ، تدهور ، مدمن ، لدغة ، قبض على البرد ، أوجد خطأ ، أو خائف ، أو سارق ، أو جاهل ؛
بالإضافة إلى ذلك ، في هذا الإصدار من مجموعة البيانات (لا يزال هناك إصدار سابق ، أول) ، يتم إعطاء البيانات الأولية - نسبة الأصوات المدلى بها لكل خيار. يتيح لك ذلك تطبيق نماذج مخصصة لحساب الاستقطاب الكلي ومستوى تناسق العلامات.
تقريبا. تغطي النسخة المقدمة من مجموعة البيانات أكثر كلمات OW (مفردات نشطة) ؛ لم يتم تسمية العبارات. عند المقارنة مع قواميس الدرجة اللونية الأخرى ، وجدنا عددًا من الكلمات المتوفرة في المفردات النشطة ، ولكنها غير ممثلة في مجموعة البيانات الخاصة بنا. سنفعل المزيد من العلامات ونخطط لتضمين الوحدات اللغوية المفقودة خلال العام المقبل.
خطط أخرى
يمثل الشعور العاطفي أحد المهام الخاصة في إطار دراسة النظام الدلالي للغة. كما أشرنا أعلاه ، فإن فائدة مجموعة البيانات المقدمة تعتمد بشكل مباشر على القدرة على ربط القيم القطبية الواردة فيها بالمعلومات الدلالية الأخرى. مع فصول الكلمات ، على سبيل المثال. بدأنا هذا العمل ونخطط لتطويره في المستقبل.
مجال آخر مهم من البحث هو الرغبة في فهم سبب تلوين بعض الكلمات ، وتربية الكلمات المتعلقة بالمشاعر ، والعواطف والتقييم المباشر وتلك الكلمات التي يعد فيها المفهوم أو الموقف الموصوف بهما بتأخير أو خسارة متأخرة. لذلك ، هذه الكلمات أكثر عرضة للتأثيرات الثقافية والاجتماعية.
تم التخطيط أيضًا لتوسيع نطاق الترميز بالعبارات ، بما في ذلك التعبيرات المستقرة والوحدات اللغوية. ولكن هنا نتحدث بالفعل عن مجلدات مختلفة تمامًا عن المفردات ، وبالتالي فإن المهمة العامة هي فهم كيف تعمل المشاعر على مستوى أكثر عمومية (أكثر تحت المفسد).
المشاعر والدلالاتبعد الفحص الدقيق ، يصبح من الواضح أن اللغة تعمل بمجموعة مدمجة من المفاهيم المتعلقة بعدد الكلمات ومجموعاتها ، يمكن التعبير عن كل منها بأكثر من طريقة. انعكست هذه الملاحظة بالتفصيل في أعمال اللغويين الروس وفي نموذج النص المنطقي الذي أنشأوه.
على سبيل المثال ، "تخفيض الأسعار" ، "انخفاض الأسعار" ، "انهيار الأسعار" ، "انخفاض الأسعار" - هذه هي طرق مختلفة لوصف عملية مماثلة ، ولكن يتم التعبير عنها بوسائل لغوية مختلفة. في الوقت نفسه ، في سياقات مماثلة ، يمكن للمرء أن يفي بالمفاهيم الأخرى التي لها تعبير كمي - "انخفاض في مستوى الثقة" ، "زيادة في مستوى الدخل" ، إلخ. في كل حالة ، يكفي فهم المراسلات أعلاه / أدناه - جيد / سيء (مستوى المعرفة والعالم) وبأي معنى يتم التعبير عن الحركة في اتجاه معين (مستوى اللغة).
ردود الفعل والتوزيع
نرحب بأي تعليقات في التعليقات - من نقد العمل ونُهُجنا إلى روابط إلى دراسات مثيرة للاهتمام ومقالات ذات صلة.
إذا كان لديك معارف أو زملاء قد يكونوا مهتمين بمجموعة البيانات المنشورة ، فأرسل لهم رابطًا للمقال أو المستودع للمساعدة في نشر البيانات المفتوحة.
رابط إلى مجموعة البيانات والترخيص
مجموعة البيانات: قاموس نغمي مفتوح للغة الروسيةمجموعة البيانات هي
28197 كلمة .
مجموعة البيانات مرخصة بموجب
CC BY-NC-SA 4.0 .
روابط إلى المشاريع ذات الصلة