يتكلم ويظهر: هل يختلف خطاب السياسيين الأوكرانيين المشهورين؟

هل من الممكن تحديد الاقتباس من بين السياسيين الذي هو مؤلفه؟ تقوم منظمة Vox Ukraine غير الحكومية الأوكرانية بتنفيذ مشروع VoxCheck ، والذي يتحقق في إطاره من تصريحات السياسيين الأكثر تصنيفًا. في الآونة الأخيرة ، نشروا قاعدة بيانات كاملة من علامات الاقتباس التي تم التحقق منها . أنا فقط أستمع إلى دورات البرمجة اللغوية العصبية وقررت التحقق من دقة تعريف المؤلف بنص الاقتباس.

إخلاء المسؤولية . تمت كتابة هذا المقال بدافع الاهتمام بالموضوع والرغبة في تجربة المادة التي تمت دراستها في الممارسة العملية ، دون المطالبة بأكثر التحليلات دقة وتفصيلا.

للتحليل ، تم استخدام الثعبان ، الرمز متاح على جيثب .

معطيات


تحتوي قاعدة البيانات الآن على علامات اقتباس 1952 مع التوزيع التالي حسب السياسة:



لأغراض التحليل ، اخترت أشخاصًا لديهم أكثر من 200 اقتباس. تبعا لذلك ، خرج يوري بويكو وأوليغ تانيانيبوك وأندري سادوفوي وفلاديمير زيلينسكي من التحليل. هناك 1،667 استشهاد في الصفيف. من بين المتحدثين الستة المتبقين ، هناك أربعة (باستثناء Groysman ورابينوفيتش) مرشحان مسجلان للانتخابات الرئاسية القادمة.

تختلف عروض الأسعار من حوالي 30 حرفًا ( "لقد قدمت بالفعل 112 فاتورة." ) إلى الأحرف الطويلة ، حوالي 1200 حرفًا. يبلغ متوسط ​​طول الاقتباس حوالي 200 حرفًا (على سبيل المثال ، "سرعان ما سيتعين علينا أن نعطي بقرة أقل قليلاً لمتحف وديناصور للأطفال في علوم الطبيعة - نتيجة للسياسة السياسية ، لكي يقوم الياك بإقامة المبتدئين. الماشية أقل من شهرين. . " )

TF- جيش الدفاع الإسرائيلي


أولاً ، دعونا نرى الكلمات الأكثر تميزًا لبعض المتحدثين. فيما يلي أفضل 10 كلمات بأعلى TF-IDF لكل مرشح:



باختصار حول TF-IDF
TF-IDF (تردد المصطلح - تردد المستند العكسي) هو مؤشر يقيم أهمية الكلمة في سياق المستند. تتناسب كلمات TF-IDF مع تكرار استخدام هذه الكلمة في المستند وتتناسب عكسياً مع تكرار استخدام الكلمة في جميع وثائق المجموعة. في سياق بياناتنا ، يعني وجود قوات TF-IDF عالية أن السياسي يستخدم غالبًا هذه الكلمة ، بينما يستخدمها سياسيون آخرون بشكل أقل نسبيًا.

لحساب TF-IDF ، تم استخدام stemming - جلب الكلمة إلى القاعدة.

هذه الكلمات التي أود أن أعلق عليها لكل متحدث لإعطاء سياق بسيط يتم تسليط الضوء عليها باللون الأخضر.

أوليج لياكو:

  • بولندا: يذكر Lyashko في كثير من الأحيان بولندا فيما يتعلق بالهجرة العاملة للأوكرانيين هناك ، وكذلك يقارن الدخل في بولندا وأوكرانيا
  • الحبوب: يقول لياشكو إن أوكرانيا تصدر الحبوب وتفقدها ، لأنها قد تكون أكثر تكلفة لتصدير الدقيق
  • الأورام ، الأدوية: لاشكو معارض قوي للإصلاح الطبي الحالي ، وغالبًا ما يقول إن تكلفة الأورام لا تغطيها الدولة تقريبًا

يتحدث بوروشينكو وجريتسينكو كثيرًا عن الصراع العسكري ، وهو أمر منطقي تمامًا: بوروشينكو هو الرئيس ، وبناءً عليه ، القائد الأعلى ، وجريتسينكو عسكري وكان وزير الدفاع.

غروسمان هو رئيس الوزراء ، ويتحدث بشكل رئيسي عن الاقتصاد ، بما في ذلك الدين العام.

لا تُظهر اقتباسات فاديم رابينوفيتش مواضيع محددة ، ربما لأنه يتحدث كثيرًا (444 من 1952 ، وجميع الآخرين أقل من 300 اقتباس).

تتحدث يوليا تيموشينكو كثيراً عن نظام نقل الغاز في أوكرانيا ، وعن تصفية البنوك ، وكذلك حول المؤشرات الاقتصادية المنخفضة في البلاد.

اقتباس اقتباس


لذا ، نحصل على 6 فصول (متحدثين). للتصنيف ، اعتدت المصنف بايزي ساذج. يتم استبعاد كلمات التوقف باللغتين الروسية والأوكرانية من النص (باستخدام حزمة كلمات التوقف). يتم تضمين N- غرامات تصل إلى 2 (تم أيضًا اختبار خيارات بطول يصل إلى 3 ، ولكن أظهرت تركيبًا زائدًا). تؤخذ عينة الاختبار بنسبة 20 ٪ من المجموع.

كانت الدقة الإجمالية للنموذج (نسبة الاستشهادات المصنفة بشكل صحيح) في عينة التدريب 74.8 ٪ ، في عينة الاختبار - 75.7 ٪

النتائج التبادلية للمؤلفين:



أعلى دقة لـ Vadim Rabinovich (97٪) - على الأرجح لأنه المتكلم الروسي الوحيد من أصل ستة. دقة عالية لتصنيف Groisman و Lyashko (78٪ و 77٪).

أعلى بقليل من 60 ٪ هي مؤشرات دقة اقتباس بوروشينكو وتيموشينكو. يعرّف النموذج في كثير من الأحيان كلاهما باسم Groysman. يتحدث Groysman ، كرئيس للوزراء ، غالبًا عن موضوع الاقتصاد في شكل "تقرير مرحلي" ، كما أن الاقتباسات المصنفة بشكل غير صحيح من قبل بوروشينكو وتيموشينكو هي أيضًا حول هذا الموضوع (فقط بوروشينكو كممثل للحكومة إيجابي ، وتيموشينكو هو عكس ذلك).

على سبيل المثال ، إليك اقتباس من Poroshenko تم تعريفه بواسطة النموذج على أنه اقتباس من Groisman:
5 مليارات غريفنا (توبا) 4 مليارات غريفنا من تلك الصخرة ومليار غريفنا من الصخرة كلها مباشرة للطب

وأيضًا اقتباس من تيموشينكو ، تم تعريفه على أنه اقتباس من Groisman:
في الميزانية الهجومية لاستخدام السجون ، رأوا ضعف البنسات الصغيرة ، وليس أقل من العلوم ، للعمل في أكاديمية العلوم في أوكرانيا.

أدنى دقة (57 ٪) في اقتباسات من قبل أناتولي جريتسينكو. غالبًا ما يتم تعريف نموذجه على أنه بوروشينكو (وهو أمر منطقي ، بالنظر إلى الموضوعات العسكرية من علامات الاقتباس الخاصة بهم) ، وكذلك Lyashko. في حالة Lyashko ، التصنيف الخاطئ عبارة عن اقتباسات تنتقد السلطات ، بما في ذلك ، على سبيل المثال ، حول الهجرة: لا أفكر في أولئك الذين هم نفس العضو في طلبك ، Volodimira Borisovich ، pan Klimkin ، قائلين إنهم سيغادرون البلاد.

بشكل عام ، يبدو لي أن النتيجة ليست سيئة لمثل هذه الاقتباسات القصيرة بتنسيق مماثل (بيانات شفهية للسياسيين) ومواضيع (السياسة الأوكرانية). بالمناسبة ، على نفس البيانات حاولت صنع نموذج يحدد فئة الاقتباس (صواب / خطأ / تلاعب) ، لكن الدقة كانت منخفضة للغاية. وهو ، من حيث المبدأ ، منطقي: عند النظر إلى اقتباس مثل "تم إنفاق الكثير من المال على هذا ، ولكن في مثل هذا البلد ينفقون كثيرًا" ، من الصعب تحديد صحة البيانات الواردة فيه :)

Source: https://habr.com/ru/post/ar443264/


All Articles