هل من الممكن تحديد الاقتباس من بين السياسيين الذي هو مؤلفه؟ تقوم منظمة
Vox Ukraine غير الحكومية الأوكرانية
بتنفيذ مشروع
VoxCheck ، والذي يتحقق في إطاره من تصريحات السياسيين الأكثر تصنيفًا. في الآونة الأخيرة ، نشروا
قاعدة بيانات كاملة
من علامات الاقتباس التي تم التحقق منها . أنا فقط أستمع إلى دورات البرمجة اللغوية العصبية وقررت التحقق من دقة تعريف المؤلف بنص الاقتباس.
إخلاء المسؤولية . تمت كتابة هذا المقال بدافع الاهتمام بالموضوع والرغبة في تجربة المادة التي تمت دراستها في الممارسة العملية ، دون المطالبة بأكثر التحليلات دقة وتفصيلا.
للتحليل ، تم استخدام الثعبان ، الرمز متاح على
جيثب .
معطيات
تحتوي قاعدة البيانات الآن على علامات اقتباس 1952 مع التوزيع التالي حسب السياسة:

لأغراض التحليل ، اخترت أشخاصًا لديهم أكثر من 200 اقتباس. تبعا لذلك ، خرج يوري بويكو وأوليغ تانيانيبوك وأندري سادوفوي وفلاديمير زيلينسكي من التحليل. هناك 1،667 استشهاد في الصفيف. من بين المتحدثين الستة المتبقين ، هناك أربعة (باستثناء Groysman ورابينوفيتش) مرشحان مسجلان للانتخابات الرئاسية القادمة.
تختلف عروض الأسعار من حوالي 30 حرفًا (
"لقد قدمت بالفعل 112 فاتورة." ) إلى الأحرف الطويلة ، حوالي 1200 حرفًا. يبلغ متوسط طول الاقتباس حوالي 200 حرفًا (على سبيل المثال ،
"سرعان ما سيتعين علينا أن نعطي بقرة أقل قليلاً لمتحف وديناصور للأطفال في علوم الطبيعة - نتيجة للسياسة السياسية ، لكي يقوم الياك بإقامة المبتدئين. الماشية أقل من شهرين. . " )
TF- جيش الدفاع الإسرائيلي
أولاً ، دعونا نرى الكلمات الأكثر تميزًا لبعض المتحدثين. فيما يلي أفضل 10 كلمات بأعلى TF-IDF لكل مرشح:

باختصار حول TF-IDFTF-IDF (تردد المصطلح - تردد المستند العكسي) هو مؤشر يقيم أهمية الكلمة في سياق المستند. تتناسب كلمات TF-IDF مع تكرار استخدام هذه الكلمة في المستند وتتناسب عكسياً مع تكرار استخدام الكلمة في جميع وثائق المجموعة. في سياق بياناتنا ، يعني وجود قوات TF-IDF عالية أن السياسي يستخدم غالبًا هذه الكلمة ، بينما يستخدمها سياسيون آخرون بشكل أقل نسبيًا.
لحساب TF-IDF ، تم استخدام stemming - جلب الكلمة إلى القاعدة.
هذه الكلمات التي أود أن أعلق عليها لكل متحدث لإعطاء سياق بسيط يتم تسليط الضوء عليها باللون الأخضر.
أوليج لياكو:- بولندا: يذكر Lyashko في كثير من الأحيان بولندا فيما يتعلق بالهجرة العاملة للأوكرانيين هناك ، وكذلك يقارن الدخل في بولندا وأوكرانيا
- الحبوب: يقول لياشكو إن أوكرانيا تصدر الحبوب وتفقدها ، لأنها قد تكون أكثر تكلفة لتصدير الدقيق
- الأورام ، الأدوية: لاشكو معارض قوي للإصلاح الطبي الحالي ، وغالبًا ما يقول إن تكلفة الأورام لا تغطيها الدولة تقريبًا
يتحدث
بوروشينكو وجريتسينكو كثيرًا عن الصراع العسكري ، وهو أمر منطقي تمامًا: بوروشينكو هو الرئيس ، وبناءً عليه ، القائد الأعلى ، وجريتسينكو عسكري وكان وزير الدفاع.
غروسمان هو رئيس الوزراء ، ويتحدث بشكل رئيسي عن الاقتصاد ، بما في ذلك الدين العام.
لا تُظهر اقتباسات
فاديم رابينوفيتش مواضيع محددة ، ربما لأنه يتحدث كثيرًا (444 من 1952 ، وجميع الآخرين أقل من 300 اقتباس).
تتحدث
يوليا تيموشينكو كثيراً عن نظام نقل الغاز في أوكرانيا ، وعن تصفية البنوك ، وكذلك حول المؤشرات الاقتصادية المنخفضة في البلاد.
اقتباس اقتباس
لذا ، نحصل على 6 فصول (متحدثين). للتصنيف ، اعتدت المصنف بايزي ساذج. يتم استبعاد كلمات التوقف باللغتين الروسية والأوكرانية من النص (باستخدام حزمة كلمات التوقف). يتم تضمين N- غرامات تصل إلى 2 (تم أيضًا اختبار خيارات بطول يصل إلى 3 ، ولكن أظهرت تركيبًا زائدًا). تؤخذ عينة الاختبار بنسبة 20 ٪ من المجموع.
كانت الدقة الإجمالية للنموذج (نسبة الاستشهادات المصنفة بشكل صحيح) في عينة التدريب
74.8 ٪ ، في عينة الاختبار -
75.7 ٪النتائج التبادلية للمؤلفين:

أعلى دقة لـ Vadim Rabinovich (97٪) - على الأرجح لأنه المتكلم الروسي الوحيد من أصل ستة. دقة عالية لتصنيف Groisman و Lyashko (78٪ و 77٪).
أعلى بقليل من 60 ٪ هي مؤشرات دقة اقتباس بوروشينكو وتيموشينكو. يعرّف النموذج في كثير من الأحيان كلاهما باسم Groysman. يتحدث Groysman ، كرئيس للوزراء ، غالبًا عن موضوع الاقتصاد في شكل "تقرير مرحلي" ، كما أن الاقتباسات المصنفة بشكل غير صحيح من قبل بوروشينكو وتيموشينكو هي أيضًا حول هذا الموضوع (فقط بوروشينكو كممثل للحكومة إيجابي ، وتيموشينكو هو عكس ذلك).
على سبيل المثال ، إليك اقتباس من Poroshenko تم تعريفه بواسطة النموذج على أنه اقتباس من Groisman:
5 مليارات غريفنا (توبا) 4 مليارات غريفنا من تلك الصخرة ومليار غريفنا من الصخرة كلها مباشرة للطبوأيضًا اقتباس من تيموشينكو ، تم تعريفه على أنه اقتباس من Groisman:
في الميزانية الهجومية لاستخدام السجون ، رأوا ضعف البنسات الصغيرة ، وليس أقل من العلوم ، للعمل في أكاديمية العلوم في أوكرانيا.أدنى دقة (57 ٪) في اقتباسات من قبل أناتولي جريتسينكو. غالبًا ما يتم تعريف نموذجه على أنه بوروشينكو (وهو أمر منطقي ، بالنظر إلى الموضوعات العسكرية من علامات الاقتباس الخاصة بهم) ، وكذلك Lyashko. في حالة Lyashko ، التصنيف الخاطئ عبارة عن اقتباسات تنتقد السلطات ، بما في ذلك ، على سبيل المثال ، حول الهجرة:
لا أفكر في أولئك الذين هم نفس العضو في طلبك ، Volodimira Borisovich ، pan Klimkin ، قائلين إنهم سيغادرون البلاد.بشكل عام ، يبدو لي أن النتيجة ليست سيئة لمثل هذه الاقتباسات القصيرة بتنسيق مماثل (بيانات شفهية للسياسيين) ومواضيع (السياسة الأوكرانية). بالمناسبة ، على نفس البيانات حاولت صنع نموذج يحدد فئة الاقتباس (صواب / خطأ / تلاعب) ، لكن الدقة كانت منخفضة للغاية. وهو ، من حيث المبدأ ، منطقي: عند النظر إلى اقتباس مثل "تم إنفاق الكثير من المال على هذا ، ولكن في مثل هذا البلد ينفقون كثيرًا" ، من الصعب تحديد صحة البيانات الواردة فيه :)