رونيت الأخبار التصور



تخيل أنك تحدثت مع صديق عما حدث من قبل - مثل دجاجة أو بيضة ، أو زيادة في الضرائب ، على سبيل المثال ، أو أخبار عن هذا الموضوع ، أو حدث مهم غمر بالكامل مجموعة من الأخبار حول أغنية جديدة ، على سبيل المثال ، كيركوروف. سيكون من المناسب حساب مقدار الأخبار حول كل موضوع في أي وقت من الأوقات ، ثم تصور ذلك. في الواقع ، هذا هو ما يتناوله مشروع "Runet News Radar". تحت القصاصة ، سنخبرك ما علاقة التعلم الآلي به وكيف يمكن لأي متطوع أن يشارك في ذلك.

مرجع سريع


التعلم الآلي من أجل الصالح الاجتماعي (ML4SG) هي مبادرة داخل مجتمع ODS تهدف إلى تهيئة الظروف للمشاريع ، كما يوحي الاسم ، والتي تستخدم التعلم الآلي لتحقيق بعض الفائدة للمجتمع. يشير خلق الظروف هنا بشكل أساسي إلى الموارد التنظيمية. يبدو مثل هذا: شخص ما يصوغ فكرة المشروع ويشجع المتطوعين ، بينما ينضم شخص ما ببساطة إلى المشروع ، من أجل فكرة أو تجربة أو بعض المصالح الأخرى. كل شيء يعتمد على الحماس ، وغالبًا ما يكون في وقت الفراغ من العمل الرئيسي. يعد رادار أخبار Runet ، أو كما نسميه لفترة قصيرة في فريق الأخبار ، أحد المشاريع ضمن ML4SG.

تنصل


في بعض الرسوم التوضيحية في هذه المقالة ، سيتم ذكر بعض الأحداث أو الأشخاص السياسيين. دعنا نترك آراءهم لأنفسنا. هابر ليس للسياسة.

ماذا نفعل


باختصار عن الدافع


الآن يتم وضع المشروع كأداة لتحليل وسائل الإعلام ككل. إذا كان هناك أي فرضية حول كيفية تطور الاهتمام في الأخبار بمختلف الموضوعات والأحداث والأشخاص وما إلى ذلك ، فيمكننا التحدث على أساس أرقام محددة وليس تكهنات.

كانت الفكرة الأولية هي: أخذنا جميع بيانات الأخبار التي نجدها ، وتطبيق النماذج المواضيعية ، ووضع النتائج في الوقت المناسب ورسم النتيجة.

ما هو النمذجة المواضيعية
التعريف من machinelearning.ru:
نموذج الموضوع هو مجموعة من المستندات النصية التي تحدد الموضوعات التي ينتمي إليها كل مستند مجموعة. تتلقى خوارزمية إنشاء نموذج موضوعي مجموعة من المستندات النصية عند الإدخال. الإخراج لكل وثيقة عبارة عن ناقل رقمي يتكون من تقديرات لدرجة انتماء هذا المستند لكل موضوع من الموضوعات. يمكن تعيين البعد الخاص بهذا المتجه ، الذي يساوي عدد الموضوعات ، عند الإدخال ، أو يتم تحديده تلقائيًا بواسطة النموذج.
مزيد من التفاصيل هنا .

من الواضح أن هذا يتطلب الأخبار نفسها ، ونحن نقوم بتنزيلها. وبما أنه سيكون لدينا فيلق أخبار كبير ، يمكنك القيام بالعديد من الأشياء الأكثر إثارة للاهتمام ، وليس على سبيل الحصر. لكن مع الأخذ في الاعتبار الظروف الحقيقية ، التي سنتحدث عنها ، وهي أن مجموعة من المتطوعين ، وليس فريق عمل جيد من المتخصصين بأجر ، سينفذون المشروع ، أولاً ما زلنا نحل المشكلة دون تغيير تقريبًا.



الآن وصلنا إلى هذا الشكل من التصور ، ويسمى مؤامرة ridgeline. على الشريحة ، بالمناسبة ، هذه المواضيع هي شاشة من عرض داخلي قديم. وهذا هو ، هنا لدينا وقت على محور abscissa ، سمك الشريط يتناسب مع مقدار تمثيل الموضوع في تلك اللحظة بين الأخبار الأخرى. في هذه الحالة ، التجميع حسب الشهر.

في الخطة الأساسية ، لدينا خيار لمصدر الأخبار واختيار كيفية إظهار مخطط. يمكنك أيضًا تحديد بيانات إضافية ليس من الأخبار ، على سبيل المثال ، كيف تصرف سعر النفط أو أي مؤشر آخر في ذلك الوقت في نفس الفترة الزمنية. اختيار العناوين ومجموعة من المواضيع فيها بالإضافة إلى ذلك ، هناك العديد من الأفكار ، ولكن المزيد عن ذلك لاحقًا.

مشاريع مماثلة


هناك العديد من المشاريع الأخرى المختلفة المتعلقة بتصور الأخبار. أنا أحب هذين . الأول يقارن كيف يتم تقديم الأخبار نفسها في مصادر مختلفة ، وفي الوقت نفسه شكل جيد جدًا من العرض والتفاعل. الثاني ببساطة لديه موقف جيد للغاية من المعلوماتية إلى البساطة. إنه يقارن مقدار ما يقال حول أسباب الوفاة المختلفة في الأخبار ، ومدى ذكر أسباب الوفاة في استعلامات البحث ، وكيف يتم إحصائها. حسنًا ، في الاستنتاجات حول كيفية المبالغة في تقدير الإرهاب بشكل كارثي وكيف يتم التقليل من شأن أمراض القلب والسرطان.

كيف نفعل ذلك


المشروع مستقيم إلى الأمام. أولاً ، نقوم بتنزيل البيانات ، ثم نقوم بمعالجتها ، ونقوم بالتعلم الآلي ، ونرسم الرسوم البيانية. ثم نصنع موقع ويب ، والجميع يشاهدون. كل شيء واضح (حسنا ، نعم ، بالطبع).



جمع البيانات


للبدء ، كان لدينا مجموعة بيانات رو رو لمدة 20 عامًا. في الأساس ، قمنا بكل التجارب على ذلك. لقد جمعنا الآن العديد من المصادر ونواصل جمع كل ما نصل إليه. هناك الكثير من المواد التفصيلية حول الكشط والعناكب ، لذلك لن نتطرق إلى هذا الموضوع هنا بالتفصيل.

NLP


كنت قلقًا للغاية بشأن جزء البرمجة اللغوية العصبية ، لأنه من الصعب إضفاء الطابع الرسمي على متطلبات نتيجة الاختبار. بالإضافة إلى ذلك ، هناك الكثير من المهام الجانبية. لقد قمنا الآن بالكثير من التجارب باستخدام أدوات مختلفة للنمذجة المواضيعية ، وقبل أن نتخلص من المعالجة المسبقة ، قمنا بالكثير من المعايير والمقارنات. في الوقت الحالي ، تحولت bigARTM إلى أنها الرائدة بلا منازع في مجال الموارد والجودة. الآن هذا هو خيار العمل لدينا ، حتى يعرض شخص ما شيئًا أفضل.

بشكل عام ، يتركز كل التعلم الآلي بشكل رئيسي في هذا القسم. بالإضافة إلى المهمة الأساسية المحددة في الأصل ، هناك العديد من المهام الأخرى التي ستؤدي أيضًا إلى استنتاجات مثيرة للاهتمام. على سبيل المثال ، NER. لقد استخرجنا بالفعل جميع الأسماء من البيانات التي لدينا ، وقامت بتجميع القواميس ، وقمنا بحسابها التي ذكرناها عدة مرات. اتضح ، على سبيل المثال ، أنه حول بوروشينكو في Lente.ru طوال الوقت الذي كتبوه أكثر من أربعة أضعاف عن بوتين. أصبح من المثير للاهتمام بالنسبة لي أن أسانج يتزامن مع Magnitsky ، وهذا كله بالضبط بعد مغادرة بوش. لكن باتمان أكثر شعبية من ميدفيديف.




الرسوم المتحركة مقسمة إلى فئات
هذا نوع من الدعابة لمقالاتنا القادمة ، حيث سنتحدث بمزيد من التفصيل عن كيفية ظهور هذه الصورة والاستنتاجات التي يمكن استخلاصها منها.


على الرغم من أن هذه المرحلة لا تزال قيد المعالجة ، فقد قمنا بعدد كبير من التجارب وقارننا بالعديد من الأدوات والمناهج. في هذه العملية ، برنامج تعليمي كبير حول العديد من مهام البرمجة اللغوية العصبية مع أمثلة التعليمات البرمجية ومعايير الأدوات الأكثر شعبية وبعض الأدوات غير العادية.

تصور


لم تكن هذه المرحلة معقدة للغاية ، لكن لسبب ما لم يكن أحد مستعدًا للتعامل معها. تذهب متطلبات التصور إلى ما هو أبعد قليلاً عن نهج EDA المعتاد في البيانات. يعد رسم رسم بياني لنفسك أو مركز بيانات آخر أسهل بكثير من رسم رسم بياني لعامة الناس. لقد انشغلنا بالتنسيقات والأدوات لفترة طويلة جدًا ، والآن توصلنا إلى بعض الأساليب التي تبدو أكثر منطقية ، ولكن لا يزال هناك الكثير من العمل أمامنا ، نظرًا لعدم وجود أدوات جاهزة لمهامنا عمليًا. على سبيل المثال ، تم تنفيذ المخطط ذي الوجوه الموضحة أعلاه على مرحلتين - تم إنشاء العناصر الرئيسية في الكود ، ثم اتبعت مرحلة طويلة من إعادة الرسم اليدوي بحيث تمت قراءة شيء على الأقل. من حيث التحليل المفصل لهذا التصور في مقال منفصل ، فإنه يعكس إلى حد ما تاريخ روسيا على مدى السنوات العشرين الماضية.

الفريق


من الممكن تقسيم المشاركين إلى مجموعتين مشروطتين: المبتدئين والإيجابيات. بالنسبة للمبتدئين ، يكون الدافع بسيطًا - وضع بنك أصبع نوعًا من المشاريع لعرضه على أصحاب العمل ، أو اكتساب الخبرة ، وتعلم شيء ما. وقد أبلغت بالفعل أن الأشياء المختلفة التي قمنا بها في إطار المشروع كانت مفيدة في عمل المشاركين ، وقدرت السلطات ذلك. الايجابيات تأتي إما بسبب الهدف من المشروع ، أو لأنهم مهتمون بالانضمام إلى الفكرة ، أو لأنهم يريدون تجربة بعض أفكارهم في الأخبار.

في الواقع ، هناك مجموعة أخرى من المشاركين - هؤلاء هم النينجا بعيد المنال الذين يتأهلون ولا يفعلون شيئًا أو يبدأون فقط ، ثم يختفون. ولكن كما شرحت بالفعل ، لا أحد يعمل في المشروع مقابل المال ، وبالتالي فإن تنظيم الموارد البشرية أمر لا مفر منه. الملاحظة من جانب الفضول ممكنة أيضا.



يوجد الآن حوالي 80 شخصًا رسميًا ، من بينهم حوالي 10-20 شخصًا نشطًا ومن 2-4 شخصًا ينشطون دائمًا تقريبًا. في هذا التنسيق ، يمكنك تعويض نقص الخبرة بمرور الوقت. يكتب الكثير من الناس أنه لا توجد معرفة بكيفية القيام بذلك ، فهناك خوف من الفشل بسبب عدم اليقين ، ولكن في الواقع من المهم القيام بذلك فقط وعدم الانتظار للحظة. لأن ml4sg هو نشاط رائع جدا. يمكنك أن تكون مفيدًا وفي الوقت نفسه تحصل على ربح في شكل خبرة ومحفظة ، في حين أن المخاطرة هي الوقت فقط ، يتمتع المدير أيضًا بسمعة طيبة ، ولكن المورد الرئيسي هنا هو الوقت ، والذي يؤتي ثماره في النهاية.

خطط أخرى


الآن أحاول وضعه كأداة بحث. نخطط لإضافة بحث "استكشافي" يمكنه تقييم موضوع الطلب وتقديم إحصائيات حول أخبار هذا الموضوع ، ورسوم بيانية لمختلف البيانات غير الإخبارية ، ولكن ذات صلة بموضوع المشروع. عندها سيكون من الممكن اختبار كل أنواع الفرضيات حول كيفية تصرف وسائل الإعلام ، وكيف ترتبط الأحداث والمؤشرات التعسفية الأخرى ، اجتماعية أو اقتصادية. هذه الأداة للبحث في وسائل الإعلام ككل.

من يحتاج الى مشروع


  • لدينا عدد قليل جدًا من الأشخاص المشاركين في التصور. نحن نذهب إلى ما وراء الأدوات المعتادة لمركز البيانات مثل matplotlib أو مؤامرة ، لذلك نحن بحاجة إلى أشخاص يحبون فعلاً تصور البيانات ويريدون ضخها بعمق.
  • نحتاج إلى أشخاص يفهمون شيئًا ما في تطوير الويب.
  • نحتاج إلى أشخاص سيخبروننا بما تبحث عنه. في الواقع ، ينبغي أن يكون عملاؤنا مهتمون بإجراء دراسة والتوصل إلى بعض الأمور المتعلقة بكيفية تغير وسائط اللغة الروسية مؤخرًا.
  • نحتاج دائمًا إلى متخصصين في البرمجة اللغوية العصبية (NLP) ، أعتقد أنه لا توجد حاجة لشرحها هنا. وهناك شيء يجب القيام به لأولئك الذين يرغبون في التعلم ، وللرجال ذوي الخبرة ، نظرًا لوجود العديد من المشكلات المثيرة للاهتمام في هذا المجال.
  • وبالطبع نحن بحاجة إلى بناء مشروع لائق حتى لا يعمل كل شيء على الشريط الكهربائي ، لذلك إذا كنت تتخبط في بنية المشاريع ، فيمكنك إعادة تجميع مجموعة من التجارب في خط أنابيب واحد وتكون على استعداد لمشاركة تجربتك ، ثم لا تتردد في ذلك. إذا كنت تريد أن تتعلم أثناء التنقل ، فمرحباً بك أيضًا.

Source: https://habr.com/ru/post/ar460287/


All Articles