
مرحبا الزملاء! كيفية تسليط الضوء على الموضوعات الرئيسية من 20،000 الأخبار في 30 ثانية؟ نظرة عامة على النمذجة المواضيعية التي نقوم بها في تاس ، مع زملائه ورمز.
بادئ ذي بدء ، المعلومات الواردة في هذه المذكرة هي جزء من نموذج أولي يتم تطويره في مختبر ITAR-TASS الرقمي من أجل دعم "رقمنة" العمل. الحلول تتحسن باستمرار ، وسأصف القسم الحالي ، من الواضح أنه لن يكون تاج الخلق ، بل هو دعم لمزيد من التطورات.
فكرة كبيرة
بالإضافة إلى أجندة الأخبار ، التي تعمل عليها مكاتب التحرير TASS يوميًا ، من الجيد أن تفهم ما هي المواضيع التي تخلق خلفية الأخبار في وسائل الإعلام الروسية عبر الإنترنت. تحقيقًا لهذه الغاية ، نجمع أحدث الأخبار من أكثر 300 موقع شعبية كل بضع دقائق ، 24/7 ؛ ثم يأتي الأكثر إثارة للاهتمام - اختيار أساليب النمذجة والتجارب.
عندما تنتهي الجلسة السحرية ، سيبدأ زملائي والمحررين والمديرين في استخدام التقرير بموضوعات الأخبار. أعتقد أنه بالنسبة للأشخاص خارج مجال تطوير البرمجيات وعلوم البيانات ، فإن المعالجة التلقائية وتحليل وتصور البيانات النصية تبدو سحرية إلى حد ما. بسبب عزل شخص ما عن التكنولوجيا المتقدمة ، يمكن أن تؤدي العيوب المختلفة في عمله إلى عدم فهم ما بداخله وخيبة أمله. لتقليل التفاعل السلبي ، أحاول جعل المنتج أبسط وأكثر موثوقية. وفهم جوهر النمذجة المواضيعية يمكن تقليصه إلى حقيقة أن الأخبار المتعلقة بموضوع واحد ومختلفة عن الأخبار في أي موضوع آخر ينتمي إلى موضوع واحد.
لقد جربت النمذجة المواضيعية لمدة عام تقريبًا. لسوء الحظ ، أعطتني معظم الأساليب التي جربتها جودة مشكوك فيها لملء موضوعات الأخبار. في الوقت نفسه ، قمت بإجراء إجراءات وفقًا لمنطق اختيار المعلمات في الأساليب من مكتبات المجموعات الشائعة. لكن ليس لدي مجموعة بيانات تحمل الاسم. لذلك ، في كل مرة أنظر فيها إلى مجموعة مختارة من النصوص التي تدخل في موضوع معين. القضية هي كئيبة نوعا ما وليس ممتنا.
من دواعي القلق الخاصة لهذه المهمة أن العديد من المتخصصين ، الذين ينظرون إلى الأخبار المدرجة في الموضوع المحدد ، سيجدونهم بدرجة أو بأخرى غير مناسبين. على سبيل المثال ، يمكن فهم الأخبار التي تتضمن بيان أردوغان حول بدء العملية في سوريا والأخبار التي تحتوي على التقارير الأولى بعد بدء العملية في سوريا بأنها إما موضوع واحد أو عدة موضوعات. وفقًا لذلك ، ستقوم وسائل الإعلام ، نقلاً عن TASS أو وكالة أنباء أخرى ، بكتابة سلسلة من النصوص حول هذا وذاك. وتميل نتيجة الخوارزمية الخاصة بي إلى الجمع بينها أو فصلها استنادًا إلى ... جيب تمام الزاوية بين متجهات تردد الكلمة أو رقم البداهة المقبولة أو نصف القطر في طريقة البحث عن أقرب الجيران.
بشكل عام ، هذه الفكرة الكبيرة كلها هشة بقدر ما هي جميلة.
لماذا تحليل العوامل؟
إن إلقاء نظرة فاحصة على أساليب تجميع النصوص يدل على أن كل منها يعتمد على عدد من الافتراضات. إذا كانت الافتراضات لا تتوافق مع المشكلة قيد الدراسة ، فإن النتيجة يمكن أن تؤدي بقوة إلى الجانب. تبدو لي افتراضات تحليل العوامل - ولكثير من الباحثين الآخرين - قريبة من مهمة وضع النماذج.
تم إنشاء هذا النهج في بداية القرن العشرين ، وكان يعتمد على فكرة أنه ، بالإضافة إلى المتغيرات التي تميز ملاحظات العينة ، هناك عوامل خفية ترتبط ، بشكل غير رسمي قليلاً ، ببعض المتغيرات الملحوظة. على سبيل المثال ، فإن إجابات السؤال "هل تؤمن بالله" و "هل تذهب إلى الكنيسة" سوف تتطابق بدلاً من أن تختلف. يمكن افتراض أن هناك "عامل التدين" ، والذي يظهر في مجموعة من المتغيرات المترابطة. في الوقت نفسه ، هناك أيضًا فرصة لقياس مدى ارتباط المتغيرات بعاملها المخفي.
بالنسبة للنصوص ، يصبح بيان المشكلة كما يلي. في الأخبار التي تصف نفس الموضوع ، ستحدث نفس الكلمات. على سبيل المثال ، سيتم العثور على الكلمات "سوريا" ، "أردوغان" ، "العملية" ، "الولايات المتحدة الأمريكية" ، "الإدانة" معًا في كثير من الأحيان في الأخبار التي تتناول موضوع نشر تركيا للتدخل العسكري في سوريا ورد الفعل المصاحب لهذا الأمر من الولايات المتحدة الأمريكية كلاعب جيوسياسي في نفس المنطقة).
يبقى أن نكتشف كل العوامل المهمة في أجندة الأخبار لفترة. ستكون هذه مواضيع إخبارية. لكن هذا ليس كل شيء ...
قليلا من الرياضيات
بالنسبة للأشخاص ذوي الخبرة في تقنيات نمذجة الموضوع ، يمكنني تقديم مثل هذا البيان. نسخة تحليل العوامل التي
جربتها هي نسخة مبسطة للغاية من
منهجية ARTM .
لكنني قررت أن أجرب طرقًا بها درجات أقل من الحرية ، بحيث يتم فهم ما يحدث في الداخل بشكل أفضل.
(كبير) نشأ ARTM من pLSA ، تحليل دلالي كامن احتمالي ، والذي ، بدوره ، كان بديلاً عن LSA استنادًا إلى تحلل المصفوفة المفرد - SVD.
يذهب تحليل عامل الذكاء إلى ما هو أبعد من SVD لأنه يوفر "بنية بسيطة" للعلاقة بين المتغيرات والعوامل ، والتي قد لا تكون مسألة بسيطة بالنسبة إلى SVD ، ولكنها محدودة لأنها ليست مصممة لحساب قيم العوامل بدقة (الدرجات) ، ثم هناك متجهات لقيم العوامل التي يمكن أن تحل محل متغيرات يمكن ملاحظتها أو أكثر.
رسميا ، مهمة تحليل عامل الاستخبارات هي كما يلي:
أين المتغيرات الملحوظة
المتعلقة خطيا إلى العوامل الخفية
بحاجة الى ايجاد
هذا كل شئ! تسمى معاملات بيتا هذه بالتحميلات في عالم تحليل العوامل. النظر في أهميتها في وقت لاحق قليلا.
من أجل الوصول إلى نتيجة التحليل ، يمكن للمرء التحرك بطرق مختلفة. أحدها الذي استخدمته هو العثور على المكونات الرئيسية بالمعنى الكلاسيكي ، والتي تدور بعد ذلك لتسليط الضوء على "الهيكل البسيط". تمتد المكونات الرئيسية فقط من التحلل المفرد للمصفوفة ، أو من خلال تحلل مصفوفة التغاير التبايني إلى متغيرات متجانسة وقيم. يتم حل المشكلة أيضًا عن طريق زيادة وظيفة الاحتمال. بشكل عام ، يعتبر تحليل العوامل "حديقة حيوان" كبيرة من الأساليب ، على الأقل 10 تعطي نتائج مختلفة ، ويوصى باختيار الطريقة التي تناسب المهمة.
حاولت أيضا أن يكون مصفوفة الحمل بطرق مختلفة ، varimax - دوران متعامد.
لماذا كل شيء معقد جدا؟والحقيقة هي أنه بين الإحصائيين والمتقدمين ، لا يتوقف النقاش حول الاختلافات والتشابهات في طريقة المكونات الرئيسية وتحليل العوامل ومزيجها. يتم تجديد المنهجية بمعرفة جديدة حتى بعد أكثر من 100 عام من لحظة الاكتشاف. أحضر لي أحد الإحصائيين المحترمين الصورة التالية لتسهيل الفهم بالكلمات: "هذا كل شيء ، صنفها".
مصدركل نوع بها!
مجرد مزاح). لفهم الخطوات التالية ، يكفي أنه بعد عزل المكونات الرئيسية ، نقوم بتدويرها ، ننتقل من شرح التباين داخل المتغيرات إلى شرح التغاير بين المتغيرات والعوامل.
علاوة على ذلك ، أفعل كل هذا باستخدام الوظائف الذرية ، وليس فقط الضغط على "زر أحمر كبير". هذا النهج يسمح لنا بفهم التحول في البيانات في المراحل المتوسطة.
أين ذهبت LDA؟
تحديثقررت أن أضيف أفكاري بشأن ترتيبات ديريتش الكامنة. جربت هذه الطريقة الشائعة ، لكن لم أستطع الحصول على نتيجة نظيفة في وقت قصير. أمثلة بسيطة حول كيفية استخدامها ، و "دعنا نقسم الأخبار إلى السياسة والاقتصاد والثقافة" تعمل حقًا ، ولكن ... في حالتي ، يجب أن أقسم السياسة ، على سبيل المثال ، إلى 50 موضوعًا نهارًا ، حيث ستكون روسيا وبوتين وإيران ، ومواضيع ضيقة مثل "تحرير كوكورين ومامايف". كل هذا ، في الواقع ، 1-2 وكالة أنباء ، نقلت عن عشرات المرات في وسائل الإعلام.
علاوة على ذلك ، يبدو لي الافتراض حول طبيعة البيانات ، الذي يميز الفرضية القائلة بأن كل نص هو توزيع احتمالي حسب الموضوع ، مصطنعًا قليلاً في سياق عملي. لا يوجد محرر يوافق على أن خبر "رفض القضية ضد غولونوف" هو مزيج من المواضيع. بالنسبة لنا ، هذا موضوع واحد. ربما ، باختيار المعلمات الفائقة من الممكن تحقيق هذا التفتت من LDA ، سأترك هذا السؤال للمستقبل.
قانون
أنا أمارس اللغة R مرة أخرى ، لذلك ستكون هذه التجربة الصغيرة هي الآرية.
نحن نعمل مع 3 أزواج من القيم العشوائية المرتبطة. تحتوي هذه المجموعة على 3 عوامل خفية - فقط من أجل الوضوح.
set.seed(1) x1 = rnorm(1000) x2 = x1 + rnorm(1000, 0, 0.2) x3 = rnorm(1000) x4 = x3 + rnorm(1000, 0, 0.2) x5 = rnorm(1000) x6 = x5 + rnorm(1000, 0, 0.2) dt <- data.frame(cbind(x1,x2,x3,x4,x5,x6)) M <- as.matrix(dt) sing <- svd(M, nv = 3) loadings <- sing$v rot <- varimax(loadings, normalize = TRUE, eps = 1e-5) r <- rot$loadings loading_1 <- r[,1] loading_2 <- r[,2] loading_3 <- r[,3] plot(loading_1, type = 'l', ylim = c(-1,1), ylab = 'loadings', xlab = 'variables'); lines(loading_2, col = 'red'); lines(loading_3, col = 'blue'); axis(1, at = 1:6, labels = rep('', 6)); axis(1, at = 1:6, labels = paste0('x', 1:6))
نحصل على مصفوفة الحمل التالية:


"الهيكل البسيط" مرئي للعين المجردة.
وهنا كيف تبدو الأحمال مباشرة بعد الانتهاء من MGK:

ليس من السهل جدًا على الأشخاص فهم العوامل المرتبطة بأي من المتغيرات. علاوة على ذلك ، فإن مثل هذه الأوزان ، التي يتم أخذها في معامل ، وفي تفسير الآلة ستؤدي إلى توزيع غريب للغاية للكلمات على الموضوعات.
لكن ، بو! ، بلغت حصة التشتت الموضح في المكونات الرئيسية الثلاثة الأولى (قبل التناوب) 99 ٪.

ماذا عن الأخبار؟
للحصول على الأخبار ، تصبح المتغيرات x1 و x2 ... xm التردد (أو tf-idf) لحدوث الرمز المميز في النص. هناك العديد من الكلمات! على سبيل المثال ، 50000 كلمة فريدة في الأسبوع أمر طبيعي. ستكون الغرام ثنائية أكبر ، بشكل مفهوم. تعقيد التحلل المفرد هو المتوسط:
هذا هو ، إنه ضخم. يستغرق تحلل مصفوفة من 20،000 * 500 القيم في تيار واحد عدة ساعات ...
لتتمكن من قراءة المواضيع في الوقت الفعلي وعرض لامعة على لوحة القيادة ، توصلت إلى المقاطع المؤلمة التالية:
- أعلى 10 ٪ من الكلمات الأكثر شيوعا
- اختيار عشوائي للنصوص وفقًا لمعادلة تحقيق الذات:
حيث n هو كل النصوص.
نتيجة لذلك ، أعالج البيانات الأسبوعية في 30 ثانية ، يوم واحد في 5 ثوان. ليس سيئا! ولكن ، يجب أن تفهم أن اتجاهات الأخبار لا يتم التقاطها إلا من خلال أكثر البرامج تغذيةً.
بعد تلقي الأحمال ، والتي لاحظت أنها تقديرات لمدى تباين المتغيرات المرصودة مع العوامل ، قمت بإطلاقها من العلامة (من خلال الوحدة ، وليس من خلال الدرجة) ، والتي تميل إلى التغيير اعتمادًا على طريقة التدوير المستخدمة.
تذكر كيف اختلفت مصفوفة الحمل بعد إجراء MHC وبعد الدوران باستخدام varimax. إن قلة الأحمال ، وكذلك حقيقة أن التشتت لكل عامل قد زاد إلى أقصى حد: هناك كبيرة جدا وصغيرة جدا ، سوف يؤدي إلى حقيقة أن الكلمات سيتم توزيعها بين العوامل بشكل نظيف للغاية ، والتي بدورها ستؤدي إلى مزيد من وتوزيع العوامل على نص الأخبار سيكون له ذروة واضحة.
أمثلة عن أكثر الكلمات التي تم تحميلها في مواضيع مختلفة تم العثور عليها (تم اختيارها عشوائيًا):


وأخيرا ، أنا أعتبر مجموع الأحمال في النصوص بالنسبة لكل عامل. الفوز الأقوى: بالنسبة لكل نص ، يتم اختيار عامل يتم تكبير مجموع أحماله - مع مراعاة عدد الكلمات المضمنة في المستند ، والتي - كما قدمنا أثناء التدوير - لها توزيع غير متساوٍ للغاية بين العوامل على الأحمال. في هذا التكرار ، جميع النصوص (ن) متورطة بالفعل ، أي العينة الكاملة.
أمثلة للمواضيع التي تتصدر قائمة مجموع الأحمال في نصوص أخبار محددة (تم اختيارها عشوائيًا):

النتيجة لهذا اليوم.
معلومات اضافية
ما يجب القيام به
هنا ، أول شيء سأفعله عندما ... ... عمومًا ، عندما يأتي الإلهام ، سأحاول تهيئة المهمة للتدريب كل ساعة لشبكة عصبية ذات رقبة ضيقة ، مما سيتيح لي تقريبًا غير خطي للعوامل - المكونات الرئيسية المشوهة - في شكل عصبونات طبقة مخفية. من الناحية النظرية ، يمكن أن يتم التعلم بسرعة باستخدام زيادة سرعة التعلم. بعد ذلك ، ستلعب أوزان الطبقة المخفية (المقيسة بطريقة ما) دور الأحمال الرمزية. يمكن بالفعل تحميلها بسرعة في بيئة المعالجة النهائية بسرعة مقبولة. ربما يمكن أن تؤدي هذه الخدعة إلى حقيقة أن الأسبوع سيتم معالجته في جميع النصوص في 10 ثوان: الوقت العادي لمثل هذه الحالة الصعبة.
الكل في الكل ، هذا كل ما أردت تغطيته. آمل أن تتيح لك هذه الرحلة القصيرة في طريقة نمذجة الموضوع فهم أفضل لما يتم القيام به تحت "الزر الأحمر الكبير" ، وتقليل الاغتراب من التكنولوجيا وتحقيق الرضا. إذا كنت تعرف هذا بالفعل ، فسيسعدني أن أسمع آراء ذات معنى تقني أو منتج. تجربتنا تتطور وتتغير طوال الوقت!