KDD 2018 ، اليوم الرابع ، أداء الحائز على جائزة نوبل



اليوم الثاني من برنامج KDD الرئيسي. تحت القطع مرة أخرى ، الكثير من الأشياء المثيرة للاهتمام: من التعلم الآلي في Pinterest إلى طرق مختلفة للحفر في أنابيب المياه. بما في ذلك خطاب حائز على جائزة نوبل في الاقتصاد - قصة حول كيفية عمل وكالة ناسا مع القياس عن بُعد والعديد من عمليات تضمين الرسم البياني :)

تصميم السوق والسوق المحوسب


أداء جيد من قبل الحائز على جائزة نوبل الذي عمل مع Shapley في الأسواق. السوق شيء اصطناعي يأتي إليه أهل الجهاز. هناك ما يسمى بأسواق السلع ، عندما تشتري منتجًا معينًا ولا تهتم بمن ، لا يهم سوى السعر (على سبيل المثال ، سوق الأسهم). وهناك أسواق متطابقة عندما لا يكون السعر هو العامل الوحيد (وأحيانًا لا يكون على الإطلاق).

على سبيل المثال ، توزيع الأطفال في المدارس. في السابق ، عملت الخطة في الولايات المتحدة على النحو التالي: يكتب الآباء قائمة المدارس حسب الأولوية (1 ، 2 ، 3 ، وما إلى ذلك) ، تنظر المدارس أولاً إلى أولئك الذين أشاروا إليهم كرقم 1 ، ويرتبونهم وفقًا لمعايير مدرستهم ويأخذوا ما يمكنهم أخذه . بالنسبة لأولئك الذين لم يضربوا ، نأخذ المدرسة الثانية ونكرر الإجراء. من وجهة نظر نظرية اللعبة ، فإن المخطط سيء للغاية: يجب على الآباء أن يتصرفوا "استراتيجيًا" ، فمن غير العملي أن نقول بصراحة تفضيلاتهم - إذا لم تدخل المدرسة 1 ، في الجولة الثانية ، قد تكون المدرسة 2 ممتلئة بالفعل ولن تدخلها ، حتى لو كانت صفاتك أعلى من أولئك الذين تم قبولهم في الجولة الأولى. عمليًا ، يُترجم عدم احترام نظرية اللعبة إلى فساد واتفاقيات داخلية بين الآباء والمدارس. اقترح علماء الرياضيات خوارزمية أخرى - "القبول المؤجل". الفكرة الرئيسية هي أن المدرسة لا تمنح الموافقة على الفور ، ولكن ببساطة تحتفظ بقائمة مرتبة من المرشحين "في الذاكرة" ، وإذا تجاوز شخص ما الذيل ، فسيحصل على الرفض على الفور. في هذه الحالة ، هناك استراتيجية مهيمنة للآباء: أولاً نذهب إلى المدرسة 1 ، إذا حصلنا على الرفض في مرحلة ما ، ثم نذهب إلى المدرسة 2 ولا نخشى فقدان أي شيء - فرص الوصول إلى المدرسة 2 هي نفسها كما لو ذهبنا إليها على الفور. تم تنفيذ هذا المخطط "في الإنتاج" ، ولكن. لم يتم الإبلاغ عن نتائج اختبار أ / ب.

مثال آخر هو زرع الكلى. على عكس العديد من الأعضاء الأخرى ، يمكنك العيش مع كلية واحدة ، لذلك غالبًا ما تنشأ حالة أن شخصًا ما مستعد لإعطاء الكلية لشخص آخر ، ولكن ليس كلية مجردة ، ولكن واحدة محددة (بسبب العلاقات الشخصية). ومع ذلك ، فإن احتمال توافق المتبرع والمتلقي صغير جدًا ، وعليك انتظار عضو آخر. هناك بديل - تبادل الكلى. إذا كان زوجان من المتبرعين والمستفيدين وغير متوافقين من الداخل ، ولكنهما متوافقان بين الأزواج ، فيمكنك تبادل: 4 عمليات متزامنة للاستخراج / الزرع. يعمل النظام بالفعل لهذا الغرض. وإذا كان هناك عضو "حر" غير مرتبط بزوج معين ، فيمكن أن يؤدي إلى سلسلة كاملة من التبادلات (في الواقع كانت هناك سلاسل تصل إلى 30 عملية زرع).

هناك الكثير من الأسواق المتطابقة المماثلة الآن: من Uber إلى سوق الإعلانات عبر الإنترنت ، وكل شيء يتغير بسرعة كبيرة بسبب الحوسبة. من بين أمور أخرى ، تتغير "الخصوصية" كثيرًا: كمثال ، استشهد المتحدث بدراسة أجراها أحد الطلاب أظهر أنه في الولايات المتحدة بعد الانتخابات ، انخفض عدد الرحلات التي يجب زيارتها في عيد الشكر بسبب الرحلات بين الدول ذات وجهات النظر السياسية المختلفة. أجريت الدراسة على مجموعة بيانات مجهولة من إحداثيات الهاتف ، لكن المؤلف حدد بسهولة "منزل" مالك الهاتف ، أي مجموعة بيانات غير مسماة.

بشكل منفصل ، سار المتحدث على البطالة التكنولوجية. نعم ، ستحرم السيارات غير المأهولة العديد منها (6٪ من الوظائف في الولايات المتحدة معرضة للخطر) ، لكنها ستخلق وظائف جديدة (لميكانيكا السيارات). بالطبع ، لن يتمكن السائق المسن من إعادة التدريب وستكون ضربة قوية بالنسبة له. في مثل هذه اللحظات ، تحتاج إلى التركيز ليس على كيفية منع التغييرات (لن تنجح) ، ولكن على كيفية مساعدة الناس على تجاوزها بدون ألم قدر الإمكان. في منتصف القرن الماضي ، أثناء ميكنة الزراعة ، فقد الكثير من الناس وظائفهم ، لكننا سعداء بأن نصف السكان الآن ليس عليهم الذهاب إلى العمل في الميدان؟ لسوء الحظ ، هذا مجرد حديث عن خيارات التخفيف المنفذة لأولئك الذين يواجهون البطالة التكنولوجية ، لم يقترح المتحدث ...

ونعم ، مرة أخرى حول الإنصاف. من المستحيل جعل توزيع نموذج التنبؤ كما هو في جميع المجموعات ، سيفقد النموذج معناه. ما الذي يمكن فعله ، نظريًا ، بحيث يكون توزيع الأخطاء من النوع الأول والثاني هو نفسه لجميع المجموعات؟ يبدو الأمر أكثر منطقية بالفعل ، ولكن كيفية تحقيق ذلك في الممارسة ليست واضحة. أعطى رابطًا لمقال مثير للاهتمام حول الممارسة القانونية - في الولايات المتحدة ، يقرر القاضي ما إذا كان سيتم الإفراج عنه بكفالة على أساس توقعات ML .

يوصي الأول


لقد حصلت على الخلط في الجدول وجئت إلى الكلام الخاطئ ، ولكن لا يزال في الموضوع - الكتلة الأولى على أنظمة التوصيات.

الاستفادة من السياق القائم على مسار Meta لتوصية Top N مع آلية الاهتمام المشترك


يحاول الرجال تحسين التوصيات من خلال تحليل المسارات في الرسم البياني. الفكرة بسيطة للغاية. يوجد مزوّد شبكة عصبية "كلاسيكي" مع تضمين العناصر والمستخدمين وجزء متصل بالكامل في الأعلى. هناك توصيات على الرسم البياني ، بما في ذلك تلك التي تحتوي على ترميزات للشبكات العصبية. دعونا نحاول الجمع بين كل هذا في آلية واحدة. لنبدأ ببناء "الرسم البياني الفوقية" الذي يوحد المستخدمين والأفلام والسمات (الممثل / المخرج / النوع ، وما إلى ذلك) ، على الرسم البياني العشوائي ، نحن نختبر عددًا من المسارات ، ونطعمها إلى شبكة الالتواء ، ونضيف تضمين المستخدم على الجانب و الاعتراض ، ونلفت الانتباه (هنا صعب قليلاً ، مع خصائصه الخاصة للفروع المختلفة). للحصول على الجواب النهائي ، ضع ندبة مع طبقتين مخفيتين في الأعلى.



تطبيقات الإنترنت للمستهلكين


في الفاصل بين التقارير ، أنتقل إلى العرض التقديمي حيث أردت في الأصل: المتحدثون الضيوف من LinkedIn و Pinterest و Amazon يتحدثون هنا. جميع الفتيات وجميع رؤساء إدارات DS.

Neraline التوصيات السياقية للمجتمعات النشطة LinkedIn


خلاصة القول هي تحفيز تنمية المجتمع وتنشيطه على LinkedIn. فاتني نصف التطوير ، التوصية الأخيرة: استغلال الأنماط المحلية. على سبيل المثال ، في الهند ، غالبًا ما يحاول الطلاب بعد التخرج الاتصال بخريجي الجامعة نفسها من الدورات السابقة مع مهنة راسخة. يأخذ LinkedIn هذا في الاعتبار عند البناء وعند تقديم التوصيات.

ولكن مجرد إنشاء مجتمع ليس كافيًا ، فمن الضروري أن يكون هناك نشاط: ينشر المستخدمون المحتوى ويتلقون ويعطون تعليقات. اعرض ارتباط التعليقات الواردة مع عدد المنشورات في المستقبل. اعرض كيف تتالي المعلومات عبر الرسم البياني. ولكن ماذا لو لم تشارك العقدة في الشلال؟ أرسل إشعار!

ثم كان هناك الكثير من المحادثات مع قصة الأمس حول العمل مع الإخطارات والشريط. هنا يستخدمون أيضًا نهج التحسين متعدد الأغراض "لزيادة أحد المقاييس إلى أقصى حد مع إبقاء المعايير الأخرى ضمن حدود معينة." للتحكم في الحمل ، قدمنا ​​نظام Air Trafic Control الخاص بنا ، والذي يحد من الحمل على الإخطارات لكل مستخدم (كان بإمكانهم تقليل الاشتراكات والشكاوى بنسبة 20 ٪ ، دون فقدان المشاركة). يقرر ATC ما إذا كان يمكن إرسال الدفع إلى المستخدم أم لا ، ويتم إعداد هذا الدفع بواسطة نظام آخر يسمى Concourse ، والذي يعمل في وضع الدفق (مثل نظامنا ، على Samza !). قيل عنها أن الكثير قيل أمس. لدى Concourse أيضًا شريك غير متصل بالإنترنت باسم Beehive ، ولكنه يتدفق تدريجيًا بشكل متزايد.

لاحظ بضع نقاط أخرى:

  • Dedupilation أمر مهم وعالي الجودة ، نظرًا لوجود العديد من القنوات والمحتوى.
  • من المهم أن يكون لديك منصة. ولديهم فريق منصة مخصص ، ويعمل المبرمجون هناك.

نهج Pinterest لتعلم الآلة


يتحدث الآن المتحدث باسم Pinterest ويتحدث عن مهمتين كبيرتين تستخدم ML - feed (homefeed) والبحث. يقول المتحدث على الفور أن المنتج النهائي هو نتيجة ليس فقط لعمل علماء البيانات ، ولكن أيضًا لمهندسي ML والمبرمجين - تم تخصيص الأشخاص لهم جميعًا.

يتم بناء الشريط (الحالة عندما لا يكون هناك نية للمستخدم) وفقًا للنموذج التالي:

  • نحن نفهم المستخدم - نستخدم المعلومات من الملف الشخصي ، الرسم البياني ، التفاعل مع الدبابيس (التي رأيت أنني ركلتها) ، نبني التضمينات وفقًا للسلوك والسمات.
  • نحن نفهم المحتوى - نحن ننظر إليه من جميع الجوانب: بصري ، نصي ، من هو المؤلف ، والمجالس المشاركة ، ومن يتفاعل. من المهم جدًا أن تتذكر أن الأشخاص في صورة واحدة غالبًا ما يرون أشياء مختلفة: شخص ما لهجة زرقاء في التصميم ، وشخص لديه مدفأة ، وشخص آخر لديه مطبخ.
  • تجميع كل شيء معًا - إجراء من ثلاث خطوات: ننشئ مرشحين (توصيات + اشتراكات) ونخصص (باستخدام نموذج التصنيف) ونمزج وفقًا للسياسات وقواعد العمل.

للحصول على توصيات ، يستخدمون المشي العشوائي تحت الرسم البياني الخاص بلوحة المستخدم ، ويقدمون PinSage ، والذي تحدثوا عنه بالأمس . تطورت التخصيصات من التصنيف الزمني ، من خلال نموذج خطي و GBDT إلى شبكة عصبية (منذ 2017). عند جمع القائمة النهائية ، من المهم عدم نسيان قواعد العمل: نضارة ، متنوعة ، فلاتر إضافية. بدأنا باستخدام الاستدلال ، والآن نتحرك نحو نموذج تحسين السياق ككل فيما يتعلق بالأهداف.

في حالة البحث (عندما يكون هناك نية) يتحركون بشكل مختلف قليلاً: يحاولون فهم النية بشكل أفضل. للقيام بذلك ، استخدم فهم الاستعلام وتقنيات توسيع طلب البحث ، ولا يتم التمديد من خلال الإكمال التلقائي فحسب ، ولكن من خلال التنقل المرئي الجميل. يستخدمون تقنيات مختلفة للعمل مع الصور والنصوص. بدأنا في عام 2014 بدون تعلم عميق ، وأطلقنا البحث المرئي مع التعلم العميق في عام 2015 ، وفي عام 2016 أضافنا اكتشاف الكائنات من خلال التحليل والبحث الدلالي ، وأطلقنا مؤخرًا خدمة Lens - يمكنك توجيه كاميرا الهاتف الذكي إلى الموضوع والحصول على دبابيس. في التعلم العميق ، يستخدمون بنشاط مهام متعددة: هناك كتلة مشتركة تبني تضمين الصورة. والشبكات الأخرى في الأعلى لحل المشاكل المختلفة.

بالإضافة إلى هذه المهام ، يتم استخدام ML أكثر من ذلك بكثير: الإخطارات / الإعلان / البريد العشوائي / التنبؤ ، إلخ.

القليل عن الدروس المستفادة:

  • يجب أن نتذكر التحيزات ، وهي واحدة من "الأغنياء الأكثر خطورة تزداد ثراءً" (ميل التعلم الآلي إلى نقل حركة المرور إلى أشياء شائعة بالفعل).
  • من الضروري الاختبار والمراقبة: أدى تنفيذ الشبكة في البداية إلى انهيار جميع المؤشرات بشكل كبير ، ثم اتضح أنه بسبب توزيع الأخطاء في الميزات قد انجرف لفترة طويلة وظهرت الفراغات على الإنترنت.
  • البنية التحتية والنظام الأساسي مهمان جدًا ، مع التركيز بشكل خاص على راحة وموازاة التجارب ، ولكن يجب أن تكون قادرًا على قطع التجارب في وضع عدم الاتصال.
  • المقاييس والفهم: عدم الاتصال بالإنترنت لا يضمن الاتصال بالإنترنت ، ولكن لتفسير النماذج ، نصنع أدوات.
  • بناء نظام بيئي مستدام: حول مرشح القمامة وطعم النقر ، تأكد من إضافة ملاحظات سلبية إلى واجهة المستخدم والنموذج.
  • تذكر أن يكون لديك طبقة لتضمين قواعد العمل.

الرسم البياني المعرفي الواسع بواسطة Amazon


الآن تلعب فتاة من أمازون.

هناك رسوم بيانية للمعرفة - عقد الكيان ، حواف السمات ، وما إلى ذلك - والتي يتم إنشاؤها تلقائيًا ، على سبيل المثال ، على ويكيبيديا. تساعد في حل العديد من المشاكل. نود الحصول على شيء مشابه للمنتجات ، ولكن هناك الكثير من المشكلات في هذا: لا توجد بيانات إدخال منظمة ، ومنتجات ديناميكية ، وهناك العديد من الجوانب التي لا تتناسب مع نموذج الرسم البياني المعرفي (إنها قابلة للنقاش ، في رأيي ، بدلاً من ذلك "لا تكذب بدون تعقيدات خطيرة في الهيكل ") ، الكثير من القطاعات و" الكيانات غير المسماة. " عندما تم "بيع" المفهوم إلى الإدارة وحصلوا على الموافقة المسبقة ، قال المطورون إنه كان "مشروعًا لمائة عام" ، ونتيجة لذلك تمكنوا من ذلك في غضون 15 شهرًا.

بدأنا باستخراج كيانات من دليل أمازون: هناك نوع من البناء هنا ، على الرغم من أنه مزود بمصادر خارجية وقذرة. بعد ذلك ، قاموا بتوصيل OpenTag (تم وصفه بمزيد من التفاصيل بالأمس) لمعالجة الكلمات. والمكون الثالث هو Ceres - أداة للتحليل من الويب ، مع مراعاة شجرة DOM. الفكرة هي أنه من خلال التعليق على إحدى صفحات الموقع ، يمكنك بسهولة تحليل الباقي - بعد كل شيء ، يتم إنشاؤها جميعًا بواسطة قالب (ولكن هناك العديد من الفروق الدقيقة). للقيام بذلك ، استخدمنا نظام ترميز Vertex (الذي تم شراؤه بواسطة Amazon في 2011) - يقومون بترميزه ، بناءً على ذلك يتم إنشاء مجموعة من xpath لعزل السمات ، ويحدد الانحدار اللوجستي أيهما ينطبق على صفحة معينة. لدمج المعلومات من مواقع مختلفة ، استخدم الغابة العشوائية. كما يستخدمون التدريب النشط ، ويتم إرسال الصفحات المعقدة لإعادة وضع العلامات يدويًا. في النهاية ، يشرفون على تنظيف المعرفة - مصنف بسيط ، على سبيل المثال ، علامة تجارية / ليست علامة تجارية.

التالي ، القليل من أجل الحياة. يميزون نوعين من الأهداف. تعتبر صور السقف هي الأهداف قصيرة المدى التي نحققها من خلال تحريك المنتج ، كما أن Moonshots هي الأهداف التي ندفع بها الحدود والقيادة العالمية.

التزيينات والممثلين


بعد الغداء ، ذهبت إلى القسم الخاص بكيفية إنشاء التضمينات ، بشكل أساسي للرسوم البيانية.

العثور على تمارين مماثلة مع تمثيل دلالية موحد


يحل الرجال مشكلة العثور على مهام مماثلة في بعض نظام التعلم الصيني عبر الإنترنت. يتم وصف الواجبات من خلال النص والصور ومجموعة من kontsetov ذات الصلة. مساهمة المطورين هي جمع المعلومات من هذه المصادر. يتم تشكيل اللفائف للصور ، ويتم تضمين الضمانات للمفاهيم ، وكذلك للكلمات. يتم تمرير تضمين الكلمات إلى LSTM القائم على الانتباه إلى جانب معلومات حول المفاهيم والصور. احصل على بعض التمثيل للوظيفة.



يتم تحويل الكتلة الموصوفة أعلاه إلى شبكة سيامية ، حيث يتم إضافة الانتباه أيضًا وعند النتيجة درجة التشابه.



يقومون بالتدريس على مجموعة بيانات ملحوظة من 100 ألف تمرين و 400 ألف زوج (ما مجموعه 1.5 مليون تمرين). أضف سلبيًا صعبًا من خلال تمارين أخذ العينات بنفس المفاهيم ثم يمكن استخدام مصفوفات الاهتمام لتفسير التشابه.

التضمين التعسفي لتقارب الشبكة المحفوظ في الشبكة


يقوم الرجال ببناء مجموعة مثيرة للاهتمام للغاية من التضمين للرسوم البيانية. أولاً ، يتم انتقاد الأساليب القائمة على المشي وعلى أساس الجيران لأنها تركز على "القرب" لمستوى معين (المقابل لطول المشي). يقدمون طريقة تأخذ في الاعتبار قرب الترتيب المطلوب ، مع الأوزان الخاضعة للرقابة.

الفكرة بسيطة للغاية. لنأخذ دالة كثيرة الحدود ونطبقها على مصفوفة الجوار للرسم البياني ، ونعالج النتيجة بـ SVD. في هذه الحالة ، تكون درجة عضو معين في كثير الحدود هي مستوى القرب ، ووزن هذا العضو هو تأثير هذا المستوى على النتيجة. بطبيعة الحال ، هذه الفكرة البرية ليست مجدية: بعد رفع مصفوفة المجاورة إلى قوة ، فإنها تصبح أكثر كثافة ، ولا تتناسب مع الذاكرة وأنت تضع مثل هذا التين.

بدون رياضيات ، هذا هراء ، لأنه إذا قمت بتطبيق دالة كثيرة الحدود على النتيجة بعد التوسع ، فإننا نحصل على نفس الشيء تمامًا كما لو تم تطبيق التوسع على مصفوفة كبيرة. في الواقع ليس كذلك. نحن نفكر في SVD تقريبًا ونترك القيم العليا الذاتية فقط ، ولكن بعد تطبيق كثير الحدود يمكن أن يتغير ترتيب القيم الذاتية ، لذلك تحتاج إلى أخذ أرقام بهامش.



تأسر الخوارزمية بساطتها وتظهر نتائج مذهلة في مهمة التنبؤ بالارتباط.



NetWalk: نهج مرن للتضمين العميق للكشف عن الشذوذ في الشبكات الديناميكية


كما يوحي الاسم ، سنقوم ببناء تضمين الرسم البياني على أساس المشي. ولكن ليس فقط ، ولكن في وضع الدفق ، حيث إننا نحل مشكلة البحث عن الحالات الشاذة في الشبكات الديناميكية (كان هناك عمل حول هذا الموضوع أمس). من أجل قراءة التضمين وتحديثه بسرعة ، يستخدمون مفهوم " الخزان " ، الذي تكمن فيه عينة من الرسم البياني ويتم تحديثه بشكل عشوائي عند تلقي التغييرات.



بالنسبة للتدريب ، يقومون بصياغة مهمة معقدة إلى حد ما مع العديد من الأهداف ، والأهداف الرئيسية هي قرب التضمين للعقد في مسار واحد والحد الأدنى من الأخطاء عند استعادة الشبكة باستخدام برنامج ترميز تلقائي.

تضمين شبكة تصنيف التسلسل الهرمي


خيار آخر لإنشاء تضمين للرسم البياني ، هذه المرة على أساس نموذج توليد احتمالي. تم تحسين جودة التضمينات باستخدام معلومات من تصنيف هرمي (على سبيل المثال ، مجال المعرفة لشبكات الاقتباس أو فئة المنتج للمنتجات في الذيل الإلكتروني). تم بناء عملية التوليد على بعض "الموضوعات" ، وبعضها مرتبط بالعقد في التصنيف ، والبعض الآخر بعقد محددة.



نحن نربط التوزيع الطبيعي المسبق بمتوسط ​​صفري بمعلمات التصنيف ، ومعلمات قمة معينة في التصنيف - التوزيع الطبيعي بمتوسط ​​يساوي معلمة التصنيف ، والتوزيع المجاني للقمم بمتوسط ​​التوزيع مع متوسط ​​الصفر والتشتت اللانهائي. نقوم بتوليد بيئة الرأس باستخدام توزيع برنولي ، حيث يكون احتمال النجاح متناسبًا مع قرب معلمات العقد. نقوم بتحسين هذا العملاق بأكمله باستخدام خوارزمية EM .

تضمين شبكة عودية عميقة مع معادلة منتظمة


لا تعمل تقنيات التضمين الشائعة لجميع المهام. على سبيل المثال ، ضع في اعتبارك دور مهمة العقدة. لتحديد الدور ، لا تعتبر الجيران المحددة (التي يتم النظر إليها عادةً) مهمة ، ولكن هيكل الرسم البياني بالقرب من قمة الرأس وبعض الأنماط فيه. في الوقت نفسه ، من الصعب جدًا البحث عن هذه الأنماط (معادلة منتظمة) بشكل خوارزمي مباشرة ، ولكن بالنسبة للرسومات البيانية الكبيرة فهي غير واقعية.

لذلك ، سنذهب في الاتجاه الآخر . لكل عقدة ، نحسب المعلمات المرتبطة برسمها البياني: الدرجة ، الكثافة ، المركزية المختلفة ، إلخ. لا يمكن بناء التضمين عليها بمفردها ، ولكن يمكن استخدام العودية ، لأن وجود نفس النمط يعني ضمناً أن سمات جوار عقدتين بنفس الدور يجب أن تكون متشابهة. مما يعني أنه يمكنك تكديس المزيد من الطبقات.



تظهر عمليات التحقق أنها تتجاوز الخطوط الأساسية القياسية لـ DeepWalk و node2wek في العديد من المهام.

تضمين الشبكة الزمنية عبر تكوين الجوار


أحدث عمل تضمين الرسم البياني لهذا اليوم. هذه المرة سوف نلقي نظرة على الديناميكيات: سنقوم بتقييم كل من لحظة الاتصال وجميع حقائق التفاعل في الوقت المناسب. خذ شبكة الاقتباس كمثال ، حيث التفاعل هو منشور مشترك.

نستخدم عملية هوكس لنمذجة كيفية تأثير تفاعلات قمة الرأس السابقة على تفاعلاتها المستقبلية. HP . attention . log likelihood . .



Safety


. , . , ML , , .

Using Machine Learning to Assess the Risk of and Prevent Water Main Breaks


: , , — . , . , ( - , ), 1-2 % . , .

data miner- Data Science for Social Good . , , :



, . : , GBDT. -1 % .

base line-: « » , , « , » . ML, , .

27 32- , , , ( , — ). , $1,2 .

, , , 1940-, , ( ) .

Detecting Spacecraft Anomalies Using LSTMs and Nonparametric Dynamic Thresholding


NASA ( ). — . , . , .

ML . LSTM , . ( , ). , , . , . , .



: soil moisture active passive Curiosity c Mars Science Laboratory. 122 , 80 %. , , . , , .

Explaining Aviation Safety Incidents Using Deep Temporal Multiple Instance Learning


, , . Safety Incidents, , . , . .

, - , . «», .. , . , , . , , .

GRU , Multiple Instances Learning . , «» — , . « , , — » ( = ). max pooling .



cross entropy loss . base line MI-SVM ADOPT.

ActiveRemediation: The Search for Lead Pipes in Flint, Michigan


, , .

. 120 . , 2013 , : . , 2014-. 2015- — . , . , …

— , . , . .

. «», . : , , , . , , — , …

6 . , 20 %. data scientist-.

, 19 , , , . , « ». , , XGBoost - . ( 7 % , ).

لم تجرؤ السلطات على حفر النماذج وفقًا للتنبؤات ، لكنها أعطت الرجال مضخة ترابية ، والتي يمكن أن تصل إلى الأنابيب مع ضرر بسيط نسبيًا للتحقق مما إذا كان هناك نحاس أو رصاص. مع هذه الآلة ، بدأ الرجال في ممارسة "التعلم النشط" وكانوا مقتنعين بفاعلية النموذج.



بعد تحليل البيانات بأثر رجعي ، اعتبرنا أن استخدام النموذج بتنسيق تعليمي نشط سيقلل من تجاوز التكلفة من 16٪ إلى 3٪. بالإضافة إلى ذلك ، لاحظوا أنه في عملية التفاعل مع العلماء ، حسنت السلطات بشكل كبير موقفهم من البيانات - بدلاً من المنشورات والأقراص المتناثرة ، ظهرت بوابة عادية في Excel لمراقبة عملية استبدال نظام إمدادات المياه.

خط أنابيب ديناميكي للتنبؤ بمخاطر الحرائق المكانية الزمانية


في الختام ، هناك نقطة مؤلمة أخرى هي عمليات التفتيش على الحرائق. حول ما يحدث إذا لم يتم تنفيذها ، علمنا في مارس 2018. في الولايات المتحدة ، مثل هذه الحالات ليست نادرة أيضًا. وفي الوقت نفسه ، فإن الموارد اللازمة لفحص رجال الإطفاء محدودة ؛ ويجب توجيهها إلى الأماكن الأكثر تعرضًا للخطر.

هناك نماذج مفتوحة لتقييم مخاطر الحرائق ، لكنها مصممة لحرائق الغابات وليست مناسبة للمدينة. هناك نوع من النظام في نيويورك ، لكنه مغلق. لذلك ، تحتاج إلى محاولة صنع بنفسك .

بالتعاون مع رجال الإطفاء في بيتسبرغ ، جمع الرجال بيانات عن الحرائق على مدار عدة سنوات ، وأضافوا معلومات حول التركيبة السكانية ، والدخل ، وأشكال الأعمال التجارية ، وما إلى ذلك ، بالإضافة إلى مكالمات أخرى إلى قسم الإطفاء لا تتعلق بالحرائق. وحاولوا تقييم خطر الحريق بناءً على هذه البيانات.

يتم تدريس نموذجين مختلفين من طراز XGBoost: للعائلات والعقارات التجارية. تم تقييم جودة العمل ، أولاً وقبل كل شيء ، وفقًا لكابا بالنظر إلى اختلال التوازن القوي بين الطبقات.

أدت إضافة عوامل ديناميكية (مكالمات إلى قسم مكافحة الحرائق ، وتشغيل أجهزة الكشف / الإنذارات) إلى النموذج إلى تحسين الجودة بشكل كبير ، ولكن من أجل استخدامها ، يجب إعادة حساب النموذج كل أسبوع. استنادًا إلى التوقعات ، صنعت النماذج كمامة ويب ممتعة لمفتشي الحرائق توضح مكان وجود الأشياء الأكثر خطورة.



تم تحليل أهمية الأعراض. من بين الميزات الهامة للتجارة كانت تتعلق بإنذارات كاذبة (يبدو أن الإغلاق يذهب أبعد من ذلك). ولكن بالنسبة للأسر المعيشية - مبلغ الضرائب المدفوعة (Hi Fairness ، ستذهب عمليات تفتيش الحرائق في المناطق الفقيرة في كثير من الأحيان).

Source: https://habr.com/ru/post/ar420997/


All Articles