في نهاية العام الماضي ، استضافت مدينة فانكوفر الكندية مؤتمر NeurIPS-2019 . يعطي البحث في Habr سبعة إشارات ، من بينها عدم وجود تقرير واحد أو مراجعة واحدة - فجوة غريبة ، بالنظر إلى مستوى وحجم الحدث في عام 2019. قررنا في Antiplagiarism أن نملأ هذه الفجوة بقصة حول انطباعات اثنين من المبتدئين Nypsum في عالم علم الأزياء الراقية .

الليل ، دوموديدوفو ، تسجيل الوصول ، ثم رصيف قصير للغاية في فرانكفورت ، حيث من الواضح بالفعل أنه لن يكون هناك ازدحام في المؤتمر. كان الأشخاص المتسرعون في النظارات وأغطية الشركات يغمرون منطقة العبور ، وكان خط الهبوط نفسه بالفعل بمثابة مؤتمر روسي جيد (آسف ، غير موجود). بعد ذلك ، انتظرنا رحلة استغرقت عشر ساعات ، تحولت إلى مسار هاكاثون: في المقصورة هنا وهناك شاشات سوداء مومضة بمحطة أو قشرة بنية داكنة. في السماء فوق غرينلاند ، يبدو أنه تم كتابة كود أكثر من أي وقت مضى على سطحه.
الفرق الزمني هو 11 ساعة ، لذلك عند الوصول ، واجهنا على الفور الواقع الوحشي من jetlag. نظرًا لعدم وجودك على مقربة من المكان (مركز فانكوفر للمؤتمرات ، والذي يتكون من مبنيين تبلغ مساحتهما 43340 مترًا مربعًا ، والذي يضم ، لمدة ثانية ، ما يقرب من ستة ملاعب كرة قدم) وبالكاد انتظرنا ، كما هو متوقع ، في المساء ، بالتوقيت المحلي ، سقطنا نائمين.
في اليوم الأول ، عندما دفعنا بالكامل مقابل الصبر.
8 ديسمبر ، في اليوم الأول للمؤتمر. لاحظ المنظمون في خطاب أرسله في اليوم السابق أنه يتعين عليهم الموت ، لكنهم حضروا التسجيل بدقة في اليوم الأول. وصلت في الساعة 9 صباحًا المتفق عليها وتعثرت فورًا في طابور يبدأ في الطابق الأول ويذهب إلى الثانية ، يطوي ويثني ويطوي مجددًا ، متجولًا. يمتد ويمتد قاب قوسين أو أدنى مرة أخرى ، حيث بعد بضع ساعات من الانتظار (قائمة الانتظار لحفل Anacondaz في موسكو ، بالمناسبة ، حل في ساعة واحدة فقط) نحصل على شارات وأكواب باردة مطمعا.

تعالوا مبكرًا ، قالوا ... (كل من قام بتسجيل الوصول في اليوم التالي فعل ذلك دون بذل الكثير من الجهد)
ولوحًا بالشارات أمام خط ينمو بشكل نشط ، نذهب إلى المبنى المجاور ، حيث يتم التخطيط لـ Expo Day لهذا اليوم: حوامل وندوات للشركات الراعية الكبرى. غرف الندوات فارغة ، ويحاول المتحدثون جذب انتباه بقية الجمهور ، وفي هذا الوقت في القاعة التي تضم حوامل الشركة مليئة بالأشخاص. يتم تقديم القهوة والحلويات هنا ، والشركات الرائدة في هذا المجال (Facebook و IBM و Google و Apple وغيرها) تتحدث بذكاء عن نفسها ، وتسجيل الأشخاص في مواقعهم المهنية وتوزع بسخاء القبعات والمحولات والجوارب والدعوات لحفلات الشركات. يبدو أن بعض المقابلات بالفعل.

حقيبة التجار من الرعاة (الحقيبة نفسها هي أيضا ميرش)

منظر لمبنى المركز الشرقي والخليج
في اليوم الثاني ، عندما بدا أن كل شيء قد فقد.
في اليوم التالي ، اندلع العمل. ركضت أنا وأولج باختيف بفرح لاستيعاب العلوم المتقدمة. لقد استمعنا إلى الأداء الممتاز لـ Kyunghyun Cho حول نموذج التعلم المقلد ، والذي يجمع بين مزايا RL والتعلم المشرف الكلاسيكي. صحيح ، لقد انتهى الأمر ، لبقية اليوم ، كانت الحلقات الدراسية التي أصبحت تقليدية هي Black in AI و Women in Machine Learning و LatinX in AI و Queer in AI و New in Learning Machine. لقد تخللت هذه الندوات واحدة من ثلاث مباريات للاختيار من بينها ، ومن بين المعالجة الفعالة المقترحة للشبكة العصبية العميقة: من الخوارزميات إلى بنيات الأجهزة ، والتعلم الآلي للبيولوجيا الحاسوبية والصحة ، والمقارنة القابلة للتفسير للتوزيعات والنماذج ، اخترنا dipllerning و ... الضائعة. وقد تم وصف الاختناقات والمقايضات الواضحة التي نشأت في السعي لتحقيق الكفاءة بإلهام وتفاصيل. انتهى اليوم بسلسلة من التقارير من قبل Reinforcement Learning: الماضي والحاضر ، والمستقبل ، حيث كانت الشاشة الكبيرة تدور على مدار ساعتين تقريبًا ، وسقطت وارتفعت عمليات محاكاة كمبيوتر متنوعة لرجل صغير من العصي. كان ممتعا. لدرجة أنني لم أرغب في الذهاب إلى عرض فلسفي قدمه عالم نفسي من بيركلي بعنوان "كيف تعرف بإعلان مزهر".
في اليوم الثالث ، عندما امتلأت عقولنا بالأمل.
عندما كنا يائسين بالفعل لسماع بعض الأخبار على الأقل عن التعلم الآلي من فم المتحدثين ، اقترح أشخاص مطلعون أن كل شيء رائع والحاضر يحدث في جلسة الملصقات. عظيم ، لقد بدأت للتو اليوم. دعنا نذهب للاستماع إلى أبرز. أبرز - هذا هو عندما يجمع الجميع ، يجلس ويستمع إلى تقارير خمس دقائق من مؤلفي أفضل الأعمال التي ستكون في جلسة الملصقات. يحاول الأشخاص بشكل يائس تصوير العرض التقديمي ويشعرون بالضيق الشديد عندما يغير مقدم العرض الشرائح الثمينة. يبدو أن كل هذا ضروري حتى لا تتجول بين ثلاث أو أربعمائة ملصق بدون هدف ، ولكن لتسليط الضوء على اهتمامك حقًا. بعد ساعة من الأحداث البارزة ، انطلقنا لمشاهدة الملصقات بثقة أنه سيكون هناك الكثير من الأشياء المثيرة للاهتمام حقًا. تقع جلسة الملصقات في مكانين متحدين للمعرض ، على الطريق الذي يمتد فيه الخط. بمجرد الدخول ، ننتشر للبحث عن الموضوعات ذات الصلة والمواد المفضلة من النقاط البارزة. كل شيء جيد للغاية ، ولكن من أجل التحدث مع المؤلف ، عليك أن تقف في طابور ، أو انتظر بداية القصة بطريق الخطأ. التعب من قائمة الانتظار المستمرة ومحاولات إخراج الملصق من خلال الرأس تتحرك بسرعة كافية. القوة تعطي فقط التطفل بقوة دون غطاء Schmidhuber . نتيجة لذلك ، تمكنا من العثور والاستماع بعناية إلى حوالي عشرة أعمال مثيرة للاهتمام. الصيد لطيفة مقارنة بالأيام السابقة.
في اليوم الرابع والأيام التالية ، عندما ، في النهاية ، بدأ.
في اليوم التالي ، يقدم لنا الأشخاص ذوو المعرفة مرةً أخرى تلميحًا قيِّمًا: ليس من الضروري بل وموانع في الذهاب للاستماع إلى النقاط البارزة ، لأنك تحتاج إلى الركض إلى الملصقات أثناء تعليقها فقط - لا يوجد أي أشخاص تقريبًا ، والمؤلفون مستعدون بالفعل للإجابة على الأسئلة. هكذا فعلوا. نجحت التكتيكات - تحدثوا مع الزملاء كثيرًا وبشكل منتج ، وشاهدوا عددًا كبيرًا من الأعمال المثيرة للاهتمام. اتبعنا نفس الخطة في المستقبل ، وأحاولنا أحيانًا تذوق خطب المتحدثين ، لكننا متفقون دائمًا على أننا يجب ألا نأخذها في استراحة من الذهاب إلى الملصقات. كما أعربت ورش العمل المواضيعية خلال اليومين الأخيرين من المؤتمر عن سرورها بثراء المعلومات وأهميتها. وضعت الأعمال ، التي تم تقسيمها على مواضيع ضيقة ، على جدران جمهور صغير ، وكانت هناك خطب ومناقشات حية.

وثيقة ذكاء ورشة العمل
لقد وصلنا إلى NeurIPS 2019 ليس فقط بهذا الشكل ، ولكن كمشاركين في ورشة عمل ذكاء المستندات ، والمكرسة للمعالجة الفكرية للوثائق. وكانت الغالبية العظمى من مهام ورشة العمل تتعلق بالتعرف البصري على النصوص وقمع الأعمال الفنية في المستندات الممسوحة ضوئيًا ، واختيار الكيانات من إيرادات المبيعات أو العقود. عرضت أنا و Oleg_Bakhteev عملنا على البحث عن الاستعارة عبر اللغات. CrossLang: نظام الكشف عن الانتحال عبر اللغات ، والذي يمكن قراءته شعبياً على المحور هنا نتطرق بمزيد من التفاصيل ، ونستخرج من الانطباعات العامة للمؤتمر ونقوم بعمل ملخص صغير لمقالات الورشة. نتيجة قصيرة وواضحة - أصبحت السنة الماضية سنة BERT'a لمنطقتنا. محتوى جميع مقالات ورشة العمل (تقريبا) في سطر واحد أدناه:
- CrossLang: نظام الكشف عن الانتحال عبر اللغة. مقالتنا حول نظام الكشف عن القروض القابلة للتحويل. تعتبر مشكلة العثور على أجزاء مستعارة من نص الإدخال باللغة الروسية في مجموعة باللغة الإنجليزية. استخدمنا مجموعة من المترجم + جهاز تشفير وفك تشفير شبه مشرف على مقارنة الجمل المترجمة. النظام الناتج يعمل بنجاح في همز ، يخدم عدد كبير من الجامعات.
- إعادة صياغة نماذج لغة وحدة فك ترميز المحولات للتلخيص الملخص. تعتبر مشكلة تلخيص التجريد. من الواضح أنه باستخدام وحدة فك ترميز المحولات المدربة مسبقًا ، يمكنك الحصول على نتائج جيدة ، مع الأخذ في الاعتبار المهمة كنمذجة اللغة. بدون بحث شعاع وغيرها من التحسينات فك التشفير ، ولكن مجرد فك التشفير الجشع.
- من السكتة الدماغية إلى الأتمتة المحدودة: نهج التعرف دون اتصال. يوجد نظام إلكتروني لتعليم طلاب علوم الحاسب الآلي. لدراسة آلات الحالة المحدودة ، تم إنشاء نظام للتعرف على المخططات المرسومة باليد. يتم تقديم مجموعة البيانات للمهمة.
- تحليل ما بعد التعرف الضوئي على الحروف: بناء محلل بسيط وقوي من خلال وضع العلامات البيولوجية. تقسيم المعلومات من الشيكات إلى مجموعات. يتم تصنيف كل رمز مميز في Start-Inside-Out (BIO) باستخدام تضمين BERT. لقد صنعنا مجموعة البيانات الخاصة بنا لهذا الغرض.
- BERTgrid: التضمين السياقي لتمثيل وفهم المستندات ثنائية الأبعاد. أريد استخدام الصورة الكاملة للصفحة والنص. BERT للنص ، CNN للصور ، نحصل على تمثيلات سياقية للعناصر في الصفحة للمهام اللاحقة ، مثل التصنيفات. كما انها تستخدم في الشيكات.
- Chargrid-OCR: التعرف على الحروف البصرية من طرف إلى طرف من خلال التجزئة الدلالي وكشف الكائنات. تعتبر مهمة OCR بمثابة مهمة تجزئة كائن للكائنات بإحكام شديد. لا يوجد أي معالجة خاصة مسبقة ، يتم إعطاء بكسلات نقية. مقارنة مع Tesseract و CNN-RNN.
- SVDocNet: المتغير المكاني U-Net لـ Deblurring المستند الأعمى. اجعل عمليات مسح الصور واضحة باستخدام U-Net.
- استخراج بنية الدلالي لجداول جداول البيانات مع بنية تعلم متعددة المهام. إطار عمل متعدد المهام للعمل مع الجداول: يتم أخذ كل من دلالات الخلية الداخلية (BERT) ونوع الخلية (CNN) في الاعتبار.
- نظام تحسين المستندات باستخدام الترميز التلقائي. تنظيف المستندات الممسوحة ضوئيًا من التآكل والمصنوعات المائية والعلامات المائية. أخذوا الهندسة المعمارية النهائية لشبكة فك التشفير-فك التشفير. تتكون مجموعة البيانات من مستندات صاخبة نظيفة وذات صلة. تم تقليل خطأ إعادة الإعمار.
- CORD: مجموعة بيانات استلام موحدة للتحليل بعد التعرف الضوئي على الحروف. لقد صنعنا مجموعة بيانات مع وضع علامات على الشيكات للمناطق وقيمها.
- على الاعتراف النص السيريلية. لقد صنعنا مجموعة بيانات للتعرف على اللغات السيريلية المكتوبة بخط اليد.
- تمثيل التعلم في الجيولوجيا و GilBERT. البحث عن مصطلحات مماثلة في الوثائق الجيولوجية باستخدام بيرت.
- إعادة النظر في استخراج عنصر العقد العصبي. استخراج الكيانات من العقود: الأطراف ، التواريخ ، الأموال ، إلخ. النظر في المهمة كتسمية تسلسل. حاول BiLSTM ، الموسع cnn ، محول ، بيرت. عملت BiLSTM أفضل مع CRF على القمة. كمدخلات تستخدم W2V مجال معين.
- Doc2Dial: إطار لتكوين الحوار يرتكز على وثائق الأعمال. عامل حوار يستجيب لطلب المستخدم استنادًا إلى مجموعة من المستندات.
- في مجال نقل النوايا التنبؤ في النص. مقال عن الموقف عند وجود مجموعات بيانات عامة (رسائل البريد الإلكتروني) ، لكننا نريد استخدامها في مجموعات بيانات مغلقة (رسائل مستخدم حقيقية). قد تأتي من توزيع مختلف وتحطيم المباني الأساسية ل ML. يتم تقديم تقنيات مختلفة للكشف عن اختلافات التوزيع.
- نحو مقيم التشابه العصبي. يتم النظر في مشكلة الجمع وجودة القياس. هناك الكثير من المشكلات المتعلقة بـ BLEU و ROUGE ، لذلك اتخذنا بنية RoBERTa وأكملناها في مهمة تشابه الجملة. قياس الجودة - مقارنة بين تمثيلات المتجهات الناتجة.
في النهاية ، كما هو متوقع ، الاستنتاجات. خلال اليومين أو الثلاثة أيام الأولى ، يرتفع المؤتمر ، لذا إذا كنت مسافرًا للعلم ، يمكنك تخطيهم بأمان أو مشاهدة فانكوفر والمناطق المحيطة بها ، والتعافي من اضطراب الرحلات الجوية الطويلة. إذا كنت ستحصل على وظيفة في صناعة أو أكاديمية (وتحصل على merch) ، فعندئذٍ في Expo لديك فرصة للعثور على وظيفة في شركة كبيرة (وليس كذلك). حسنًا ، كل النجوم من الأكاديمية ، قادة المختبرات موجودون أيضًا في المؤتمر ، لذلك هناك فرصة للالتقاء والدردشة.
هكذا اتضح بالنسبة لنا NeurIPS 2019 :) نأمل أن تكون المقالة مثيرة للاهتمام ومفيدة لـ habrovoy ML-community.