تمثل مشاركتنا فرصة للتعرف على الأبحاث في القسم الجديد من Samsung Research - مركز الذكاء الاصطناعي (AI) في موسكو. تم افتتاحه في مايو 2018 وفي غضون عام ونصف جمع أفضل المهنيين في مجال التعلم الآلي.
فيما يلي مقابلة مصغرة لموظفي المركز - متحدثون في المنتدى السنوي حول الذكاء الاصطناعي ، الذي عقد في المركز في ديسمبر من العام الماضي. قابلنا زملاء من اثنين من المختبرات: مختبر رؤية الكمبيوتر والنمذجة البصرية ومختبر تحليل البيانات المتعدد الوسائط.

حول Samsung AI Center
تستثمر Samsung في البحث والتطوير - حوالي 8٪ من إيرادات المبيعات السنوية - وهذا أحد المؤشرات الرائدة في العالم. تمتلك الشركة أكبر مجموعة من براءات الاختراع النشطة في الولايات المتحدة ، وقد تقدمت بطلبات للحصول على أكثر التقنيات سخونة في أوروبا. في السنوات الثلاث المقبلة ، ستستثمر Samsung 22 مليار دولار في تطوير تقنية 5G والتكنولوجيا في مجال الذكاء الاصطناعي.
تجمع Samsung Research ، وهي قسم أبحاث في Samsung Electronics ، 21 مركزًا بحثيًا حول العالم:
وحدات Samsung Research على خريطة العالم (من https://research.samsung.com/ )من بينها ، 7 مراكز متخصصة فقط في منظمة العفو الدولية. تم افتتاح مركز موسكو الدولي في 29 مايو 2018 ، والستة المتبقية موجودة في سيول ومونتريال وتورونتو ونيويورك وكامبردج وماونتن فيو.
مجال البحث الرئيسي في مركز Samsung AI AI في موسكو هو التعلم الآلي ، وهو نهج تم تطبيقه بنجاح في التعرف على الكلام ، ورؤية الكمبيوتر وتحليل البيانات. مدير المركز هو فيكتور Lempitsky ، دكتوراه ، أستاذ مشارك في معهد سكولكوفو للعلوم والتكنولوجيا ، العالم الروسي الأكثر شهرة في فئة موضوعه في عام 2018 ، الحائز على جائزة Scopus Russia في عام 2018 لمساهمته في تطوير هذه الصناعة.
استلهم المهندسون المعماريون والمصممون الذين صمموا مكتب مركز موسكو للذكاء الجوي من فكرة اللانهاية الرقمية. تم تصميم مفهوم Office لإنشاء مساحة تزيد من الإبداع في بيئة مريحة: الأثاث المحمول والأقسام المنقولة متعددة الوظائف ، والتي يمكنك من خلالها الجمع بين العديد من غرف الاجتماعات وإنشاء التكوين اللازم لمساحة العمل.
محاضرة ألقاها ميخائيل رومانوف (كبير المهندسين ، مختبر الفهم البصري) لطلاب Samsung AI Bootcamp 2018 في قاعة اجتماعات Matrixتحمل غرف الاجتماعات أسماء الأفلام حول الذكاء الاصطناعي (المصفوفة ، المنهي ، الرجل المئوية ، من السيارة ، إلخ) ، ولكل منها شاشات على كلا الجانبين ، ويمكنك الكتابة على الجدران مع علامات. تتيح لك الأجهزة اللوحية المثبتة عند باب غرف الاجتماعات باستخدام تقنية التعرف على الوجوه معرفة وقت الفراغ وحجز غرفة.
مساحة مفتوحة مع أثاث مريح: طاولات متحركة ، كراسي مصممة خصيصًايحتوي مركز AI Center على مناطق رياضية وترفيهية حيث يمكنك لعب تنس الطاولة في غرفة خاصة مع امتصاص الصوت وممارسة اليوغا واللياقة البدنية والاستحمام وتغيير الملابس. وحتى هناك بعض الكبسولات للنوم القصير!

كل عام ، يتم عقد منتدى Samsung AI في مركز موسكو للذكاء الاصطناعي. الهدف من منتدى الذكاء الاصطناعي هو التواصل والتفاعل بين العلماء البارزين من روسيا والخارج. في مكان الحدث ، يمكنهم تبادل معارفهم وخبراتهم ، وتقديم أفكار لحل المشكلات الأكثر إلحاحًا في مجال الذكاء الاصطناعى. في ديسمبر من العام الماضي ، في إطار المنتدى السنوي الثاني ، تم تقديم نتائج البحوث التي أجراها زملاء موسكو ، والتي يمكن استخدامها بشكل أكبر لإنشاء خدمات متكاملة قائمة على تقنيات الذكاء الاصطناعي ، وكذلك لتطوير تطبيقات ومكونات منتجات الشركة.

مختبر رؤية الكمبيوتر والنمذجة البصرية
رئيس المختبر هو أنطون كونوشين ، دكتوراه ، أستاذ مشارك بجامعة HSE وجامعة VMK الحكومية في موسكو ، حيث يشغل أيضًا منصب رئيس المختبر المشترك بين Samsung وجامعة موسكو الحكومية.
يعمل ميخائيل رومانوف وإيجور سلينكو ، مؤلفي دورة "الشبكات العصبية ورؤية الكمبيوتر" في مختبر رؤية الكمبيوتر والنمذجة البصرية. هذه هي الدورة التدريبية المجانية الأولى عبر الإنترنت التي أطلقتها Samsung Research في روسيا في عام 2019 ، والرجال هم روادنا. يتحدث المساق عن استخدام الشبكات العصبية في تحليل الصور من الأساسيات ، ولا يتطلب معرفة متخصصة ، وهناك حاجة فقط إلى المعرفة الأساسية في مجال الرياضيات والإحصاء العالي ، والاستعداد للبرنامج في بيثون. تضم الدورة بالفعل 24000 طالب مسجل. والسمة القاتلة: احتمال التوظيف - أصبح العديد من الأشخاص بالفعل موظفين في المركز بعد المقابلات.دانيلا روخوفيتش
تخرج من جامعة مكماث بجامعة موسكو الحكومية ، وعمره 25 عامًا ، ويدرس في كلية الدراسات العليا بشهادة في "الأسس النظرية لعلوم الكمبيوتر" كان يعمل في IBM Research و Angry Developers و SMTDP Tech. في منتدى Samsung AI ، قدمت Danila Rukhovich و Danil Galeev تقرير "MixMatch Domain Adaptaion: الحل الحائز على جائزة لمسابقات تحدي VisDA 2019 " ( شفرة المصدر ).لدينا مجموعتان كبيرتان في مختبرنا: الأولى تعمل في تقدير العمق (تقيس عمق الصورة) ، والثانية هي SLAM (عن طريق التعريب المتزامن وبناء الخريطة). وهناك فرق صغيرة لها مهام مختلفة ، على سبيل المثال ، كنت أنا وزميلي دانيل جاليف اعتادنا على المشاركة في شبكات GAN (شبكات التنافسية التوليدية) ، والآن تكييف المجال.
يتم تكييف المجال عندما نقوم بتدريب نموذج شبكة عصبية على مجال (مجال) ، ثم نختبره في مجال آخر. المجالان الأكثر شيوعًا هما البيانات الاصطناعية والبيانات الحقيقية. هذا هو بيان المشكلة الأكثر أهمية ، لأنه يمكن إنشاء البيانات الاصطناعية بقدر ما تريد ، فهي رخيصة. على سبيل المثال ، يمكنك إنشاء العديد من صور المدن وتدريب سيارة بدون طيار عليها ، وهو أسهل بكثير من تشغيل سيارة حقيقية في شوارع المدن الحقيقية وجمع بيانات حقيقية.
من الواضح أننا إذا قمنا بتدريب الشبكة العصبية على البيانات الاصطناعية وقمنا بنقلها إلى بيانات حقيقية ، فلن تعمل بشكل جيد للغاية. كيف تقلل من هذا الاختلاف؟ يمكنك إنشاء واستخدام الكثير من البيانات الاصطناعية المسمى ، لتدريب شبكة عصبية عليها. ثم استخدم الكثير من البيانات الحقيقية غير المخصصة (أي تم إنفاق الموارد ، ولكن فقط لجمع البيانات وليس لترميزها). وبالتالي ، من خلال الجمع بين البيانات المصنفة وغير المخصصة ، نحقق زيادة كبيرة في دقة نماذج الشبكات العصبية.
أمثلة لمجالات مختلفة في مجموعة بيانات DomainNet: القصاصات الفنية والرسوم البيانية والطلاء والرسم والصورة والرسومات. الكائن هو نفسه ، ولكن المجالات مختلفة.كونستانتين سفيوك
25 عامًا ، تخرج من جامعة موسكو الحكومية. إنه مولع بالركض والتزلج على الجليد ورؤية الكمبيوتر.
تحدث كونستانتين في منتدى Samsung AI مع تقرير "AdaptIS: Adaptive Selection Network" .أنا مهتم بالتعامل مع الخوارزميات التي ستساعد في حل المشكلات الحقيقية. على سبيل المثال ، أتمتة المهام الروتينية اليومية. العمل البشري هو أغلى. لذلك ، أنا مهتم بعمل تلك الأشياء التي يمكن تحويلها لفائدة الناس.
في رأيي ، للذكاء الاصطناعي طريقان للتطوير: سيكون إما "قويًا" وسيظهر شيء مثل "الكأس المقدسة". ظهور الذكاء الاصطناعي "القوي" سيغير كل شيء في حياتنا ؛ أجد صعوبة في التنبؤ بما سيحدث. أو ، سيكون من الممكن التحدث عن الذكاء الاصطناعي "الضعيف" ، ثم ربما تكون الروبوتات هي الاتجاه الأكثر إثارة للاهتمام. تنتمي مركبة غير مأهولة إلى نفس الاتجاه ، لأنها أساسًا روبوت طريق. إن استبدال السائقين بالروبوتات يثير السؤال التالي: ما العواقب الاجتماعية التي ستجلبها؟ كلنا نعيش في مجتمع ، والتكنولوجيا يمكن أن تحدث تغييرا اجتماعيا عالميا. أنا أفكر في هذا الموضوع.
تم تخصيص إحدى مقالاتي الأخيرة لموضوع "تقسيم الحالة" - البحث عن الكائنات التي نحتاج إليها وإلقاء الضوء عليها. نختارهم باستخدام قناع البيكسل ، أي في كل نقطة يتم الإشارة إلى ما إذا كان هذا البيكسل ينتمي إلى الكائن أم لا. يتلاءم هذا بشكل جيد مع مفهوم فهم المشهد المرئي ، لأن الخطوة الأولى في فهم الصورة هي فهم الكائنات الموجودة عليها. هناك خوارزميات لكشف الكائنات التي تحل هذه المشكلة ، ولكن هناك كل كائن مظلل بمستطيل ، والكائنات تتداخل بقوة: هذا يعطي تقريبًا بسيطًا جدًا تقريبيًا لمكان الكائن. إذا نظرت إلى ما تبدو عليه المشاهد الداخلية العادية (لا أتحدث عن غرف تصميم مثالية ، حيث تكون نظيفة ومرتبة) ، ستبدو الشقق الحقيقية هكذا: أريكة ، ووسائد ملقاة عليها ، وبعض الأشياء الأخرى.
عندما بدأت هذه المهمة ، واجهت حقيقة أن الخوارزميات الموجودة لا تتعامل بشكل جيد مع مثل هذه الحالات. لقد توصلنا إلى خوارزمية جديدة قدمناها في عملنا. يسمح لك بتحديد كائنات مع أي تعقيد في التقاطعات: الشيء الرئيسي هو أن بكسل واحد على الأقل من الكائن مرئي. تستند الخوارزمية إلى الفرضية التي يمكنك من خلالها دائمًا العثور على بكسل في صورة تنتمي إلى كائن معين. إذا لم يكن هناك بكسل واحد للكائن في الصورة ، فلا يوجد كائن. وإذا كان هناك كائن ، إذا رأى شخص ما الكائن ، فهناك بكسل ينتمي إليه. وفقًا لذلك ، تتيح لك الخوارزمية العثور على وحدات البكسل هذه وتحديد قناع الكائن بالكامل من خلال وحدات البكسل هذه.
الآن نحن نتعامل مع موضوع التجزئة التفاعلية ، وهذه مهمة مهمة للغاية أيضًا. بالعودة إلى المهمة السابقة: لتدريب Instance Segmentation ، فأنت بحاجة إلى ترميز بكسل عالي الجودة لجميع الكائنات الموجودة في الصور ، وهذا أمر مكلف ، لأنه من المعتاد الجلوس وتحديد الخطوط العريضة لكل كائن يدويًا في Photoshop لفترة طويلة جدًا. وتقسيم التفاعلية يسمح لك لأتمتة هذا الترميز. نقوم بتمييز كل كائن ليس عن طريق تحديد مضلع هذا الكائن ، ولكن ببساطة يقوم شخص بالنقر فوق الكائن - يجعل النقر الإيجابي يسمى. يتم تحديد الكائن من النقرة الأولى ، أو إذا لم ينجح (على سبيل المثال ، تم تخطي بعض أجزاء الكائن ، أو على العكس من ذلك ، حدث شيء غير ضروري) ، نضع نقرة سلبية.
نتيجةً لذلك ، بدلاً من تحديد الكائن بالكامل باستخدام مخطط تفصيلي للبيكسل ، نحد من المشكلة إلى حقيقة أنه ينبغي أو لا ينبغي تحديد هذه المنطقة بنقرة بسيطة. تدل الممارسة على أنه في معظم الصور خلال عشر نقرات ، يمكنك تحديد كائنات بدقة عالية. هذا فرق كبير ، سيتم تسريع ترميز البيانات في بعض الأحيان.
القناع الذي تعرضه الخوارزمية إذا قمت بتحديد نقطة كائنمختبر تحليل البيانات متعدد الوسائط
رئيس المختبر هو سيرجي نيكولينكو ، باحث رئيسي في فرع سان بطرسبرغ بمعهد V. A. Steklov للرياضيات (POMI RAS) ، أستاذ مشارك في المدرسة العليا للاقتصاد في سان بطرسبرغ ، مؤلف مشارك في كتاب
"التعلم العميق. الانغماس في عالم الشبكات العصبية " .
جليب ستيركين
يبلغ عمر جليب 25 عامًا ، وتخرج من قسم الفيزياء بجامعة موسكو الحكومية. مهندس ومدير مشروع في مختبر تحليل البيانات متعدد الوسائط. "لا هوايات ، لا هوايات ، يسكنها الروبوتات."
في منتدى Samsung AI ، قدم Gleb عرضًا تقديميًا عن الترجمة النهارية عالية الدقة بدون علامات النطاقيعمل مختبري في النماذج التوليفية ، التصوير الفوتوغرافي الحسابي. هناك عدد من المهام لاستعادة الهياكل ثلاثية الأبعاد ، أي عندما تحتاج عدة صور لإعادة إنشاء الشكل ثلاثي الأبعاد لكائن معقد. أيضًا ، هذه هي المهام المرتبطة بالحصول على تمثيلات عامة للصور أو الكائنات في الصور. كل هذا ، بشكل عام ، يدور حول الشبكات العصبية. من وجهة نظر مطبقة ، تعتبر التطبيقات التي يتفاعل فيها الشخص مع النماذج التوليفية ، بدءًا من التأثيرات الضمنية إلى الحالات التي يكون فيها النموذج بمثابة أداة للشخص ، على سبيل المثال ، في تركيب الموسيقى ، مثيرة للإعجاب.
أتعامل بشكل أساسي مع النماذج التوليفية جنبًا إلى جنب مع التفاعل بين الإنسان والآلة. هذا مثير للاهتمام! يتحول شيء معقد ، مثل الشبكة العصبية ، إلى أداة مثل الكاميرا ، قابلة للتطبيق للحصول على متعة مؤقتة أو بعض الخبرة الحسية: لقد ضغطت على ثلاثة أزرار ، وحصلت على شيء رائع ، ولم أفكر كثيرًا في كيفية عمله ، لكن تقريبًا ما أفهم ما سيحدث كنتيجة ، على الرغم من أنه في بعض الأحيان وشيء غير متوقع.
دراستنا يحل مهمة بسيطة إلى حد ما ، للوهلة الأولى. تقوم الخوارزمية ، التي تلقت صورة منظر طبيعي عند الإدخال ، بإطعام مجموعة من الصور لنفس المشهد في أوقات مختلفة من اليوم. على سبيل المثال ، إذا كانت هناك صورة لمدينة نهارًا عند المدخل ، كيف ستبدو في المساء ، في الليل ، في الصباح وفي الفترات الفاصلة بين هذه الأوقات من اليوم لإنشاء فيديو جميل وسلس؟ تعمل هذه التقنية بدقة عالية تصل إلى 4K.

نعمل مع المناظر الطبيعية ، لأن التغيير في اليوم أو الموسم في المناظر الطبيعية سيكون الأكثر وضوحًا. لا يتغير الجزء الداخلي من المباني كثيرًا خلال اليوم ، باستثناء ربما بعض الانعكاسات ، الوهج ، والتي تعتمد على عوامل مختلفة - كيف توجد الشبكات والمصاريع على النوافذ. كل شيء واضح في المناظر الطبيعية: لديك الشمس ، والسماء ، ومساحة كبيرة تحتاج إلى إضاءة مختلفة ، لرسم شيء ما عليها. إذا قامت الخوارزمية بالانتقال من الليل إلى النهار ، فأنت بحاجة إلى تمديد المناطق المظلمة ، وإذا كنت من يوم إلى آخر ، فستحتاج إلى تغميق كل شيء بشكل صحيح.
عند رؤية المشهد ، ليس من الصعب جدًا على الشخص أن يتخيل بالضبط كيف سيتغير وفقًا للوقت من اليوم أو السنة. لقد كان من المثير للاهتمام محاكاة التصور البشري بشكل أساسي ، مع عدم قضاء وقت طويل في جمع الصور ومقاطع الفيديو الحقيقية لكل منظر طبيعي.
ديمتري نيكولين
25 سنة. في عام 2017 تخرج من قسم الجبر في جامعة ولاية سانت بطرسبرغ. تدرب في Google London ، حيث قام بتحسين نظام التحقق من المستخدمين في Google My Business ، ثم عمل في Yandex Research وعمل لدى Serokell ، وهي شركة متخصصة في الاستشارات والاستعانة بمصادر خارجية في مجال البرمجة في Haskell. في الوقت نفسه ، تخرج من كلية SHAD ، وهو الآن يساعد في إجراء دورة تدريبية في RL هناك. يبلغ عمر سامسونج أكثر من عام بقليل. يتعلم اللغات: إلى جانب اللغة الإنجليزية ، فهو على دراية بالفرنسية والإسبانية والإسبانية.
قدم ديمتري تقريرين في منتدى Samsung AI: "وجبة غداء مجانية عن طريق الانتباه في وكلاء Atari" و "شبكات الإدراك الحسي".يتمثل المجال الرئيسي للبحث في المختبر لتحليل البيانات متعددة الوسائط في المهام المرتبطة بتوليد ومعالجة الصور ، وعلى مدار العام الماضي تمكنت من العمل على مشروعين في هذا المجال. في النصف الأول من العام ، شاركت في تعلم التعزيز (RL) - وهو أحد تقنيات التعلم الآلي التي يتعلم فيها نظام الاختبار (العامل) من خلال التفاعل مع بيئة معينة. ببساطة ، يمكن اعتبار عملية التعلم لعبة: تشجيع الإجراءات التي تؤدي إلى المكافآت وتجنب الفشل.
كان مشروعي يدور حول فهم أجزاء الصورة التي تبحث عنها الشبكة العصبية والتي تنفذ الوكلاء في RL. أي كنا بحاجة إلى فهم كيفية عمله وما نجحنا في تدريسه في النهاية ، لذلك نقوم ببناء شبكة "شيء ما" فيه ، والتي توضح أجزاء الصورة الأصلية التي تبحث عنها. كان تقريري الأول عن المنتدى يتعلق بكيفية مررنا بمجموعة من الطرق المختلفة لتضمين هذه القطعة في شبكة عصبية. كانت المشكلة هي التضمين بطريقة لم يعد هناك شيء يكسر. يبدو أننا نجحنا ، لكن مع بعض العيوب - ليس من الواضح للغاية تصور خريطة أهمية أجزاء الصورة. لقد جربنا من أجل زيادة الوضوح ، ولكن للأسف ، بدأ العملاء في العمل بشكل أسوأ من هذا.
اليسار: صورة واضحة ، وكيل ضعيف. اليمين: صورة تقريبية ، وكيل قوي.كان التقرير الثاني يسمى "شبكات الانحدار الإدراكي" ، وكان حول تحسين الخسارة الإدراكية - هذه هي وظيفة الخسارة التي يتم استخدامها في كل مكان تقريبًا حيث توجد شبكات عصبية لتوليد الصور. لاستخدام خسارة الإدراك الحسي ، يتطوّر المطوّرون أولاً عبر الشبكة العصبية للأمام ، ثم إلى الوراء. العودة هي معقدة حسابيا. لقد أردنا التخلص من هذا التمرير المزدوج واستبداله بشبكة عصبية أخرى ، يمكن من خلالها القيام بكل شيء في مسار واحد للأمام ، مما يوفر زيادة في السرعة وتقليل متطلبات الذاكرة. نحن نعمل الآن على تحسين بنية هذه الشبكة الثانية ، ونحن نسعى جاهدين لخفض تكاليف الذاكرة بشكل جذري دون كسر الجودة.
أنا مهتم بكل ما يتعلق بتعليم التعزيز ، لأن هذه هي المنطقة الأقرب إلى الذكاء الاصطناعي العام (الذكاء الاصطناعى العام). المجالات الأخرى مثل رؤية الكمبيوتر ، وإعادة بناء الموقف البشري ، وتحليل الصوت ، هي أكثر تخصصا للغاية. من المؤكد أنها أكثر فائدة في المستقبل القريب ، ويمكن بالفعل نقلها إلى سيارات بدون طيار أو البحث فيها. حول RL ، مع استثناءات قليلة ، لا يمكن قول ذلك ، ولكن مع ذلك ، يمكن حل المهام التي لم تعد حلها على الإطلاق. على سبيل المثال ، تعلم الأشخاص بفضل هذه التقنيات لعب ألعاب الكمبيوتر المعقدة للغاية مثل DotA و StarCraft جيدًا. بشكل عام ، RL هي طريقة لتحسين أي شيء لأي أهداف تحددها.
استنتاج
إذا وصلت إلى نهاية المقالة وكنت لا تزال مهتمًا ، على الرغم من أن معظم المصطلحات غير واضحة ، فإن الخبر السار هو أن Samsung لديها
دورات مجانية على الإنترنت من Stepik والتي ندعوك إليها. كتبنا عنها في وقت سابق في بلوق (
1 ،
2 ).
بالنسبة لأولئك الذين هم بعيدون عن الحديث عما تحدث عنه زملاؤنا ، قد تكون الوظائف المفتوحة لشركة
Samsung Research مثيرة للاهتمام. يوجد الآن شواغر في عالم البيانات (شخصان) ومهندس التعلم الآلي (شخصان) ومهندس التعلم العميق.