Technosphere خمس سنوات



اليوم ، يحتفل مشروع Technosphere بالذكرى السنوية الخامسة. إليكم إنجازاتنا على مر السنين:

  • تم الانتهاء من التدريب من قبل 330 خريجا.
  • تحتوي الدورة على 120 طالب.
  • يتم تدريس الفصول بواسطة 30 مدرسًا.
  • يحتوي المنهج على 250 درسًا في 16 تخصصًا.
  • التلاميذ يؤدون 71 دج.
  • 8000 مستخدم.
  • بدأ أكثر من 100 طالب حياتهم المهنية في مجموعة Mail.ru.

في نهاية التدريب ، يقوم الطلاب بإنشاء مشاريع التخرج الخاصة بهم والتي يتم منحهم لها ثلاثة أشهر. وتكريما للاحتفال بالذكرى السنوية الخامسة لتكنوسفير ، قمنا بجمع أعمال التخرج ألمع في السنوات الأخيرة. الخريجين أنفسهم سوف اقول عن مشاريعهم.

"الذاكرة الساطعة"


فسيفولود فيكولين ، بوريس كوبين ، دينيس كوزمين

في البداية ، خططنا لإنشاء خدمة إعادة لمس الصور من شأنها أن تسمح لنا أيضًا بتلوين الصور بالأبيض والأسود. عند مناقشة المشاريع مع الموجهين ، نشأت فكرة لإخبار فريق OK عن هذه الفكرة ، ونتيجة لذلك ، قرروا إنشاء تطبيق خاص بوظيفة تلوين صور الحرب بالأبيض والأسود.

للقيام بذلك ، كان يتعين علينا تصميم بنية الشبكة العصبية وإنشاء مجموعة مناسبة من الصور لتدريب النموذج وتشغيل التطبيق على النظام الأساسي OK.

لقد جربنا العديد من الشبكات العصبية الجاهزة ، لكن أيا منها لم يعط الجودة المطلوبة. ثم قررنا إنشاء منطقتنا. في المرحلة الأولى ، حاولت الشبكة العصبية التنبؤ بصورة RGB على قناة BW ، لكن النتيجة كانت كذلك ، لأن الشبكة حاولت تلوين كل شيء بألوان رمادية.


مثال على تشغيل الشبكة العصبية الأصلية.

ثم قررنا استخدام شبكة عصبية ثانية مُدرَّبة مسبقًا.

بمساعدتها ، تمكنا من استخراج علامات من الصورة الملونة الأصلية ، ومن تلك التي رسمتها الشبكة العصبية الأولى. لذلك علمنا الشبكة العصبية الثانية لفهم الألوان الكامنة في كائنات معينة في الحياة الحقيقية: السماء زرقاء والعشب أخضر وهكذا. لتنفيذ الشبكات العصبية ، استخدمنا إطار Pytorch الشهير.


بنية الشبكة العصبية الجديدة.

لكن الشيء الرئيسي كان تعليم النموذج كيفية رسم وجوه الناس بأكثر واقعية ممكنة. لقد واجهنا حقيقة أنه من بين مجموعات البيانات الحالية لم يكن هناك أحد مناسب لمهمتنا - كنا بحاجة إلى صور كبيرة لوجوه ذات خلفية طبيعية. لتشكيل مجموعة الصور الخاصة بنا ، قمنا أولاً ببناء قائمة تضم 5000 اسم شهرة. بعد ذلك ، تم البحث عن هذه الأسماء للصور في محركات البحث المختلفة. باستخدام طرق التعرف على الوجوه ، تمت إزالة الصور التي لا تحتوي على وجوه على الإطلاق ، وتم تسليط الضوء على الأجزاء الأكثر ملاءمة في الصور المتبقية. لذلك جمعنا المجموعة اللازمة من 600 ألف صورة.

ثم جاءت مهمة اللوحة الواقعية للزي العسكري.

لحل هذه المشكلة ، كان عليّ أن أنتج زيًا عسكريًا مصطنعًا بميداليات وأوامر مختلفة. بالإضافة إلى ذلك ، اضطررت إلى إنتاج بعض الأفلام الملونة عن الحرب.


أمثلة من الصور من مجموعة التدريب.

بدمج كل هذا مع مجموعة شعبية من الصور للأغراض العامة ، تلقينا 2.5 مليون صورة لتدريب الشبكة العصبية.

قمنا بإعداد نموذج أولي يعمل على الشبكة العصبية وبدأنا في تطوير تطبيق على النظام الأساسي OK. هذا هو تطبيق ويب قياسي مع واجهة خلفية. كنا مسؤولين عن الواجهة الخلفية ، وتولى فريق OK السيطرة على الواجهة الأمامية. تقييم واقعيا للموارد المتاحة ، قررنا أنه سيكون أكثر عقلانية استخدام الهيكل الحالي لمشروع Artisto.

للقيام بذلك ، نقلنا رمز الشبكة العصبية إلى إطار عمل Lua Torch وقمنا بتنفيذه في البيئة.


واجهة التطبيق على ما يرام.

في 9 مايو ، أصبح تطبيقنا متاحًا لزملاء الدراسة بملايين الدولارات في Odnoklassniki ، وكتب العديد من وسائل الإعلام الكبيرة عنه ، وحوالي 230 ألف شخص يستخدمون الخدمة. كان من الصعب للغاية تنفيذ المشروع في مثل هذا الوقت القصير ، لكننا تمكنا من كل شيء. شكرا جزيلا لموجهينا أولغا شوبرت وأليكسي فوروبايف ، الذين ساعدونا في الاندماج في "موافق". نشكر أيضًا مجموعة تطوير البنية التحتية من Mail.ru ابحث عن المساعدة في الاندماج في مشروع Artisto ، وبشكل منفصل ديمتري سولوفيوف للحصول على مشورة لا تقدر بثمن بشأن هندسة الشبكات العصبية.

"خريطة الموسيقى"


فلاديمير بوجافسكي ، دانا زلوشيفسكايا ، رالينا شافالييفا



تم اقتراح فكرة المشروع لنا من قبل المرشدين أليكسي فوروبايف وديمتري سولوفيوف. ذات مرة كان هناك مشغل Sony كان قادرًا على تصنيف الأغاني وفقًا لأربعة أمزجة. اليوم ، اتخذت التكنولوجيا خطوة كبيرة إلى الأمام ، والذكاء الاصطناعي والشبكات العصبية تتطور بشكل نشط ، وأدركنا أنه يمكننا القيام بشيء أكثر برودة الذي يريده مستخدمونا - بطاقة الموسيقى التي تصور حالة مزاج التسجيلات الصوتية لمستخدم VK. وقرروا تطبيقه في شكل ملحق لـ Chrome - إنه سهل التثبيت وسهل الاستخدام.

بطبيعة الحال ، بدأنا من خلال استكشاف الأساليب التي تم استخدامها بالفعل لتحديد مزاج الموسيقى. بعد مشاهدة حوالي اثنتي عشرة مقالة علمية ، أدركنا أنه لم يحاول أحد تقريبًا استخدام الشبكات العصبية لتحليل عواطف التسجيلات الصوتية.

صعوبة أخرى بالنسبة لنا كانت مهمة تصور العواطف. اتضح أنه في علم النفس هناك العديد من النماذج لتمثيل الحالة المزاجية للإنسان ، لكل منها مزاياه وعيوبه. لقد استقرنا على ما يسمى بالنموذج المكاني circumplex: فكرته هي أن أي عاطفة يمكن تمثيلها كنقطة في الفضاء ثنائي الأبعاد. بفضل هذا المقياس ، تمكنا من تصور مزاج التسجيلات الصوتية بطريقة مفهومة للمستخدم.

حددنا ثلاث جبهات العمل على التطبيق:

  • سيقبل جزء الخادم طلبات التوسعة ، ويبني برامج طيفية ، ويقوم بعمل تنبؤات ويعيدها إلى المستخدم.
  • جزء المستخدم الذي سيتفاعل معه الشخص.
  • تدريب الشبكة العصبية: إعداد مجموعة التدريب ، واختيار بنية الشبكة وعملية التعلم نفسها.

كان نطاق العمل كبيرًا للغاية ، لذلك يمكن للجميع تجربة أنفسهم في كل شيء. تصرف فريقنا بشكل متماسك للغاية: لقد توصلنا دائمًا بطرق مختلفة لحل بعض المشكلات وساعدنا بعضنا البعض في التعرف على ميزات تنفيذ الأجزاء الفردية. كانت الصعوبة الرئيسية التي واجهناها هي الموعد النهائي البالغ ثلاثة أشهر. خلال هذا الوقت ، كان علينا أن نفهم من البداية تطور الواجهة الأمامية (تعلم الكتابة في JavaScript) ، تعقيدات إطار تدريب الشبكة العصبية (PyTorch) وإتقان تكنولوجيا التطوير المعياري (Docker). الآن تطبيقنا يعمل في وضع الاختبار لعدة مستخدمين.

"تلوين الفيديو للمحترفين"


يوري أدميرالسكي ، دينيس بيبي ، أنطون بوجوفسكي ، جورج كاسباريانتس



نشأت فكرة المشروع نتيجة لتحليل الاتجاهات الحديثة في تطوير الشبكات العصبية لحل مشاكل رسومات الحاسوب ومعالجة محتوى الوسائط المتعددة. تم اقتراح عدة طرق مختلفة لتلوين الصور الفردية بالفعل في هذا المجال ؛ تنشأ هذه المشكلة ، على سبيل المثال ، عند معالجة صور الأرشيف القديمة. من ناحية أخرى ، أظهر نجاح الإصدارات الملونة من الأفلام السوفيتية بالأبيض والأسود أهمية مهام تلوين الفيديو. يعد تلوين الفيديو يدويًا ، وإطارًا تلو الآخر ، مهمة تستغرق وقتًا كبيرًا للغاية ، مما يتطلب مشاركة استوديوهات احترافية. ومن بين المستخدمين الذين يرغبون في الحصول على إصدارات ملونة من مقاطع الفيديو القديمة الخاصة بهم ، يمتلك القليلون المهارات اللازمة ولديهم ما يكفي من الوقت للتلوين اليدوي ، ناهيك عن الأموال اللازمة لإنجاز هذه المهمة بمساعدة فرق محترفة من استوديوهات الفيديو. لذلك ، قررنا محاولة تطبيق الأساليب المعروفة في التلوين وإنشاء برنامج محرر لتقليل تعقيد تلوين مقاطع الفيديو باستخدام الشبكات العصبية بشكل كبير.

كانت المهمة الرئيسية التي يجب حلها عند تطوير مثل هذا البرنامج هي الحصول على الألوان المناسبة عند طلاء الكائنات في الإطار. نواجه حقيقة أن مجموعات البيانات الكلاسيكية (على سبيل المثال ، ImageNet) المستخدمة في تدريب الشبكات العصبية لحل مشاكل معالجة الصور لا تسمح لنا بتحقيق تلوين تلقائي (بدون أي معلومات إضافية). على سبيل المثال ، لم يتم التعرف على بعض الكائنات في الإطار وبقيت بالأسود والأبيض في الصورة الملونة. كانت هناك مشكلة أخرى في النماذج الحديثة وهي الاختيار الخاطئ للألوان لطلاء الكائنات - سواء بسبب كون المهمة غير محددة (تلوين الملابس) ، ونتيجة لتعريف غير صحيح للكائنات النادرة ، وكذلك الكائنات المتأثرة بقطع أثرية مضغوطة. عند تغيير الإطارات ، تم ملاحظة تغيير اللون في تلوين الكائنات الموجودة في الإطار بسبب عدم ثبات النماذج في التغييرات الصغيرة في الإطار.

لحل هذه المشكلة ، قمنا بتطبيق طريقة إشارات الألوان المحلية ، والتي سمحت لنا بتحقيق تعيين اللون الصحيح لكائن كامل وتصحيح انتقالات اللون من خلال تعيين ألوان نقاط فردية من الكائنات. في الوقت نفسه ، تتحكم الشبكة العصبية أثناء التلوين في مراعاة حدود الكائنات وانتقالات السطوع. سمح لنا هذا النهج بتقليل شدة تلوين الإطارات الفردية (كان من الضروري تعيين ألوان النقاط الفردية فقط على الإطار بشكل صريح ، دون استخدام الفرش) ، وساعد في حل مشكلة التقصير وتغييرات الألوان عند التبديل بين الإطارات. بالإضافة إلى ذلك ، قمنا بتطبيق نماذج تتيح لك تتبع حركة الكائنات في الإطار ونقل تلميحات اللون. باستخدام برنامج المحرر الخاص بنا ، قمنا بتلوين جزء من الفيلم القديم بالأبيض والأسود The Kid .


مثال على إطار مرسوم من فيلم تشابلن كيد (1921).

قمنا بتطبيق المحرر في شكل تطبيق مستقل للعميل ، حيث يتم تحميل الفيديو ، ثم يتم وضع علامة على الإطارات باستخدام تلميحات ملونة. يمكنك حساب نماذج التلوين على الجهاز المحلي ، أو على قوة الحوسبة الخارجية (على سبيل المثال ، نشر جزء الخادم في السحابة) لمعالجة الفيديو بشكل أسرع.

لإنشاء المحرر ، قمنا بعمل رائع ، بما في ذلك اختبار النماذج ووضع اللمسات الأخيرة عليها لتلوين وتتبع كائنات الإطار ، وتطوير بنية تطبيق خادم العميل ، وتطوير تطبيق عميل سهل الاستخدام. لقد تعلمنا تعقيدات العمل مع إطار عمل PyTorch الذي ينفذ عمل الشبكات العصبية ، واتقن إطار عمل Qt 5 لتطوير تطبيق عميل ، وتعلمنا كيفية استخدام Django-REST و Docker لتطوير ونشر خلفية الحوسبة.


مثال لتطبيق العميل.

شكرا لمعلمي Technosphere على عملهم المتفاني ، على المعرفة ذات الصلة التي تقدمها للطلاب. نتمنى للمشروع أن ينمو ويتطور!

* * *

يمكنك التقدم للحصول على تدريب حتى الساعة 10:00 يوم 16 فبراير على sphere.mail.ru . يرجى ملاحظة أن الطلاب وطلاب الدراسات العليا في جامعة موسكو الحكومية فقط يمكنهم الدراسة في Technosphere. ام في لومونوسوف.

Source: https://habr.com/ru/post/ar439988/


All Articles