الشبكات العصبية لمعالجة الصور. يقول ألكسندر سافسونينكو من برنامج Skylum

يعمل ألكسندر سافسونينكو على تطوير أنظمة ذكية لمدة ست سنوات ، اثنان منهم من كبار الباحثين في جامعة ولاية نيويورك في ستوني بروك. طور أنظمة ذكية لتحليل الحمض النووي والتصوير والتسويق.

يقود الكسندر الآن مختبر الذكاء الاصطناعي في Skylum Software ، حيث يعمل في محرري الرسوم البيانية على أساس الشبكات العصبية. سألنا عن أي من الخدمات التي افتخر بها بشكل خاص ولماذا تستخدم الشبكات العصبية في اختبار A / B.


ألكسندر ، أخبرنا عن عملك البحثي في ​​جامعة نيويورك في ستوني بروك. ما المشاريع التي لديك هناك وهل تتعلق بالذكاء الاصطناعي أو التعلم الآلي؟

لا ، لم تكن مرتبطة مباشرة بالذكاء الاصطناعي وتعلم الآلة. كنت أبحث عن مواد جديدة تعتمد على الجرافين. قمنا بتطوير مادة جديدة للطباعة ثلاثية الأبعاد لتوصيل الكهرباء. بعد ذلك ، باستخدام طابعة بها فتحتان ، سيكون من الممكن طباعة كل من العلبة والأسلاك الإلكترونية للوحة في كل مرة. لقد أنشأنا المادة في النهاية ، وهي الآن معروضة للبيع.

بعد أن كان لديك مشروع مثير للاهتمام في مجال التعلم الآلي - Let's Enhance ، وهي خدمة لتحسين جودة الصور. أخبرنا ، كيف تمكنت من تعليم الآلة كيفية استعادة الصور المضغوطة؟

أخذنا الصور بجودة جيدة ، وضغطناها وصوتنا منها ، ثم دربنا الشبكة العصبية حتى تتعلم كيفية استعادة الصورة بجودة جيدة. بعد التدريب على مثل هذه الأزواج ، تمكنت الشبكة العصبية من تحسين جودة الصور بشكل مستقل: إزالة البيكسل ، والتشكيلات الانضغاطية والعيوب الأخرى.


مصدر الصورة

ما هو الأصعب في هذا المشروع؟

أعتقد أن دعم هذا النظام في إنتاج. عندما ظهرت مقالات في TechCrunch ، Mashable حول خدمتنا ، تدفق الكثير من حركة المرور إلينا ، وفي يوم واحد قمنا بمعالجة حوالي 200 ألف صورة. كان علي العمل لضمان أن خوادمنا صمدت كل هذا.

في العام الماضي ، تم إصدار Let's Enhance 2.0. ما الجديد فيه؟

لقد قمنا بتغيير منهجية التدريب ، وظيفة الخسارة ، بنية الشبكة. إذا كنت ترغب في تحسين جودة المنتج ، يمكن تغيير هذه الجوانب إلى ما لا نهاية.

ما هو جمهور الخدمة اليوم؟ هل تمكنت من تحقيق الدخل منه؟

لقد غادرت Let's Enhance.io منذ عام تقريبًا. بعد ذلك ، في يوليو 2018 ، ذهبت الشركة الناشئة إلى برنامج Techstars London وتلقت استثمارات من المسرّع. تم تسييل المشروع على الفور تقريبًا وذهب إلى الربح.

ما هي تطورات الذكاء الاصطناعي التي شاركت فيها؟ أي منهم فخور بشكل خاص؟

كان لي ولزملائي مشروع علم الوراثة الغذائي Titanovo الذي حلل DNA. باستخدام التعلم الآلي ، تعلمنا التنبؤ بالعلامات الفسيولوجية والاستعدادات القائمة على التحليل على مستوى الجينوم والتنميط الجيني للرقاقة. قاموا بجمع البيانات من المقالات العلمية والإحصاءات وتشكيل مجموعات البيانات وتعليم النماذج ، بناءً على توصيات صيغت للناس وتنبؤات حول صحتهم المستقبلية - كل هذا مبني على منطق غامض ومصنفات مختلفة. الآن هناك العديد من المشاريع التي تستخدم AI و ML في علم الوراثة التغذوية ، في علم الوراثة الرياضية. لكننا كنا من بين الأوائل. يمكن العثور على مواد حول هذه التطورات في مدونتي على Medium.

لقد جربت التحسين الديناميكي للصفحات المقصودة لفرق التسويق ، وتحويل نظرية قطاع الطرق المتعددين إلى الشبكات العصبية. لقد صنع نصوص تعلم الآلة لتحسين مشتريات حركة المرور. وعمل الصورة الذي أقوم به الآن يرتبط أيضًا بالذكاء الاصطناعي. وأنا فخور بها أيضًا.

أنت تعمل حاليًا على خدمات تحرير الصور. ما هي وظائف الشبكة العصبية هنا؟

بادئ ذي بدء ، التعرف على الأنماط. أكبر دور تلعبه منظمة العفو الدولية في برنامج Photolemur من برنامج Skylum: بفضل الرؤية الآلية ، يمكن لهذا البرنامج تحسين الصور بنقرة واحدة.

كيف الحال؟

نقوم بتحميل صورة ، وتقوم الخدمة تلقائيًا بتحسينها - ما عليك سوى حفظها. لا النوافذ المنبثقة أو أشرطة التمرير أو الأوضاع.

للقيام بذلك ، أولاً وقبل كل شيء ، يحتاج البرنامج إلى التعرف على نوع الصورة: صورة ، أفقي ، منظر المدينة. وكذلك الأشخاص في الصورة والمباني والأشياء الأخرى ، والوقت من اليوم ، والوقت من السنة (إذا تم التقاط الصورة في الشارع). ثم تحتاج إلى تقسيم الصورة ، حدد المناطق المقابلة. في الصورة ، على سبيل المثال ، تبرز أجزاء معينة من الوجه: العيون والأذنين والخياشيم وغيرها.

ثم يحتاج كل هذا إلى تحسين ، وهنا لم يعد الذكاء الاصطناعي يستخدم. تم تحسين الصورة عن طريق خوارزميات سلكية ، باتباع الطريقة التي يعالج بها المصورون هذه الصور. على سبيل المثال ، تنعيم الجلد ، وزيادة التباين للحنك ، وجعل بياض العين أفتح. لكن هذا كله ثانوي. بادئ ذي بدء ، تحتاج إلى تقسيم الصورة.



ما هي قواعد البيانات والخوارزميات التي تم استخدامها لتدريب النظام؟

بالحديث عن إطار عمل لتطوير الشبكات العصبية ، أفضل MXNet - خيار غريب إلى حد ما اليوم ، ولكن اكتساب شعبية تدريجيًا. الميزة الرئيسية هي سرعة الحسابات والأسلوب الهجين للتبديل بين الأنماط الحتمية والرمزية لبرمجة الشبكات العصبية ، وهذا مناسب. لكن أسماء مجموعات البيانات والخوارزميات ، لا يمكنني أن أخبرك ، هذا سر تجاري للمشروع.

ما الصعوبات التي واجهتها عند إنشاء محرر رسومات ذكي؟

لم تنضج التكنولوجيا بعد ، غالبًا ما ترتكب الشبكات العصبية أخطاء: في التعرف على الأنماط وخاصة في التقسيم عندما يتعلق الأمر بالصورة المعقدة. لذلك ، كان علي تحليل النتائج والتحرير باستخدام الطرق التقليدية والخوارزميات القياسية. ليس من الممكن بعد بناء نظام يقوم ، من البداية إلى النهاية ، بعمل كل شيء حصريًا بمساعدة شبكة عصبية. حسنًا ، بالطبع ، عند العمل على الجهاز النهائي للمستخدم ، تحتاج إلى مراعاة تعقيد الشبكة - حسابات وحدة المعالجة المركزية بطيئة نوعًا ما ، وليس لدى الجميع وحدة معالجة رسومات ممكّنة لـ CUDA ، ولا يتم دعم OpenCL جيدًا.

ما هي الصورة التي تم التقاطها للخيار المثالي؟

يعمل فريق ضمان الجودة لدينا على هذا الأمر ويولي اهتمامًا خاصًا للجودة النهائية للصور. نظرًا لأن محرري الصور والكاميرات لدينا يتغيران باستمرار ، فمن المستحيل إصلاح بعض الخيارات المثالية ، لأنه يتغير باستمرار.

ما هو جمهور هذه المنتجات؟ هل أنت قادر على "جذب" مستخدمي Adobe؟

منتج Luminar الرائد هو بديل جديد لـ Adobe Lightroom. نظرًا للفريق الصغير والمتقارب ، من الممكن إدخال تقنيات جديدة في المنتج بشكل أسرع وجذب مستخدمين جدد باستمرار. يعد Luminar رائعًا لكل من المصورين المبتدئين والمحترفين ، لأنه يجمع بين أدوات التحرير بنقرة واحدة ومجموعة كاملة من الوظائف لعمل أكثر تفصيلاً مع الصور.


واجهة لومينار يقارن المقال العمل في Luminar و Photoshop

لكن Photolemur هو منتج فريد وشاب إلى حد ما ، فهو يزيد قليلاً عن عام. جمهوره المستهدف هو الأشخاص الذين لا يرغبون في فهم جميع أشرطة التمرير والأزرار في Photoshop ، ولكنهم يريدون ببساطة أن تصبح صور عطلتهم جميلة بسرعة. تمكنا من العثور على جمهورنا: المبيعات قيد التشغيل ويتم استخدام المنتج بنشاط.

أنت أيضًا مشترك في المشاريع التي تطور الشبكات العصبية لتحسين الصفحات المقصودة. أخبرنا المزيد عن هذا العمل.

هذه مهمة كلاسيكية عندما تحتاج إلى إجراء اختبار أ / ب لصفحة مقصودة. إذا قمت بإنشاء صفحات منفصلة لجميع الخيارات الأولية الممكنة ، فيمكنها إظهار ملايين الإصدارات. وللحصول على نتيجة ذات دلالة إحصائية مع النهج الكلاسيكي ، فأنت بحاجة إلى إجراء اختبار A / B لكل زوج من هذه الخيارات. هذا يتطلب كمية لا تصدق من حركة المرور. لا يمكن لمثل هذا الاختبار الواسع النطاق أن يوفر للشركات ذات الموارد الكبيرة جدًا ، مثل Amazon ، على سبيل المثال.

وإذا كانت شركة صغيرة تريد اختبار العديد من الخيارات ، فيمكنك إجراء اختبار أ / ب باستخدام الشبكات العصبية التي تعمل مع التدريب التعزيزي. بعد ذلك ، في الواقع ، يتم ملء الصفحة بعناصر في أيدي الشبكة العصبية وتعيينها كمهمة لزيادة تحويل الصفحة. في هذا الإصدار من العمل ، تدور الشبكة العصبية على الخادم وتتعلم بالتوازي مع كيفية سير حركة المرور. وفي النهاية ، يجد خيار الهبوط الأمثل أسرع بكثير.

إذا كان الأمر أكثر تعقيدًا ، فسوف يتعلم الذكاء الاصطناعي عرض إصدارات من الصفحات المقصودة المخصصة لمستخدم معين. لأننا نقدم أيضًا معلومات إضافية: المتصفح والوقت من اليوم ونظام التشغيل. وفقًا لذلك ، يرى المستخدم الصفحة التي تعرضها عليه الشبكة العصبية ، ويجب اجتذاب حركة المرور بهذه الطريقة بشكل أقل. بالطبع ، لا يتم ضمان الحصول على نتيجة مثالية ، ولكن الصفحة ستعطي نتائج جيدة بشكل أسرع.

سيتحدث ألكسندر عن استخدام الشبكات العصبية للمحتوى المرئي وتحسين الصفحة المقصودة في 14 نوفمبر في AI Conference Kyiv . قائمة المتحدثين الآخرين وبرنامج الحدث على الموقع الرسمي .

Source: https://habr.com/ru/post/ar426559/


All Articles