مقارنة بين الصور الحقيقية (أعلاه) ، والصور التي تم إنشاؤها مع تنظيم الدلالي (الصف الأوسط) وبدونهاقام فريق من الباحثين من جامعة تل أبيب بتطوير شبكة عصبية يمكنها توليد صور للأطباق وفقًا لوصفاتها النصية. وبالتالي ، يمكن لربة منزل أن ترى مقدمًا ما سيحدث كنتيجة إذا تم تغيير فقرة واحدة أو أخرى من الوصفة: أضف عنصرًا جديدًا أو أزل بعضًا منها. من حيث المبدأ ، يعد هذا العمل العلمي فكرة جيدة للتطبيق التجاري ، خاصة وأن شفرة المصدر للبرنامج
منشورة في المجال العام .
الشبكة العصبية هي نسخة معدلة من شبكة عدائية عامة (GAN) تسمى StackGAN V2. تم التدريب على قاعدة كبيرة من 52 ألف زوج من الصور / الوصفات من مجموعة البيانات وصفة 1M.
من حيث المبدأ ، يمكن أن تأخذ الشبكة العصبية أي قائمة من المكونات والتعليمات - حتى مجموعات رائعة - ومعرفة شكل المنتج النهائي.
يقول أوري بار إيل ، المؤلف الرئيسي للصحيفة: "بدأ كل شيء عندما طلبت من جدتي وصفة عن فطائرها الأسطورية مع صلصة الطماطم". "بسبب تقدمها في السن ، لم تتذكر الوصفة الدقيقة". لكنني كنت أتساءل إذا كان من الممكن بناء نظام يعرض وصفة من صورة الطعام. بعد التفكير في هذه المهمة ، توصلت إلى استنتاج مفاده أنه من الصعب للغاية على النظام الحصول على وصفة دقيقة تحتوي على مكونات حقيقية و "مخفية" ، مثل الملح والفلفل والزبدة والدقيق ، وما إلى ذلك. ثم تساءلت عما إذا كان يمكن القيام به في الاتجاه المعاكس. وهي توليد صور المنتج على أساس الوصفات. نحن نعتقد أن هذه المهمة صعبة للغاية بالنسبة للأشخاص ، خاصة لأجهزة الكمبيوتر. نظرًا لأن معظم أنظمة الذكاء الاصطناعي الحديثة تحاول استبدال الخبراء في مهام بسيطة بالنسبة للبشر ، فقد اعتقدنا أنه سيكون من المثير للاهتمام حل مشكلة تتجاوز حتى القدرات البشرية. كما ترون ، يمكن القيام بذلك ببعض النجاح ".
يُعد إنشاء الصور من النص مهمة معقدة لها العديد من التطبيقات في مجال رؤية الكمبيوتر. أظهر العمل الأخير أن شبكات الخصومة التوليدية (GANs) فعالة جدًا في تجميع صور واقعية عالية الجودة من مجموعات بيانات منخفضة التباين منخفضة الدقة.
من المعروف أيضًا أن شبكات cGAN من النوع تولِّد صورًا مقنعة مباشرةً من وصف نصي. في الآونة الأخيرة ، وكجزء من دراسة علمية ، نُشرت مجموعة بيانات وصفة 1M تحتوي على 800 ألف زوج من الوصفات والصور المقابلة لها (انظر A. Salvador، N. Hynes، Y. Aytar، J. Marin، F. Ofli، I. Weber، Torralba.
تعلم حفلات الزفاف
عبر الوسائط من أجل وصفات الطبخ وصور الطعام. في وقائع مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط ، 2017). هذه المجموعة لديها تقلب كبير بسبب مجموعة متنوعة من فئات الأغذية حسب الفئة. بالإضافة إلى ذلك ، يتم إرفاق نص معقد من قسمين (المكونات والتعليمات) بالصور. في المجموع ، قد يحتوي جزء النص على عشرات الأسطر.
مع مجموعة البيانات الممتازة هذه ، لم يتمكن العلماء من جامعة تل أبيب إلا من تدريب الشبكة العصبية. لقد جمعوا المعرفة المتراكمة في مجال الشبكات التنافسية التوليدية ومجموعة البيانات المنشورة.
يعترف الباحثون أن النظام ليس كاملاً بعد. تكمن المشكلة في أن مجموعة البيانات الأصلية ممثلة بصور ذات دقة صغيرة نسبيًا تبلغ 256 × 256 بكسل ، وغالبًا ما تكون ذات جودة رديئة ، وهناك العديد من الصور ذات ظروف الإضاءة السيئة والصور الشبيهة بالعصيدة والصور غير المربعة الشكل (مما يعقد تدريب النماذج). تشرح هذه الحقيقة سبب نجاح طرازي cGAN المطورين في إنشاء منتجات غذائية "تشبه العصيدة" (على سبيل المثال ، المعكرونة والأرز والشوربات والسلطات) ، لكن من الصعب للغاية بالنسبة لهما إنشاء صور غذائية بشكل مميز ومميز (على سبيل المثال ، همبرغر أو دجاج).
في المستقبل ، ينوي المؤلفون مواصلة العمل عن طريق تعليم النظام بقية الوصفات (تبقى حوالي 350 ألف صورة في مجموعة البيانات المناسبة). ومع ذلك ، هذا لا ينفي حقيقة أن الصور المتاحة ذات جودة رديئة. لذلك ، فهي تتيح إمكانية إنشاء مجموعة خاصة بك بناءً على نص كتب الأطفال والصور ذات الصلة.
تم
نشر المقال العلمي في 8 يناير 2019 على موقع ما قبل الطباعة
arXiv.org (arXiv: 1901.02404).