تعلمت الشبكات العصبية الحكم على كتاب غلاف

يحذر التعبير المستمر "لا تحكم على كتاب من غلافه" من تقييم شيء أو شخص من خلال مظهره وحده. ولكن عندما يرى القارئ الكتاب ، يحدث كل شيء: يبدأ التعارف عادة بغلاف. هي التي تترك الانطباع الأول للمحتوى وتبدأ في رسم التاريخ في ذهن الشخص. أغطية جيدة مصنوعة فقط للحكم عليها.

يقوم الأشخاص بعمل رائع في تحديد النوع من خلال النظر بالكاد إلى التصميم المرئي للكتاب. توافق على أن اختيار كتاب الطبخ أو السيرة الذاتية أو الدليل بمجرد النظر إلى الغلاف أمر سهل للغاية. ثم يطرح سؤال مثير للاهتمام: هل يمكن للذكاء الاصطناعي أن يحكم بنجاح على كتاب من غلافه كشخص؟

حاول علماء من جامعة كيوشو في اليابان الحصول على إجابة . وضعوا أمام شبكة عصبية تلافيفية ( سي إن إن)) مهمة دراسة أغلفة الكتب وتحديد الفئة التي تتعلق بها. تبين أن طريقة التدريب بسيطة للغاية: قام الباحثون بتنزيل أكثر من 13.5 ألف غلاف من موقع Amazon.com جنبًا إلى جنب مع عنوان واسم المؤلف ونوع الكتاب. بالإضافة إلى تحديد فئة ، يمكن لمجموعة البيانات هذه أن تكون مفيدة في المستقبل لتدريب الشبكات العصبية على التعرف على الخطوط وتحليلها وحل مشاكل التصميم الأخرى. في تجربتهم ، استخدم العلماء الأنواع فقط ، متجاهلين جميع البيانات الأخرى من المجموعة. فهمت الشبكة العصبية في 20 نوعًا ممكنًا. إذا تم تكرار الكتاب في عدة فئات في وقت واحد ، فقد أشار العلماء ببساطة إلى الفئة الأولى.



ثم استخدم فريق البحث 80٪ من مجموعة البيانات لتدريب الشبكة العصبية على التعرف على النوع بناءً على صورة الغلاف. تتكون الشبكة العصبية التي استخدموها في تجربتهم من أربع طبقات ، في كل منها 512 خلية عصبية. وتعلموا معًا تحديد العلاقة بين تصميم الغلاف والنوع. ذهبت 10٪ أخرى من مجموعة البيانات لفحص الشبكة. في المرحلة النهائية ، تم استخدام نسبة الـ 10٪ المتبقية لتحديد مدى جودة تصنيف الشبكة للصور غير المألوفة.

كانت النتيجة مثيرة جدا للاهتمام. حددت الخوارزمية بشكل صحيح الأنواع الثلاثة الأكثر شيوعًا في 40 ٪ من الحالات. مع جميع الأنواع الأخرى ، كانت الدقة حوالي 20٪. هذا أفضل بكثير من مجرد حادث. يوضح التشغيل الصحيح نسبيًا للشبكة العصبية أن تصنيف الكتب حسب الأغلفة هو مهمة حقيقية ، وإن كانت صعبة.

أثبتت بعض الأنواع سهولة التعرف عليها من غيرها. على سبيل المثال ، من السهل نسبيًا تحديد كتب السفر أو الكتب المتعلقة بأجهزة الكمبيوتر والتكنولوجيا ، نظرًا لأن المصممين يستخدمون عادةً صور غلاف متشابهة في المعنى. بالإضافة إلى ذلك ، وجد العلماء أن الشبكة العصبية تتعرف بسهولة على كتب الطبخ إذا تم استخدام الصور في تصميمها.



ومع ذلك ، بدأت الشبكة العصبية في الشك فيما إذا كان الأمر يستحق الظهور على غلاف صورة لطاهي أو أشياء أخرى تتعلق بشكل غير مباشر بالطبخ.

تسببت السير الذاتية والمذكرات أيضًا في صعوبات في الشبكة العصبية: في كثير من الأحيان تم إرسال مثل هذه الكتب إلى الفئة التاريخية. من المثير للاهتمام ، بالنسبة للعديد من هذه الكتب ، كان التاريخ هو النوع الثانوي على Amazon.com. لذلك ، لا يمكن القول أن الخوارزمية كانت خاطئة بنسبة 100 ٪.



كما أن شبكة CNN تخلط بين كتب الأطفال والقصص المصورة والروايات المصورة ، وكذلك الكتب الطبية مع كتب الرياضيات. هذا ليس مفاجئًا ، نظرًا لأوجه التشابه المعينة بين هذه الفئات. كانت الشبكة مخطئة أيضًا مع كتب في القانون والدين كانت مختلفة في الجوهر ، ولكنها متشابهة في التصميم. عادة ما يتم صنع أغلفةها إما بلون واحد بدون أي رسومات ، أو بصور مجردة.

العمل الذي قدمه العلماء اليابانيون له عيب كبير. لم يقارنوا أداء شبكتهم العصبية بقدرة الشخص على تحديد الأنواع عن طريق الغلاف. ستكون تجربة مثيرة للاهتمام ، والتي سيكون من السهل تنظيمها من خلال التعهيد الجماعي لمنصات الإنترنت. وحتى يتم تنفيذ هذه التجربة ، لن نعرف ما إذا كان الذكاء الاصطناعي يتعامل مع المهمة بشكل أفضل من الشخص. ولكن على الرغم من هذا الإغفال المزعج ، بغض النظر عن مدى قدرتنا على تحديد الأنواع من خلال الغطاء ، فإن السيارات ستتمكن يومًا ما من القيام بذلك بشكل أسرع. إنها فقط مسألة وقت.

ومع ذلك ، فإن نتيجة هذه الدراسة جديرة بالملاحظة. يمكن أن يساعد المصممين على تحسين مهاراتهم عندما يتعلق الأمر بأغلفة الكتب. يمكنك الذهاب إلى أبعد من ذلك وتعليم تقنية تصميم الأغطية دون تدخل بشري. في المستقبل ، قد يعني هذا أن إنشاء تصميم غلاف من قبل شخص هو مهمة أخرى ستنتقل إلى محفوظات التاريخ.

أصبح التصميم الجرافيكي موضوعًا للتعلم الآلي مؤخرًا نسبيًا. ترتبط أشهر تجربة في التطبيق العملي للشبكات العصبية ، أولاً وقبل كل شيء ، بالاعتراف بالأسلوب الفني للمؤلفين المشهورين للرسومات ونقلها الإضافيإلى صور أخرى. سعى باحثون من جامعة كيوشو إلى تحقيق هدف مماثل ، لكنهم ذهبوا إلى أبعد من ذلك بقليل: حاولوا الكشف عن المعنى الخفي وراء أسلوب التصميم. إذا كنا نتحدث عن تصنيف، قد تعرضت لمحاولة لتعليم الشبكة العصبية لفرز الموسيقى ، الصور ، النصوص حسب النوع.

تم نشر العمل العلمي على arXiv.org ( ArXiv: 1610.09204 [cs.CV])

Source: https://habr.com/ru/post/ar398965/


All Articles