إن "إبداع" الذكاء الاصطناعي يغير فهمنا للواقع



أصدرت مجموعة من الباحثين من بيركلي مقطعي فيديو هذا العام. في أحدها ، يركض حصان خلف السياج. في الثانية ، حصلت فجأة على نمط حمار وحشي أبيض وأسود. والنتيجة ليست مثالية ، لكن الشرائط تناسب الحصان بشكل واضح ، كما لو كانت شجرة عائلة هذه الحيوانات قد غرقت في حالة من الفوضى. خدعة مماثلة هي مؤشر على القدرة المتطورة لخوارزميات التعلم الآلي على تغيير الواقع.



استخدم بعض الباحثين الآخرين الشبكات العصبية لتحويل صور الدببة السوداء إلى صور يمكن تصديقها من الباندا والتفاح إلى البرتقال والقطط إلى كلاب. استخدم أحد مستخدمي Reddit خوارزمية أخرى لتعلم الآلة لتعديل مقاطع الفيديو الإباحية ، وأدخل وجوه المشاهير هناك . يقوم Startup Lyrebird بتجميع خطاب مقنع تمامًا بناءً على تسجيل صوت الشخص لمدة دقيقة واحدة. يقوم مهندسو Adobe ، الذين يطورون منصة الذكاء الاصطناعي Sensei ، بتقديم التعلم الآلي إلى أدوات مبتكرة لتحرير الفيديو والصور والصوت. تختلف هذه المشاريع اختلافًا كبيرًا في أصلها وأهدافها ، ولكن هناك شيء واحد مشترك: فهي توليف الصور والأصوات التي تتشابه بشكل مذهل مع تلك الحقيقية. على عكس التجارب السابقة ، تبدو إبداعات الذكاء الاصطناعي هذه تبدو واقعية.

ستدفعنا التقنيات التي تقوم عليها هذه التغييرات قريبًا إلى مجالات إبداعية جديدة ، مما يزيد من قدرات الفنانين المعاصرين ويجعل المحترفين الهواة العاديين. سنبحث عن تعريفات جديدة لمفهوم الإبداع ، والتي سوف توسع أفقها وتشمل إبداعات الآلات. لكن هذه الطفرة سيكون لها جانب سلبي. سيتم استخدام جزء من المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي للخداع ، مما يولد الخوف من حدوث انهيار لا نهاية له من الأخبار المزيفة . الجدل القديم حول ما إذا تم تغيير الصورة سيفسح المجال لصورة جديدة - حول أصل جميع أنواع المحتوى ، بما في ذلك النص. ستبدأ بالتساؤل: ما الدور الذي لعبه الناس (إن وجد) في إنشاء هذا الألبوم / المسلسل / المقالة؟

في السابق ، كانت هناك طريقتان لإنشاء صوت أو فيديو مماثل للفيديو الحقيقي. الأول هو استخدام الكاميرات والميكروفونات لتسجيل مشهد إنتاجي. والثاني هو تعظيم استخدام المواهب البشرية ، في كثير من الأحيان للحصول على الكثير من المال ، لإنشاء نسخة طبق الأصل. تقدم خوارزميات تعلُم الآلة الآن خيارًا ثالثًا ، مما يسمح لأي شخص يمتلك الحد الأدنى من المعرفة التقنية بتعديل المحتوى الحالي لإنشاء مواد جديدة.


ولادة فينوس - نسخة من الأحلام العميقة

في البداية ، لم يكن المحتوى الناتج عن الشبكات العصبية موجهاً نحو الواقعية. كانت عبارة "أحلام عميقة في Google" ، التي تم إصدارها في عام 2015 ، مثالًا مبكرًا على استخدام التعلم العميق لختم المناظر الطبيعية المخدرة والأعمال الفنية الغريبة متعددة الأعين. استخدم تطبيق ضربات Prisma لعام 2016 التعلم العميق لتحسين فلاتر الصور ، مثل تصميم الصور مع لوحات موندريان أو مونش. تُعرف هذه التقنية بنقل النمط: خذ نمط صورة واحدة (على سبيل المثال ، "صرخة") وقم بتطبيقها على الإطار الثاني.

الآن يتم تحسين خوارزميات نقل النمط باستمرار. خذ على سبيل المثال عمل مختبر كافيتا بالا من جامعة كورنيل. ويوضح كيف يمكن للتعلم العميق نقل نمط صورة واحدة (جو ليلي وميض) إلى صورة مدينة قاتمة - وخداع المراجعين الذين يعتقدون أن هذا المكان حقيقي. شارك البروفيسور بالا مستوحى من إمكانات الذكاء الاصطناعي في التعرف على الخصائص الجمالية ، وشارك في تأسيس GrokStyle . تخيل أنك تحب الوسائد الزخرفية على أريكة صديق أو بطانية في مجلة. اعرض خوارزمية GrokStyle هذه الصورة وستجد صورًا لأشياء من نفس النمط.

يقول البروفيسور بالا: "ما يعجبني في هذه التقنيات هو كيفية إضفاء الطابع الديمقراطي على التصميم والأسلوب. أنا تقني: أقدر الجمال والأناقة ، لكنني لا أستطيع حتى أن أخلقهما عن قرب. وهذا العمل يوفر لي مثل هذه الأشياء. كما يسرنا جدًا أن نكون قادرين على إتاحة ذلك للآخرين. حقيقة أننا لسنا موهوبين في هذا المجال لا يعني أننا يجب أن نعيش في بيئة مملة ".

في Adobe ، كان التعلم الآلي جزءًا من إنشاء منتجات إبداعية لأكثر من عقد من الزمان ، لكن الشركة خطت مؤخرًا خطوة كبيرة إلى الأمام. في أكتوبر ، عرض المهندسون الذين يعملون على Sensei أداة تحرير فيديو واعدة تسمى Adobe Cloak. يسمح للمستخدم بإزالة عمود إنارة بسهولة من مقطع فيديو - وهي مهمة ستكون مؤلمة بشكل رهيب حتى بالنسبة لمحرر متمرس. مشروع آخر يسمى Project Puppetron يطبق أسلوبًا فنيًا معينًا على الفيديو في الوقت الفعلي. يسمح لك بعرض شخص على شكل تمثال برونزي متحرك أو شخصية كرتونية مرسومة. يقول جون براندت ، كبير العلماء ومدير Adobe Research: "يمكنك فعل شيء أمام الكاميرا وتحويله إلى رسوم متحركة في الوقت الفعلي".



التعلم الآلي يجعل هذه المشاريع ممكنة لأنه يمكن أن يميز أجزاء من الوجه ويرى الفرق بين الخلفيات الأمامية والخلفية بشكل أفضل من الأساليب السابقة لرؤية الكمبيوتر. تسمح أدوات Sensei للفنانين بالعمل ليس مع المواد ، ولكن مع المفاهيم. يشرح براندت قائلاً: "يقوم Photoshop بعمل رائع في إدارة وحدات البكسل ، لكن الأشخاص يحاولون في الواقع معالجة المحتوى الذي تعرضه وحدات البكسل هذه".

هذا جزء جيد من الأخبار. عندما لا يحتاج الفنانون إلى قضاء الوقت في رسم نقاط فردية على الشاشة ، تزداد إنتاجيتهم. ووفقًا لبراندت ، فإنه سعيد جدًا بإمكانية ظهور أشكال جديدة من الفن وينتظر وصولها.


عرض أدوبي عباءة

ولكن ليس من الصعب تخيل كيف يؤدي هذا الانفجار الإبداعي إلى عواقب سيئة للغاية. شاهد Yanshun Yao ، خريج جامعة شيكاغو ، مقطع فيديو مزيفًا أنشأته منظمة العفو الدولية ، وقرر بدء مشروع لاستكشاف مخاطر تعلم الآلة. في الفيديو الذي شاهده ، ألقى باراك أوباما المولود خطابًا. أراد ياو التحقق مما إذا كان من الممكن تحريك شيء مشابه لمواد نصية؟

يجب أن تكون بنية النص خالية من العيوب تقريبًا ، حتى يقتنع معظم القراء بـ "أصله البشري". بدأ ياو بمهمة بسيطة نسبيًا - توليد مراجعات مزيفة لـ Yelp و Amazon. يمكن أن يتكون هذا النص من بضع جمل فقط ولا يتوقع القراء مستوى عالٍ من إتقان اللغة. أنشأ هو وزملاؤه شبكة عصبية ، أنشأوا نصوصًا حول موضوع Yelp بطول 5 جمل. تضمنت المراجعات الواردة عبارات مثل "الآن هذا هو مكاننا المفضل!" و "ذهبت إلى هناك مع أخي ، طلبت معكرونة نباتية - لذيذة جدًا." علاوة على ذلك ، سأل ياو الناس عما إذا كانت هذه النصوص حقيقية أم مزيفة - وبالطبع ، كان الناس غالبًا مخطئين.

تتراوح تكلفة كتابة هذه المراجعات من 10 دولارات إلى 50 دولارًا ، ويدعي ياو أنها ليست سوى مسألة وقت قبل أن يحاول شخص ما أتمتة العملية عن طريق خفض الأسعار وإغراق الموقع بمراجعات مزيفة. كما استكشف قدرات الشبكات العصبية لحماية Yelp من المحتوى المزيف - وحقق بعض النجاح. هدفه التالي هو إنشاء مقالات إخبارية يمكن تصديقها.

أما بالنسبة لمحتوى الفيديو ، فالتقدم يمكن أن يتحرك بشكل أسرع. هاني فريد ، خبير في الكشف عن الصور ومقاطع الفيديو المزيفة وأستاذ في كلية دارتموث ، قلق بشأن مدى سرعة انتشار المحتوى الفيروسي وكيف تتخلف عملية التعرف على أصالته. يعترف أنه في المستقبل القريب سيكون هناك فيديو يمكن تصديقه حيث يعطي دونالد ترامب الأمر لهجوم نووي على كوريا الشمالية. ستصبح حالة من الذعر الفيروسي وتثير الذعر - مثلما تسببت في برنامج إذاعي عن "حرب العالمين". يقول: "لا أريد أن أفترض افتراضات هستيرية ، لكنني لا أعتقد أن المخاوف لا أساس لها من الصحة".

ومع ذلك ، فإن مظاهر ترامب التي تم إنشاؤها تسير بالفعل على الويب. هم نتاج Lyrebird ، بدء تشغيل المزج الصوتي. خوسيه سوتيلو ، المؤسس المشارك والرئيس التنفيذي للشركة ، مقتنع بأن وجود هذه التكنولوجيا أمر لا مفر منه ، بحيث يستمر هو وزملاؤه في تطويرها - دون نسيان الأخلاق بالطبع. إنه متأكد من أن أفضل دفاع اليوم هو رفع مستوى الوعي حول إمكانيات التعلم الآلي. يلاحظ Sotelo: "إذا رأيت صوري على القمر ، فبالتأكيد ستقرر أنها مصنوعة في محرر رسومي. ولكن إذا سمعت تسجيلًا صوتيًا حيث يتحدث أفضل صديق عن أشياء سيئة عنك ، فمن المرجح أن تكون قلقًا. إنها حقًا تقنية جديدة ، وتقدم للبشرية تحديات جديدة ".



من غير المحتمل أن يتمكن شيء ما من إيقاف موجة محتوى الذكاء الاصطناعي الذي تم إنشاؤه. يمكن استخدام سيناريو يستخدم فيه المحتالون والسياسيون غير النزيهين التكنولوجيا لإنشاء معلومات مضللة.

الجانب الإيجابي هو أن محتوى الذكاء الاصطناعي الناتج يمكن أن يوفر أيضًا خدمة ضخمة للمجتمع. يحلم سوتيلو من ليريبيرد أن تقنيته ستكون قادرة على استعادة القدرة على التحدث إلى الأشخاص الذين فقدوا صوتهم بسبب التصلب الجانبي الضموري أو السرطان. وكان الفيديو بالخيول والحمر الوحشية ، الذي ذكر في البداية ، نتيجة ثانوية للعمل لتحسين رؤية المركبات غير المأهولة. يتم تدريب برامج هذه الأجهزة أولاً في بيئة افتراضية. لكن عالم مثل Grand Theft Auto يشبه الواقع عن بعد. تم إنشاء خوارزمية Zebrification لتضييق الفجوة بين البيئة الافتراضية والعالم الحقيقي ، وفي النهاية جعل المركبات غير المأهولة أكثر أمانًا.

Source: https://habr.com/ru/post/ar409153/


All Articles