من خلال إنشاء هذا الفيديو ، تعلمت الكثير
تستخدم تقنية
Dipfake شبكات عصبية عميقة لاستبدال شخص ما بشكل مقنع بشخص آخر في الفيديو. هذه التكنولوجيا لديها إمكانات واضحة للاستخدام الضار ، وأصبحت أكثر شيوعا. فيما يتعلق بالعواقب الاجتماعية والسياسية لهذا الاتجاه ، فقد تمت كتابة العديد من المقالات الجيدة بالفعل.
وهذا ليس واحد منهم. بدلاً من ذلك ، سألقي نظرة فاحصة على هذه التقنية: كيف يعمل برنامج diphey؟ ما مدى صعوبة خلقها ، وما مدى جودة النتائج؟
قررت أنه من الأفضل الإجابة على هذه الأسئلة من خلال إنشاء ملف الفيديو الرقمي الخاص بي. أعطاني المحررين بضعة أيام للعب مع البرنامج و 1000 دولار لدفع الحوسبة السحابية. بعد أسبوعين ، حصلت على النتيجة المعروضة في الفيديو في بداية المقال. بدأت شريط فيديو لمارك زوكربيرج يخاطب الكونغرس واستبدلت وجهه باللفتنانت كوماندر داتا (برينت سبينر) من ستار تريك: الجيل التالي. تم إنفاق ما مجموعه 552 دولار.
الفيديو لم يكن مثاليا. لا يتم نقل جميع تفاصيل وجه البيانات ، وإذا نظرت عن كثب ، فإن القطع الأثرية تكون ظاهرة على الحواف.
ومع ذلك ، من اللافت للنظر أن الوافد الجديد مثلي يمكنه إنشاء فيديو مقنع ، وبسرعة وبتكلفة منخفضة. هناك كل الأسباب للاعتقاد بأن تقنية dipfeyk في السنوات المقبلة ستتحسن فقط وأسرع وأرخص.
في هذه المقالة ، سوف أرشدك باليد في طريق dipfake الخاص بي. سأشرح كل خطوة تحتاج إلى اتخاذها لإنشاء فيديو deepfake. على طول الطريق ، سأشرح كيف تعمل هذه التقنية وما هي القيود التي تفرضها.
Dipfeyks بحاجة إلى الكثير من قوة الحوسبة والبيانات
نسمي مقاطع الفيديو هذه diphakes ["مزيفة عميقة"] لأنها يتم إنشاؤها باستخدام شبكات عصبية عميقة. على مدار العقد الماضي ، وجد علماء الكمبيوتر أن الشبكات العصبية أصبحت أكثر قوة مع إضافة طبقات إضافية من الخلايا العصبية. ولكن لإطلاق الإمكانات الكاملة للشبكات العصبية العميقة ، فإنك تحتاج إلى الكثير من البيانات وقوة الحوسبة الضخمة.
وينطبق الشيء نفسه على dipfakes. بالنسبة لهذا المشروع ، استأجرت جهازًا افتراضيًا به أربع بطاقات رسوميات قوية. وحتى مع كل هذه الخيول ، استغرق الأمر مني أسبوعًا تقريبًا لتدريب نموذجي.
أنا أيضا بحاجة إلى جبل من صور مارك زوكربيرج والبيانات. حصلت على فيديو مدته 38 ثانية ، لكن للتدريب احتجت إلى مقاطع فيديو أطول بكثير ، كل من Zuckerberg و Data.
للقيام بذلك ، قمت بتنزيل مجموعة من مقاطع الفيديو التي تحتوي على وجوههم: 14 مقطعًا بمقاطع من Star Trek وتسع مقاطع مع Mark Zuckerberg. ومن بين التقارير الأخيرة تقارير رسمية ومقابلات عديدة على شاشات التلفزيون ، وحتى شريط فيديو كان زوكربيرج يعد فيه شواء في فناء منزله.
لقد قمت بتحميل كل هذه المقاطع إلى iMovie وحذفت الإطارات التي لم تحتوي على وجوه Zuckerberg و Data. أنا أيضا مقطعة إلى أجزاء أطول مقاطع. لا يحتاج برنامج dipfake إلى عدد كبير من الصور فحسب ، بل يحتاج إلى عدد كبير من الصور المختلفة. كنا بحاجة إلى إطلاق النار على الوجوه من زوايا مختلفة ، بتعابير مختلفة وفي إضاءة مختلفة. لا يمكن أن ينتج عن مقطع فيديو مدته ساعة يقرأ فيه زوكربيرج التقرير لقطات أكثر قيمة من مقطع مدته خمس دقائق ، لأنه يتم تصويره من نفس الزاوية ، في نفس الضوء ويظهر نفس تعبير الوجه. لذلك قمت باقتصاص بضع ساعات من الفيديو لمدة 9 دقائق مع البيانات وحتى 7 دقائق مع Zuckerberg.
Faceswap: حزمة برامج لإنشاء dipfakes
ثم حان الوقت لاستخدام البرنامج ل dipheyka. في البداية ، حاولت استخدام البرنامج DeepFaceLab وكنت قادرًا على إنشاء فيديو تقريبي. ثم طلبت النصيحة من منتدى SFWdeepfakes ، ثم نصحني عدد قليل من الأشخاص على Faceswap. لاحظ الناس أن هذا البرنامج يحتوي على مزيد من الميزات ، وثائق أفضل ودعم أفضل عبر الإنترنت. قررت أن اتبع نصائحهم.
يعمل تطبيق Facewap على أنظمة Linux و Windows و Mac. تحتوي الحزمة على أدوات للعمل في جميع مراحل إنشاء dipfake ، من استيراد مقاطع الفيديو الأصلية إلى إنشاء فيديو dipfake نهائي. البرنامج ليس بديهيًا ، ولكن به يأتي بمواد تدريبية مفصلة تغطي جميع خطوات العملية. قام بتأليف المادة مات توراه ، منشئ كتاب الوجوه ، الذي ساعدني كثيرًا في الدردشة على قناة ديسكورد ديب فيك.
Faceswap يتطلب بطاقة رسومات قوية. كنت أعرف أن جهاز MacBook Pro لا يمكنه التعامل معه. طلبت من الفنيين في مكتب التحرير الخاص بنا استئجار جهاز ظاهري لنظام Linux من مزود رائد للخدمات السحابية. لقد بدأت باستخدام جهاز افتراضي مع وحدة معالجة الرسومات Nvidia K80 و 12 جيجابايت من ذاكرة الفيديو. بعد بضعة أيام ، انتقلت إلى نموذج مزود بوحدتي GPU ، ثم إلى 4 GPU. كان لديها أربعة GPUs نفيديا T4 تينسور الأساسية مع 16 جيجابايت من الذاكرة لكل منهما (48 وحدة المعالجة المركزية و 192 RAM ، والتي كانت في معظمها خاملا).
بعد أسبوعين من العمل ، تلقيت فاتورة بقيمة 522 دولارًا. بالتأكيد ، لقد أنفقت مبلغًا كبيرًا على راحة استئجار جهاز كمبيوتر. أخبرني التوراة أنه في الوقت الحالي ، فإن أكثر الخيارات المربحة للأجهزة بالنسبة إلى dipfake هي بطاقة Nvidia GTX 1070 أو 1080 مع ذاكرة 8 جيجابايت. هذه البطاقة المستخدمة تساوي عدة مئات من الدولارات. بطاقة 1080 واحدة لا تعلم الشبكة العصبية بأسرع أربعة من وحدات معالجة الرسومات الخاصة بي ، ولكن إذا كنت مستعدًا للانتظار بضعة أسابيع ، فستحصل على نتائج مماثلة.
يتكون سير العمل في Faceswap من ثلاث خطوات أساسية:
- الاستخراج: قم بتقطيع الفيديو إلى إطارات ، والعثور على الوجوه في كل إطار ، وعرض الصور المحاذاة جيدًا والمقطعة بعناية لكل وجه.
- التدريب: استخدم الصور التي تم الحصول عليها لتدريب الشبكة العصبية dipfake. يأخذ صورة لوجه شخص وتنتج صورة لوجه شخص آخر بنفس التعبير والإضاءة وفي نفس الموضع.
- التحول: طبّق النموذج المدرب في الخطوة السابقة على مقطع فيديو معين لإعطاء dipfake. بعد تدريب النموذج ، يمكن تطبيقه على أي فيديو يتواجد فيه هؤلاء الأشخاص على وجوههم التي تم تدريبهم عليها.
لكل خطوة من الخطوات الثلاث ، يلزم مقدارًا مختلفًا تمامًا من الوقت عن الشخص والآلة. يعمل برنامج استرجاع الصور لعدة دقائق ، لكن قد يستغرق الأمر ساعات لسهولة التحقق من النتائج. يلاحظ البرنامج جميع الوجوه في كل صورة ، بالإضافة إلى بعض الإيجابيات الخاطئة. للحصول على نتائج جيدة ، يحتاج الشخص إلى الاطلاع على جميع النتائج ، وإزالة الوجوه غير الضرورية وكل شيء استغرقه البرنامج لشخص ما.
التعلم سهل الإعداد ، ولا يتطلب أي تدخل بشري. ومع ذلك ، قد يستغرق الأمر أيامًا أو حتى أسابيع من وقت الكمبيوتر للحصول على نتائج جيدة. بدأت في تدريب نموذجي النهائي في 7 ديسمبر ، واستمر حتى 13 ديسمبر. من الممكن أن تتحسن جودة dipfake بعد أسبوع آخر من العمل. واستخدمت أيضًا سحابة الوحش مع أربع بطاقات رسومات متقدمة. إذا كنت تعمل على جهاز الكمبيوتر الخاص بك باستخدام وحدة معالجة GPU واحدة ذات طاقة أقل ، فقد يستغرق الأمر عدة أسابيع لتدريب نموذج جيد.
الخطوة الأخيرة ، التحول ، سريعة لكل من الشخص والكمبيوتر. من خلال تلقي نموذج مدربين بشكل مناسب ، يمكنك تقديم مقاطع فيديو dipfake في أقل من دقيقة.
كيف تعمل السدود
قبل وصف عملية التعلم في Faceswap ، تحتاج إلى شرح كيفية عمل التكنولوجيا الأساسية.
في قلب Faceswap - وحزم البرامج الرائدة الأخرى لإنشاء diphakes - هو التشفير التلقائي. هذه شبكة عصبية مدربة على تلقي صورة إدخال وإنتاج صورة متطابقة. قد لا تكون هذه المهارة مفيدة بحد ذاتها ، ولكن ، كما سنرى لاحقًا ، فهي لبنة أساسية في عملية إنشاء dipfake.

تم تصميم التشفير التلقائي وفقًا لمبدأ مسارين متصلين بنهاية ضيقة. على أحد جانبي الشبكة يوجد مشفر يتلقى صورة ويضغطها على عدد صغير من المتغيرات. في النموذج الذي استخدمته في Faceswap ، هذه هي أرقام الفاصلة العائمة ذات 32 بت 1024. على الجانب الآخر من الشبكة العصبية هو وحدة فك الترميز. يأخذ هذا التمثيل المضغوط ، والمعروف باسم "مساحة كامنة" ، ويحاول توسيعه ، بعد أن تلقى الصورة الأولية.
إن تحديد مقدار البيانات المنقولة من المشفر إلى وحدة فك الترميز بشكل مصطنع يجعل هاتين الشبكتين تطوران صورة مضغوطة للوجه الإنساني. يشبه التشفير خوارزمية ضغط ضائعة تحاول حفظ أكبر قدر ممكن من المعلومات حول الوجه مع الحد من مقدار التخزين. يجب أن تستخرج المساحة الكامنة تفاصيل مهمة بطريقة ما ، على سبيل المثال ، في أي اتجاه ينظر إليه الموضوع ، تكون عيناه مفتوحة أو مغلقة ، أو أنه يبتسم أو عبوس.
من المهم أن يحتاج التشفير التلقائي إلى حفظ ميزات الوجه التي تتغير مع مرور الوقت فقط. لا يحتاج إلى تخزين الأشياء دون تغيير مثل لون العين أو شكل الأنف. إذا كان لديه عيون زرقاء في كل صورة من صور زوكربيرج ، فإن جهاز فك تشفير شبكته سيتعلم رسم وجهه تلقائيًا بعيون زرقاء. ليست هناك حاجة لحشر المعلومات في مساحة كامنة ضيقة لا تتغير أثناء الانتقال من صورة إلى أخرى. كما سنرى لاحقًا ، فإن حقيقة أن أجهزة الترميز التلقائي لها مواقف مختلفة تجاه ميزات الوجه الثابتة والمتغيرة أمر بالغ الأهمية لقدرتها على إصدار diphfakes.
كل خوارزمية لتدريب الشبكة العصبية تحتاج إلى طريقة لتقييم جودة الشبكة بحيث يمكن تحسينها. في العديد من الحالات ، يتم ذلك من خلال التدريب مع المعلم ، عندما يقدم الشخص الإجابة الصحيحة لكل عنصر من مجموعة بيانات التدريب. الترميز التلقائي تعمل بشكل مختلف. نظرًا لأنهم يحاولون ببساطة إعادة إنتاج بيانات المدخلات الخاصة بهم ، يمكن للبرنامج التدريبي تقييم جودة عملهم تلقائيًا. في المصطلحات الخاصة بالتعلم الآلي ، يُسمى هذا التعلم بدون معلم.
مثل أي شبكة عصبية ، يتم تدريب أجهزة الترميز التلقائي في Faceswap باستخدام backpropagation. تعمل خوارزمية التدريب على تغذية صورة معينة في الشبكة العصبية وتبحث فيها البيكسلات الموجودة في المخرجات لا تتطابق مع المدخلات. ثم يقوم بحساب أي من الخلايا العصبية في الطبقة الأخيرة قدمت أكبر مساهمة في الأخطاء ويصحح قليلاً معلمات كل خلية عصبية حتى تعطي نتائج أفضل.
ثم تنتشر هذه الأخطاء مرة أخرى إلى الطبقة السابقة ، حيث يتم تصحيح معلمات كل الخلايا العصبية مرة أخرى. تنتشر الأخطاء بهذه الطريقة مرة أخرى إلى أن يتم تصحيح كل معلمة من الشبكة العصبية - كل من التشفير وفك الشفرة -.
ثم تغذي خوارزمية التدريب صورة أخرى للشبكة ، وتتكرر العملية بأكملها مرة أخرى. قد تكون هناك حاجة إلى مئات الآلاف من هذه التكرارات لإنشاء تشفير تلقائي يعيد إنتاج مدخلاته جيدًا.

يعمل برنامج Dipfake من خلال تدريب اثنين من أجهزة التشفير التلقائي ، واحدة للوجه الأصلي ، والثانية للجهاز الجديد. أثناء عملية التدريب ، يتم إعطاء كل مشفر تلقائي صوراً لشخص واحد فقط ، ويتم تدريبه على إنتاج صور تشبه الصورة الأصلية.
ومع ذلك ، هناك مشكلة: تستخدم كلتا الشبكتين نفس التشفير. تظل وحدات فك الترميز - الخلايا العصبية الموجودة على الجانب الأيمن من الشبكة - منفصلة ، ويتم تدريب كل منها على إعطاء وجه مختلف. لكن الخلايا العصبية الموجودة على الجانب الأيسر من الشبكة لها معلمات شائعة تتغير في كل مرة يتم فيها تدريب أي من برامج التشفير التلقائي. عندما يتم تدريب شبكة Zuckerberg على واجهة Zuckerberg ، فإن هذا يغير نصف الشبكة التي تنتمي إلى المشفر وفي شبكة البيانات. في كل مرة يتم فيها تدريب شبكة البيانات على وجه البيانات ، يرث تشفير Zuckerberg هذه التغييرات.
كنتيجة لذلك ، يوجد لجهازي تشفير تلقائيان واحد يمكنهما "قراءة" إما وجه Zuckerberg أو وجه Data. الغرض من برنامج التشفير هو استخدام نفس تمثيل الأشياء مثل زاوية الرأس أو موقع الحواجب ، سواء حصل على صورة Zuckerberg أو صورة للبيانات عند الإدخال. وهذا بدوره يعني أنه عندما تضغط وجهك على المشفر ، يمكنك فك ضغطه باستخدام أي وحدة فك ترميز.

لذلك ، بعد تدريب اثنين من برامج التشفير التلقائي بهذه الطريقة ، تظل هناك خطوة بسيطة لإنشاء مزيف: يمكنك تبديل وحدات فك التشفير. أنت تقوم بترميز صورة Zuckerberg ، ولكن باستخدام وحدة فك ترميز البيانات في خطوة فك التشفير. والنتيجة هي صورة أعيد بناؤها للبيانات - ولكن بنفس موقع الرأس وتعبير الوجه مثل الصورة الأصلية لزوكربيرج.
تذكر ، ذكرت أن المساحة الكامنة تلتقط ملامح الوجه المتغيرة للشخص - التعبير ، اتجاه الرؤية ، وموقع الحواجب - وأشياء ثابتة مثل لون العينين أو شكل الفم يعطي وحدة فك الترميز. هذا يعني أنه إذا قمت بترميز صورة Zuckerberg ، ثم فك تشفيرها باستخدام وحدة فك ترميز البيانات ، فستحصل على وجه مع ميزات بيانات دائمة - على سبيل المثال ، شكل وجه - ولكن مع تعبير وتوجه وجه Zuckerberg الأصلي.
عند تطبيق هذه التقنية على إطارات متتالية من مقطع فيديو باستخدام Zuckerberg ، يمكنك الحصول على فيديو جديد حيث يؤدي وجه Data نفس الحركات - مبتسمًا ، يومض ، يدير رأسه - كما فعل Zuckerberg في الفيديو الأصلي.
هذا الوضع متماثل. عندما تقوم بتدريب شبكة عصبية لتلقي صورة ل Zuckerberg وإصدار صورة للبيانات ، تقوم في وقت واحد بتدريبها لتلقي صورة لبيانات وإصدار صورة ل Zuckerberg. تتضمن أداة تحويل مقاطع الفيديو من Faceswap - الخطوة الأخيرة في عملية إنشاء dipfake - مربع اختيار مفيد "نماذج المبادلة" ، مما يسمح للمستخدم بتبديل وحدات فك التشفير. نتيجةً لذلك ، بدلاً من استبدال وجه Data's بدلاً من وجه Zuckerberg ، فإن البرنامج يقوم بالعكس ، حيث ينتج مقاطع فيديو مضحكة جدًا مثل هذا:
بيانات التدريب
في الممارسة العملية ، فإن الحصول على نتائج جيدة عند إنشاء dipfake ليس بالأمر السهل.
كما ذكرت ، حصلت على سبع دقائق من الفيديو للبيانات وتسع دقائق لزوكربيرج. ثم استخدمت أداة استخراج الصور Faceswap لقص الفيديو والحصول على صور مقطوعة لوجه الرجلين. يحتوي الفيديو على حوالي 30 إطارًا في الثانية ، لكني استخرجت منه كل سدس فقط - يوصى بهذه الممارسة في وثائق Faceswap. هذا لأن مجموعة متنوعة من الصور تعني أكثر من مجرد عددهم ، وحفظ كل إطار سيؤدي إلى عدد كبير من الصور المتشابهة للغاية.
أنتجت أداة استخراج Faceswap الكثير من الإيجابيات الخاطئة. وجد أيضًا وجوهًا حقيقية في خلفية بعض الطلقات. لبضع ساعات ، قمت يدويًا بحذف جميع الصور المستخرجة التي لا تنتمي إلى أي من موضوعي التجريبي. ونتيجة لذلك ، حصلت على 2598 صورة لوجه البيانات و 2224 صورة لوجه زوكربيرج.
وفي تلك اللحظة ، أخيرًا ، حان الوقت للانتقال إلى تدريب نموذجي حقيقي. يأتي الآن Faceswap مع 10 خوارزميات dipfake مختلفة تدعم أحجام صور مختلفة وتتطلب قوى حوسبة مختلفة. يوجد نموذج "خفيف الوزن" من بين أكثر النماذج متواضعًا يعمل مع صور الوجه التي لا يزيد حجمها عن 64 بكسل. يمكن تشغيله على جهاز لا يزيد عن 2 غيغابايت من ذاكرة الفيديو. تعمل الطرز الأخرى مع صور بحجم 128 أو 256 أو حتى 512 بكسل - ومع ذلك ، فإنها تتطلب ذاكرة فيديو أكبر ، بالإضافة إلى مزيد من وقت التدريب.
لقد بدأت في تدريب نموذج DFL-SAE ، المستمد من خوارزميات من DeepFaceLab. ومع ذلك ، كان هناك تحذير في وثائق Faceswap أن هذا النموذج يعاني من "تسرب الهوية" الذي قد تتسرب فيه بعض ميزات وجه ما إلى أخرى. يبدو لي أنني رأيت شيئًا كهذا في بضع مقاطع فيديو تجريبية أولية ، لذلك انتقلت بعد ذلك بيوم إلى طراز Villain ، الذي يعمل مع صور 128 بكسل. يصف دليل Faceswap هذا الأمر بأنه أمر صعب للغاية على VRAM ، و "اختيارًا جيدًا لأولئك الذين يرغبون في الحصول على نموذج دقة أعلى دون ضبط أي معلمات."
ثم انتظرت. وانتظر. لم تكن عملية التعلم قد انتهت عندما جاء الموعد النهائي لي يوم الجمعة - وهذا بعد ستة أيام من التدريب. في ذلك الوقت ، أنتج بلدي نموذج dipfake جيدة جدا. تباطأت سرعة التقدم ، لكن من الممكن أن أحصل على نتيجة أفضل إذا كان لدي أسبوع آخر من وقت الكمبيوتر.
يتكيف الوجه بشكل جيد مع أعمال الحوسبة الطويلة. إذا بدأت فريق التدريب من الواجهة الرسومية ، فإن واجهة البرنامج تقوم بانتظام بتحديث شاشة المعاينة ، حيث يمكنك رؤية أمثلة حول كيفية قيام البرنامج بإنشاء صور لبيانات و Zuckerberg. إذا كنت تفضل إجراء التدريب من سطر الأوامر ، فهذا ممكن أيضًا. تحتوي واجهة Faceswap على زر "إنشاء" مفيد يوفر الأمر الدقيق الذي تحتاج إلى تنفيذه لتدريب النموذج على الإعدادات الحالية التي تم إجراؤها في الواجهة.
كيف كانت جيدة dipfake؟
في عملية التعلم ، يعرض Faceswap باستمرار تقديرًا رقميًا لـ "الخسارة" لكل من جهازي التشفير التلقائي. تُظهر هذه التقديرات مدى قدرة التشفير التلقائي لـ Zuckerberg على تشغيل صور Zuckerberg - ومدى قدرة جهاز التشفير التلقائي للبيانات على تشغيل صور البيانات. وكانت هذه الأرقام لا تزال تتناقص عندما توقفت عن التعلم يوم الجمعة ، على الرغم من تباطؤ سرعة التقدم بشكل ملحوظ.
بالطبع ، في الواقع ، من المهم بالنسبة لنا كيف يمكن لجهاز فك تشفير Data أن يحول وجه Zuckerberg إلى Data. لا نعرف شكل "النتيجة النهائية" ، لذلك من المستحيل قياس جودة العمل بالأرقام الدقيقة. أفضل ما يمكننا فعله هو مراجعة الفيديو وتحديد ما إذا كان يبدو واقعياً.
يُظهر الفيديو أعلاه جودة dipfake في المراحل الأربع لعملية التعلم. تظهر مقاطع فيديو 10 و 12 كانون الأول (ديسمبر) نموذج وغد المدربين جزئيًا. فيديو 6 ديسمبر في أعلى اليسار هو اختبار مبكر مع نموذج مختلف. أسفل اليمين هي النتيجة النهائية. في عملية التدريب ، أصبحت تفاصيل وجهه أكثر وضوحًا وتصديقًا.في 9 كانون الأول (ديسمبر) ، بعد ثلاثة أيام من التدريب ، نشرت شريط فيديو أولي على القناة الداخلية لمكتب التحرير في سلاك. كان الفيديو مشابهاً لما هو موجود في الزاوية اليسرى العليا. كان رد فعل المعلم لدينا ، Aurich Lawson ، بسخرية له."بشكل عام ، يبدو الأمر سيئًا" ، كما أضاف ، مضيفًا أنه "لا يبدو مقنعًا. أنا في انتظار أحد مقاطع الفيديو التي لا تبدو مزيفة. "أعتقد أنه في انتقاده هناك نواة عقلانية. لقد فوجئت بالسرعة التي تمكنت بها Facewap من إنشاء صور لوجوه تبدو مثل Brent Spiner ، أكثر من Zuckerberg. ومع ذلك ، إذا نظرت عن كثب ، سترى العلامات المميزة للاحتيال الرقمي.في بعض الأطر ، لا يبدو الحد الفاصل بين وجه البيانات المزيف ورأس زوكربيرج صحيحًا تمامًا. في بعض الأحيان يخرج حاجب زوكربيرج من تحت وجه البيانات. في أماكن أخرى ، يتم تغطية حواف الوجه المزيف ببضع بكسلات على آذان زوكربيرج. قد يكون من الممكن حل هذه المشكلات مع التكوين في المعالجة اليدوية اللاحقة من قبل شخص ما - ولكن سيحتاج شخص ما إلى التمرير في إطار الفيديو حسب الإطار وضبط القناع لكل منها.ومع ذلك ، فإن المشكلة الأكثر أهمية هي أن خوارزميات diphfake لم تتمكن بعد من إعادة إنتاج أصغر تفاصيل الوجوه البشرية بشكل كافٍ. هذا واضح تمامًا عندما تنظر إلى مقاطع الفيديو الخاصة بالبدء والنهاية بالتوازي. نقلت Faceswap بشكل مدهش البنية العامة لوجه البيانات. لكن حتى بعد أسبوع من التدريب ، يبدو الوجه ضبابيًا ، ولا توجد تفاصيل مهمة كافية فيه. على سبيل المثال ، لا يمكن لبرامج dipheykas التعامل مع رسم أسنان الإنسان. في بعض الأحيان تصبح الأسنان واضحة للعيان ، وفي الإطار التالي تختفي ، تاركة السواد.أحد الأسباب الرئيسية لذلك هو أن مهمة Faceswap تصبح أكثر تعقيدًا مع دقة أعلى. تقوم الترميزات التلقائية بعمل جيد مع صور 64 × 64 بكسل. لكن إعادة إنتاج التفاصيل الدقيقة لصور 128 × 128 بكسل - ناهيك عن الصور التي يبلغ حجمها 256 بكسل أو أكثر - يعد بالفعل أكثر صعوبة. ربما يكون هذا أحد الأسباب وراء وجود منظر واسع إلى حد ما لأبقار الخنازير الأكثر إثارة للإعجاب ، دون التقريب من الوجوه.ومع ذلك ، يجب ألا تعتبر هذا قيدًا أساسيًا لتقنية diphake. في السنوات المقبلة ، قد يكون الباحثون قادرين على تطوير تقنيات يمكنها التغلب على هذه القيود.غالبًا ما يتم وصف أساس برنامج dipheyka بشكل خاطئ على أنه شبكات خصومة توليدية (GSS) ، أو مثل هذه الشبكات العصبية التي تسمح للبرنامج "بتمثيل"أشخاص غير موجودين ، أشياء أو مناظر طبيعية. في الواقع ، dipfeyki العمل باستخدام أجهزة التشفير التلقائي. ومع ذلك ، تشير أحدث التطورات في تقنية GSS إلى أنه لا يزال هناك مجال للتحسين.لا يمكن لنظام GSS ، الذي ظهر لأول مرة في عام 2014 ، سوى إنتاج صور خفية منخفضة الدقة. لكن في الآونة الأخيرة، والباحثين قد حان حتى مع كيفية إنشاء GHS صور اقعية المعلقة تصل إلى 1024 بكسل. قد لا تكون التقنيات المحددة المستخدمة في هذه الأعمال العلمية قابلة للتطبيق لإنشاء مفصل ، ولكن من السهل تخيل كيفية قيام شخص ما بتطوير تقنية مماثلة للتشفير التلقائي - أو ربما بنية شبكة عصبية جديدة تمامًا مصممة لاستبدال الوجوه.Dipfake المنظور
ارتفاع شعبية dipfakes هو مقلق بشكل واضح. حتى وقت قريب ، يمكن للناس بسهولة التقاط الفيديو مع شخص في القيمة الاسمية. إن ظهور برنامج dipheyka والأدوات الرقمية الأخرى جعلنا نشك في مقاطع الفيديو الآن. إذا شاهدنا مقطع فيديو يدعي فيه شخص ما أنه فضيحة - أو ينزع عنه - فيجب أن نفكر في إمكانية قيام شخص ما بتزوير هذا الفيديو لتشويه سمعة ذلك الشخص.ومع ذلك ، تؤكد تجربتي على قيود تقنية dipfake - على الأقل في شكلها الحالي. المعرفة والجهد اللازمين مطلوبان لإنشاء وجه افتراضي مقنع تمامًا. لم تنجح ، ولست متأكدًا من أن شخصًا ما كان قادرًا بالفعل على إنتاج فيديو dipfake لا يمكن تمييزه حقًا عن الفيديو الحقيقي.علاوة على ذلك ، فإن أدوات اليوم مثل Faceswap تتعامل فقط مع تغييرات الوجه. لا يغيرون الجبين والشعر والذراعين والساقين. وحتى إذا كان الوجه مثاليًا ، فسيكون من الممكن تحديد مقطع فيديو dipfake استنادًا إلى عناصر لا تبدو صحيحة.ومع ذلك ، قد تختفي هذه القيود على تقنية dipfake. في غضون سنوات قليلة ، قد يتعلم البرنامج إنتاج مقاطع فيديو لا يمكن تمييزها عن مقاطع الفيديو الحقيقية. ماذا بعد؟في هذه الحالة ، سيكون من المفيد تذكر أن الأنواع الأخرى من الوسائط كانت سهلة التزوير منذ فترة طويلة. تتمثل المهمة البسيطة في التقاط لقطة شاشة لبريد إلكتروني ، حيث يكتب شخص ما شيئًا لم يكتبه فعليًا. وهذا لم يؤد إلى زيادة في عدد المحاجر المكسورة بسبب رسائل البريد الإلكتروني المخادعة ، كما أنه لم يشوه لقطات من الرسائل كدليل يستخدم في المناقشات العامة.لكن الناس يعرفون أنه يمكن تزوير رسائل البريد الإلكتروني ، ويبحثون عن تأكيد إضافي في مثل هذه الحالات. ما سلسلة الأحداث التي جذبت انتباه الجمهور إلى الرسائل؟ هل تلقى أشخاص آخرون نسخًا من هذا البريد الإلكتروني في الوقت الذي كان من المفترض كتابته فيه؟ هل اعترف المؤلف المزعوم للرسالة بتأليفه أم مزاعم بالتزوير؟ تساعد إجابات هذه الأسئلة الأشخاص على تحديد مدى جدية ما يمكنهم من أخذ خطاب منشور.يمكنك أن تنخدع مرة واحدة
هذا هو الحال مع أشرطة الفيديو. ربما ستكون هناك فترة وجيزة من الوقت يمكن للمضاربين فيها تدمير مهنة الشخص من خلال نشر مقطع فيديو يقول فيه أو يفعل شيئًا غريبًا. ولكن سرعان ما سيتعلم المجتمع كيفية التعامل مع مقاطع الفيديو بالشك ، ما لم يكن مقطع الفيديو يحتوي على أي نوع من الأدلة الوثائقية أو الشهود أو العوامل الداعمة الأخرى.أعتقد أن هذا سوف ينجح حتى في حالات الانتهاكات الفظيعة لتكنولوجيا الديفي: إدخال وجه شخص في فيديو إباحي. من الواضح أن هذا غير محترم وغير مقبول. لكن الناس قلقون من أن مقاطع الفيديو هذه يمكن أن تدمر سمعتها وحياتها المهنية. أعتقد أن هذا ليس كذلك.في الواقع ، يمكنك أن تجد على الإنترنت صورًا كاملة لشخصيات مشهورة (خاصة النساء) ترتبط رؤوسهن بأجساد نجوم البورنوات بمساعدة Photoshop. معاناة النساء أمر مفهوم. لكن الجمهور لا يستنتج تلقائيًا أن هؤلاء النساء قد عرضن عاريات - فنحن على دراية بوجود Photoshop وإمكانية إنشاء صور مزيفة.وينطبق الشيء نفسه على المواد الإباحية العميقة. من الواضح أنه ليس من الجيد أن تصنع إباحية مزيفة بمشاركتك. لكن إصدار فيديو dipfake مع شخص ما لن يكون له تأثير مدمر مثل الفيديو الحقيقي للجنس. في حالة عدم وجود دليل على صحة الفيديو ، سيستنتج الجمهور أنه مزيف.يقول مات توراه ، مؤلف كتاب "Facewap" ، أن هذا الاعتبار كان أحد العناصر التي دفعته لإنشاء الحزمة. وهو يعتقد أنه سيتم تطوير البرامج اللازمة لتغيير الأشخاص. إنه يأمل أنه من خلال إنشاء أداة سهلة الاستخدام لتغيير الأشخاص ذوي المصادر المفتوحة ، سيساعد على إزالة حجاب السرية باستخدام هذه التكنولوجيا وإخبار الجمهور بقدراتها وقيودها. وهذا بدوره سيساعدنا على الوصول بسرعة إلى النقطة التي يكون فيها الجمهور متشككين بشأن مقاطع الفيديو التي قد تكون مزيفة.على المدى الطويل ، فإننا نخاطر بأن يتأرجح البندول في العلاقات العامة كثيرًا في الاتجاه الآخر ، وإمكانية إنشاء dipfakes ستدمر الإيمان بالقوة الإيضاحية لمقاطع الفيديو. لقد اعتاد بعض السياسيين بالفعل على رفض انتقاد وسائل الإعلام باعتباره "أخبارًا كاذبة". سيصبح هذا التكتيك أكثر فاعلية مع زيادة وعي المجتمع بتكنولوجيا dipfakes.