كيف تحول كامبردج أناليتيكا النقرات إلى الأصوات

يشرح المخبر كريستوفر وايلي العلم وراء مهمة Cambridge Analytica لتحويل استطلاعات وبيانات Facebook إلى أسلحة سياسية




كيف تحولت 87 مليون مشاركة تم إنشاؤها على Facebook إلى حملة إعلانية يمكن أن تغير نتيجة الانتخابات؟ ما هو مدرج في إجراءات جمع الكثير من البيانات؟ ماذا تخبرنا هذه البيانات عن أنفسنا؟

أثارت الفضيحة مع Cambridge Analytica العديد من الأسئلة ، ولكن بالنسبة للكثيرين ، فإن عرض البيع الفريد للشركة ، التي أعلنت الأسبوع الماضي إغلاقها ، لا يزال لغزا.

خاصة بالنسبة إلى 87 مليون شخص مهتمين بما حدث بالضبط لبياناتهم ، ذهبت للتوضيح لكريستوفر وايلي ، الموظف السابق في الشركة ، الذي أخبر الجميع عن Observer حول أفعالها الإشكالية. وفقًا لـ Wiley ، تحتاج مثل هذه الوظيفة إلى القليل جدًا من المعلومات حول علم معالجة البيانات ، والنساء الأغنياء بالملل وعلم النفس البشري.

الخطوة الأولى ، أوضح عبر الهاتف ، محاولاً ركوب القطار: "عند إنشاء الخوارزمية ، تحتاج أولاً إلى جمع مجموعة بيانات اختبار". أي أنه بغض النظر عن مدى استخدام التقنيات المتطورة لجمع البيانات - يجب عليك أولاً جمعها بالطريقة القديمة الجيدة. قبل البدء في استخدام Facebook يحب التنبؤ بالملف النفسي للشخص ، تحتاج إلى الحصول على عدة مئات الآلاف من الأشخاص لإجراء مسح نفسي يضم 120 سؤالًا.

ستكون مجموعة الاختبار جميع البيانات في وقت واحد: يحب Facebook ، والاختبارات النفسية ، وكل شيء آخر ، بناءً على ما تريد تعلمه. والأهم من ذلك ، يجب أن يحتوي على "مجموعة من السمات المميزة": "البيانات الأساسية التي تريد أن تقوم على أساسها بالتنبؤات" ، كما يقول وايلي. "في حالتنا ، هذه هي بيانات Facebook ، ولكن يمكن أن تكون نصوصًا بلغة طبيعية ، أو انقر فوق بيانات" ، هو سجل كامل لنشاطك عبر الإنترنت. "كل هذه البيانات يمكن استخدامها للتنبؤات."

من ناحية أخرى ، ستحتاج إلى "المتغيرات المستهدفة" ، كما يقول وايلي ، "ما تحاول التنبؤ به. في هذه الحالة ، الخصائص الشخصية ، والتوجه السياسي ، وكل ذلك ".



إذا كنت تستخدم شيئًا واحدًا للتنبؤ بشيء آخر ، فإن مراجعة هذين الشيئين يمكن أن تساعدك. يقول وايلي: "إذا كنت بحاجة إلى معرفة العلاقة بين الإعجابات على Facebook في مجموعة الميزات والصفات الشخصية كمتغيرات مستهدفة ، فأنت بحاجة إلى رؤيتها في نفس الوقت".

تعد بيانات Facebook التي تكمن وراء القصة مع Cambridge Analytica موردًا وفيرًا جدًا من حيث علم معالجة البيانات - وأكثر من ذلك كان في عام 2014 عندما بدأ Wiley العمل لأول مرة في هذا المجال. يعد جمع الصفات الشخصية أكثر صعوبة: على الرغم من الاستنتاجات التي يمكن استخلاصها من شعبية الاستبيانات على BuzzFeed ، فمن الصعب جدًا أن يجبر الشخص على إكمال اختبار 120 سؤالًا (هذا هو طول نسخة قصيرة من أحد الاستبيانات النفسية القياسية ، IPIP-NEO ).

لكن "صعب للغاية" هو مفهوم نسبي. بالنسبة لبعض الناس ، كان الدافع لإجراء الاستطلاع ماليا. إذا كنت طالبًا أو تبحث عن عمل ، أو تريد فقط كسب 5 دولارات ، فهذا دافع. " حقًا بالنسبة للمسح ، وفقًا لـ Wiley ، فقد تم توزيعها من 2 دولار إلى 4 دولارات. كان من المتوقع زيادة القيمة بالنسبة "للمجموعات التي يصعب الوصول إليها". أصغر احتمالية لاجتياز الاستطلاع ، وبالتالي ، تم اعتماد أكبر مكافأة للأميركيين السود. "تتم مقابلة أشخاص آخرين لأنهم مهتمون ، أو بدافع الملل. لذلك ، كان لدينا تعداد البيانات عن النساء البيض الأثرياء. إذا كنت تعيش في Hamptons [ Long Island Elite Elite Area / تقريبا. [.] وليس لديك ما تفعله خلال اليوم ، فأنت تملأ استطلاعات أبحاث المستهلكين ".

تستخدم الاستبيانات الشخصية 120 سؤالًا لبناء ملف تعريف شخصي في خمسة محاور مختلفة - هذا هو نموذج "العوامل الخمسة" ، والذي يُسمى "OCEAN" في المصطلحات ، وهو اختصار لـ "الانفتاح على التجربة الجديدة والوعي والانبساط والرغبة في الإعجاب والعصبية" [الانفتاح على التجربة [ضمير ، انفتاح ، توافق ، عصابية].

يقسم النموذج الصفات الشخصية إلى مجموعات ، والتي ، على ما يبدو ، محفوظة في ثقافات مختلفة وفي أوقات مختلفة. لذا ، على سبيل المثال ، من المرجح أن يصف الأشخاص الذين يصفون أنفسهم "بصوت عال" أنفسهم على أنهم "تواصل". إذا وافقوا على مثل هذا الوصف اليوم ، فإنهم سيتفقون معه في غضون عام. من المرجح أن تظهر هذه المجموعات بأي لغة. وإذا كان رد فعل شخص ما سلبيًا تجاه شيء ما ، فسيكون لديه اختلافات واضحة وملحوظة من الأشخاص الذين يتفاعلون بشكل إيجابي.

يقول ويلي إن خصائص النموذج هذه تجعله مفيدًا لبناء ملف تعريف للأشخاص ، على عكس الملامح النفسية الشائعة الأخرى ، مثل تصنيف مايرز بريجز . في مرحلة التحقق من الدراسة ، لم يتأثر Facebook عمليًا. تم تقديم الاستطلاعات على مواقع استخراج البيانات التجارية - أولاً على منصة Amazon Mechanical Turk ، ثم من خلال مشغل Qualtrics (تم تغيير المشغلين ، وفقًا لـ Wiley ، لأن Amazon لديها مشكلة مع المستخدمين الحريصين جدًا على ملء الاستبيانات - ونتيجة لذلك ، فإن نتائج الاستطلاعات مشوهة )


"ليس فقط القانون - المسؤولية / الدفاع عن التعديل الثاني "
إعلانات حملة كامبريدج أناليتيكا المميزة

الفيسبوك متصل فقط في النهاية. لتلقي مدفوعات لملء الاستبيان ، كان على المستخدمين تسجيل الدخول إلى الموقع والسماح بالوصول إلى بيانات تطبيق المسح ، التي أنشأها ألكسندر كوجان ، عالم من جامعة كامبريدج. أعطت أبحاثه حول بناء الشخصية الشبيهة بالفيسبوك كامبريدج أناليتيكا ، برعاية روبرت ميرسر ، فرصة مثالية لدخول السوق بسرعة. يدعي كوغان أن Cambridge Analytica أكد له الاستخدام السليم للبيانات ، ويقول إنه تم استخدامه "ككبش فداء لكل من Facebook و Cambridge Analytica".

بالنسبة للمستخدم الذي تم جمع بياناته ، كانت العملية سريعة: "انقر على التطبيق ، واحصل على رمز المال". ولكن في هذه الثواني القليلة حدث الكثير من الأشياء المهمة. أولاً ، جمع التطبيق جميع البيانات الممكنة حول المستخدم. الملف الشخصي النفسي هو المتغيرات المستهدفة ، والبيانات من Facebook هي "مجموعة من السمات المميزة": المعلومات التي يجمعها أخصائي معالجة البيانات لجميع المستخدمين ، والتي سيستخدمها للتنبؤ بدقة بالميزات التي تهمه.

جمع التطبيق أيضًا معلومات شخصية مثل الاسم الحقيقي والموقع وجهات الاتصال - وهو أمر لا يمكن العثور عليه في مواقع الاستطلاع. "هذا يعني أنه يمكن مقارنة المعلومات بشخص حقيقي ، ويمكن مقارنة معلوماته بسجل الناخبين."

ثانياً ، قام التطبيق بنفس الشيء لكل أصدقاء المستخدم الذين قاموا بتثبيته. وفجأة ، تحول مئات الآلاف من الأشخاص الذين دفعت لهم بضعة دولارات لملء استبيان ، والذين كانت لغتهم غامضة ، إلى ملايين الأشخاص الذين ملفاتهم الشخصية على Facebook كتاب مفتوح.

في هذه اللحظة يحدث التحول الأخير. كيفية تحويل عدة مئات الآلاف من الملفات الشخصية إلى عدة ملايين؟ استخدام قدرات كمبيوتر كبيرة وجدول ضخم من الفرص. يقول ويلي: "على الرغم من أن عينتك تشمل 300000 شخص ، فإن مجموعة الميزات الخاصة بك هي بالفعل 100 مليون شخص". يصبح كل إعجاب Facebook من مجموعة بيانات عمودًا منفصلًا في هذه المصفوفة الضخمة. "حتى إذا كان هناك تكرار واحد للمجموعة بأكملها ، فستكون هذه ميزة بالفعل."

يقول وايلي: "ثم يتم جمع جميع البيانات في نموذج معقد". - في هذه المرحلة ، أنت تستخدم عائلات أو أساليب مختلفة للتعلم الآلي ، حيث أن لكل منها نقاط قوته وضعفه. ثم يصوتون نوعًا ما ، وتخلط النتائج وتعطي خاتمة ". في هذه المرحلة ، أصبح علم معالجة البيانات فنًا: لم يتم نحت المجموعة الدقيقة من بيانات الإدخال في كل من النهج في الجرانيت ، ولا توجد طريقة "صحيحة" واحدة لجمعها. في العالم الأكاديمي ، يُطلق على هذا أحيانًا "تدريب الدراسات العليا" - اللحظة التي يتبقى بعدها كل ما عليك فعله للمضي قدمًا عن طريق التجربة والخطأ. ومع ذلك ، فقد نجحت بشكل جيد للغاية ، وفي النهاية ، وفقًا لـ Wiley ، "أنشأنا 253 خوارزمية ، أي أن هناك 253 توقعًا لكل سجل ملف شخصي". تم تحقيق الهدف: نموذج ، في الواقع ، قادر على أخذ الإعجابات من Facebook ، والعمل في الاتجاه المعاكس ، وملء جميع الأعمدة في الجدول ، والتخمين حول الصفات الشخصية للشخص ، وميوله السياسية ، وما إلى ذلك.

بحلول نهاية أغسطس 2014 ، تلقت Wiley أول نتائج ناجحة: 2.1 مليون سجل مع ملف شخصي معاد إنشاؤه لـ 11 ولاية أمريكية مستهدفة. كانت الخطة استخدام البيانات لإنشاء وتحسين الرسائل الإعلانية في الحملة الجمهورية التي ترعاها ميرسر وستيفن بانون والوصول إلى الانتخابات التمهيدية لعام 2016 (غادر ويلي الشركة قبلهم). "لا يشير هذا الرقم فقط إلى جميع الأشخاص الذين جمعنا بياناتهم من Facebook وبيانات التصويت وبيانات المستهلكين ، ولكن أيضًا أنشأ 253 توقعات تمت إضافتها إلى ملفاتهم الشخصية."

كانت هذه التنبؤات الـ 253 "المكون السري" الذي قدمته Cambridge Analytica كعرض فريد للمستهلكين. باستخدام البيانات من Facebook فقط ، يواجه المعلنون عينات ديموغرافية واسعة جدًا ، والعديد من الفئات الأضيق المحددة خوارزميًا - هل تحب ، على سبيل المثال ، موسيقى الجاز ، أو فريق كرة القدم المفضل لديك. ولكن مع 253 توقعات ، يمكن لـ Cambridge Analytica ، وفقًا لـ Wiley ، ضبط الإعلانات بشكل لا مثيل له: إن التصويت العصابي ، الذي يوافق بسهولة على الديمقراطيين ، لن يكون عرضة للإعلان مثل الانطوائي الفكري المستقر عاطفيًا ، حتى لو كان نفس الإعلانات الرسائل ، إذا تم تبادلها ، سيكون لها تأثير معاكس.

يذكر ويلي مثل هذا البيان السياسي المريح للمرشح على أنه الرغبة في زيادة عدد الوظائف. "إن الوظائف في الاقتصاد هي مثال جيد على بيان لا معنى له. في الاقتصاد ، الجميع يؤيدون فرص العمل. لذلك ، باستخدام العبارة البسيطة "أقف للوظائف الشاغرة في الاقتصاد" أو "لدي خطة لإصلاح الوضع مع الوظائف الشاغرة في الاقتصاد" ، لا يسمح لك بأن تكون مختلفًا عن خصمك. "

"لكننا وجدنا أنه إذا نظرنا إلى ما يعنيه مفهوم الوظائف الشاغرة لكل فرد ، فقد اتضح أن أشخاصًا مختلفين يتأثرون بتصميمات مختلفة بدوافع مختلفة ومجموعة من القيم."

من الناحية العملية ، هذا يعني أنه يمكن التعبير عن نفس الثرثرة بشكل مختلف لأشخاص مختلفين ، مما يعطي انطباعًا لمرشح يؤثر على الناخبين على المستوى العاطفي. "إذا كنت تتحدث إلى شخص واع - بعلامات عالية للمعلمة C في نموذج OCEAN [الصدق والنزاهة] - فأنت تتحدث عن فرص لتحقيق النجاح والمسؤولية التي يتحملها مكان العمل. إذا كان هذا شخصًا منفتحًا ، فأنت تتحدث عن إمكانية النمو كشخص. مع العصابي ، أنت تعتمد على الأمن الذي سيوفره مكان العمل للعائلة ".

نظرًا لطبيعة شبكة الحملات الحديثة ، يمكن نظريًا تسليم جميع هذه الرسائل في وقت واحد إلى جماهير مختلفة. في نهاية الحملة ، عندما تكون الرسائل متجذرة بالفعل ، يمكن حتى أتمتتها تلقائيًا باستخدام خوارزمية تمشيط القاموس بحثًا عن مجموعة مثالية من الكلمات لكل مجموعة فرعية.


"انظروا إلى معنى الزواج وعودي إليّ / لأن التقاليد ليست قديمة"
إعلانات حملة كامبريدج أناليتيكا المميزة

بالطبع ، هذه ليست 100 ٪ ثرثرة. تم استخدام رسالة واحدة من قبل اليمين ، مهاجمة زواج المثليين. يقول ويلي: "من المضحك أن الرسالة اتضح أنها مسيئة ورهاب المثليين ، على الرغم من حقيقة أنها تم إنشاؤها من قبل فريق من المثليين جنسياً". - كان يستهدف الواعين. كانت هناك صورة لقاموس ونقش "انظروا إلى معنى الزواج ، وعودي إليّ." بالنسبة للشخص الواعي ، تبدو الرسالة مقنعة: القاموس هو مصدر النظام ، ومثل هذا الشخص يحترم الهيكلية.

في مرحلة ما ، ينتقل الاستهداف النفسي إلى مجال سياسة صفير الكلاب . على سبيل المثال ، أثبتت صور الحائط فعاليتها في حملات الهجرة. "إن الأشخاص الواعين يحبون التنظيم ، لذلك ، من وجهة نظرهم ، يجب تبسيط حل مشكلة الهجرة ، كما يتضح من الجدار. يمكنك إنشاء رسالة لا معنى لها بالنسبة لبعض الأشخاص ، ولكن بالنسبة للآخرين مليئة بالمعنى. عند إظهار هذه الصورة ، لن يفهم بعض الأشخاص أننا نتحدث عن الهجرة ، بينما سيتعرف عليها الآخرون على الفور ". من وجهة نظر ويلي ، كانت المشكلة الحقيقية هي "الساندويتش دون أي شيء" ، في انتظار وضع شيء عليه. "لا أحد يحب شطيرة دون أي شيء." ويقول إن البيانات يجب أن "تكتشف نكهة أو توابل معينة" تجعل الشطيرة جذابة.

وعلى الرغم من أنها كانت بالتأكيد آلة استهداف صعبة للغاية ، إلا أنه لا تزال هناك أسئلة حول نموذج Cambridge Analytica السيكولوجي - والذي ربما لن تجيبه Wiley بشكل أفضل. عندما قدم كوغان أدلة للبرلمان في أبريل ، جادل بأن النتيجة من غير المرجح أن تكون أفضل من مجرد تعيين تقييمات OCEAN بشكل عشوائي. ربما ، بالطبع ، هذا الاختلاف الصغير يكفي ، أو ربما قامت Cambridge Analytica بالتداول ببساطة في " زيت ثعبان " آخر. وحتى إذا تم تصنيف الأفراد بشكل صحيح بهذه العوامل الخمسة ، فهل كان اختيار الإعلانات المتخصصة أمرًا في غاية البساطة بالنسبة إليهم باعتباره نداءًا إلى حب النظام أو الخوف أو شيء آخر؟

ولكن بالنظر إلى كل هذا ، لا يزال هناك شيء فيه. انتبه إلى براءة الاختراع لعام 2012 من أجل "تحديد الخصائص الشخصية للمستخدم بناءً على الرسائل على الشبكات الاجتماعية". "يمكن استخدام تخزين خصائص الشخصية كمعايير مستهدفة للإعلان ، لزيادة احتمالية تفاعل المستخدم الإيجابي مع الإعلان" ، كما هو موضح في براءة الاختراع. مؤلف البراءة هو Facebook نفسه.

Source: https://habr.com/ru/post/ar413903/


All Articles