الروبوتات في الصحافة ، أو كيفية استخدام الذكاء الاصطناعي لإنشاء المحتوى

السيارات تزداد ذكاءً. بالفعل يقومون الآن بإنشاء محتوى من هذه النوعية بحيث لا يميزه المحترف دائمًا عن المحتوى "الإنساني". تحدث سيرجي مارين من Data Data عن سبب عدم تخوف الصحفيين والمحررين من المنافسة ، وعن احتمالات أتمتة الصحافة في مؤتمرنا " Contenting ".



تحت نسخة مختصرة من تقريره.

عن المتكلم
سيرجي مارين هو خبير في الذكاء الاصطناعي وقائد ومؤسس استوديو البيانات .

ثلاثة حيتان من الذكاء الاصطناعي


إذا كنا نتحدث عن الذكاء الاصطناعي - في الصحافة أو في أي مجال آخر - يجب علينا أولاً وقبل كل شيء فهم هيكلها. تتكون الذكاء الاصطناعي من ثلاثة مكونات رئيسية: التعلم الآلي ، أنظمة التوصية ، والشبكات العصبية. بالمناسبة ، يعتبر الكثيرون الشبكات العصبية مرادفًا للذكاء الاصطناعي ، ولكن هذه ليست سوى واحدة من الأدوات ، ولا حتى الأكثر ضخامة: في كل حالة ، يتم استخدام تلك الخوارزميات التي تعمل على النحو الأمثل.



آلة التعلم: الجرف


يستخدم التعلم الآلي للبحث عن الأنماط المخفية في البيانات. تخيل أن لدينا مجموعة من خطوط المعلومات أو المنشورات التي تحتاج إلى تصنيف ، أي أن نخصص لهم بعض العلامات تلقائيًا. أو مجرد نصوص تحتوي على الكثير من الكلمات التي يجب تقسيمها إلى فئات معينة ومصالح وحالات مزاجية وما إلى ذلك. كيف نفعل هذا؟ إذا تحدثنا عن التعلم الآلي ، فإننا لا نبحث عن أي كلمات رئيسية لاستخلاص النتائج بناءً عليها. بدلاً من ذلك ، نعرض للجهاز أكبر عدد ممكن من النصوص التي قمنا بتمييزها بالفعل بعدد كبير من الفصول. بعد ذلك نقدم نصًا جديدًا ، ويقوم الجهاز نفسه بتصنيفه في المنطقة التي ينتمي إليها. وهذا هو ، نعلم أولا ، تظهر العديد من الأمثلة.



وهذا هو ، التطبيق الرئيسي للتعلم الآلي في الصحافة هو التصنيف. على سبيل المثال ، لدينا عدد كبير من خطوط المعلومات - من الإنترنت والشبكات الاجتماعية ووكالات الأخبار - ونحن بحاجة إلى تصنيفها بسرعة. قمنا بتدريب نموذجنا مسبقًا ، وعندما يكون لدينا دليل معلومات جديد ، فإن الآلة تفهم المكان الذي ينتمي إليه ، وما هو موضوعه ، وما الحالة المزاجية التي ينقلها ، والتي يمكن للجمهور تطبيقها. ويتوقع شعبية بالمثل ، تصنيف بعض تغذية الأخبار.

نظم التوصية: العثور على نهج شخصي


المجال الرئيسي لتطبيق أنظمة التوصية هو التخصيص. نريد أن نظهر المحتوى المناسب لشريحة معينة على الأقل ، ومن الأفضل - تحديده لكل شخص. في هذا الصدد ، فإن تقديم المحتوى لا يختلف عن المبيعات. استذكر رواد مبيعات المنتجات المستهدفة: يمكن للمحلات على الإنترنت مثل Amazon ودور السينما على الإنترنت أن توصي بمنتجاتها. وإذا نظرنا إلى المحتوى كمنتج ، اتضح أننا نعرف بالفعل كيفية التوصية به واستهدافه جيدًا.



كيف نفعل هذا؟ هناك مبدأان أساسيان. الأول هو أنظمة الإحالة التي ، في الواقع ، تقارن الأشخاص فيما بينهم بناءً على مشترياتهم ، في هذه الحالة ، بناءً على المحتوى الذي استهلكوه سابقًا. لنأخذ مثالاً بسيطًا: شاهد إيغور وبيتر نفس الأفلام ، وإذا كان أحد الأفلام قد تم عرضه فقط من قبل إيغور ، فمن المنطقي أن يوصي به بيتر.

مبدأ آخر هو أقوى بكثير من حيث التوصية بالمحتوى - تقييم شعبيته ، تصنيف الصفحات. المثال الأول هو البحث ، البحث في ياندكس ، جوجل. كيفية تحديد أن صفحة معينة مهمة؟ نحن نعتبر عدد الروابط أو المراجع لهذه الصفحة على الموارد الأخرى ونحصل على نوع من التصنيف الذي تم تخصيصها لها. ولكن هذا شيء عندما ترتبط خمس صفحات غير معروفة بالمنشور ، وشيء آخر تمامًا إذا تم توفير الروابط بواسطة علامات تجارية مشهورة أو وكالات أنباء كبرى. اتضح أننا يجب أن نأخذ في الاعتبار تصنيف أولئك الذين يرتبطون بصفحتنا - نحصل على مثل هذا التسلسل الهرمي.

يعمل Tinder بنفس الطريقة: عندما تقوم بالتمرير إلى اليسار ، يتم احتساب التقييم لك ولأولئك الذين يظهرون لك. يعرضون لك صورًا للأشخاص الذين لديهم نفس التصنيف معك - وهذا هو المعنى الموصى به للخدمة.



هذه طريقة فعالة جدًا للتقييم الآلي لأهمية بعض المعلومات. إذا كنت تعرف كيفية حساب ليس فقط مذكورة ، ولكن أيضًا أهميتها ، يمكنك فرز جميع قنوات الأخبار تلقائيًا لجمهور مستهدف معين. لذلك ، يتم استخدام التوصيات بشكل أساسي لاستهداف هذا المستوى.

الشبكات العصبية: تقليد الدماغ


مفهوم الشبكات العصبية بسيط وممل. حتى حوالي الستينيات من القرن الماضي ، رسمت دراسات لمبادئ الدماغ البشري الصورة التالية: هناك مجموعة معينة من الخلايا العصبية التي تتلقى إشارات الإدخال. بعد ذلك ، تقوم كل خلية عصبية بإجراء تعديل بسيط للإشارة وتنقلها. لفهم كيف تتجمع هذه الخلايا العصبية في مجموعات داخل الدماغ ، قررنا إنشاء نموذج كمبيوتر - مجموعة من الخلايا العصبية المرتبطة بطريقة أو بأخرى. لذلك ولدت الشبكات العصبية الأولى ، وبهذا الشكل لا تزال تستخدم لحل مشاكل التعلم الآلي. ولكن إذا كنا نتحدث عن شيء أكثر تطوراً ، فإن مثل هذا النظام لا يصلح.



في مكان ما في التسعينيات من القرن الماضي ، أدرك العلماء أن عقل الإنسان لا يعمل تمامًا مثل هذا. تتفاعل الخلايا العصبية حقًا مع بعضها البعض ، ولكن يتم بناء كل شيء بشكل هرمي. على سبيل المثال ، عندما أرى صورة ، يتم جمع المعلومات من كل منطقة من مناطقها ، والتي يتم تجميعها بشكل أكبر مع مجموعة أخرى أصغر من الخلايا العصبية. وهناك يتم تخزينه في شكل نوع من التمثيل الداخلي. في الواقع ، نحن نفكر بهذه العروض الداخلية ، وليس بالصور الحقيقية التي نراها. تم إعادة إنشاء النظرية على الفور في الشبكات العصبية ، والآن وفقًا لتصنيف الصور ، تعمل هذه الشبكات العصبية بشكل أفضل من البشر. وتسمى هذه الشبكات العصبية تلافيفية - لأن عملية التعميم تحدث.



حدث الاختراق الثاني عندما اكتشفوا: الشخص لا يتصور المعلومات في الوقت الحالي ، ولكن مع الأخذ في الاعتبار سياق معين. لتدريب أجهزة الكمبيوتر على تحليل التجربة المتراكمة ، قاموا ببناء ما يسمى الشبكات العصبية المتكررة. يستخدمون عمل الشبكات العصبية السابقة أولاً في التصنيف ، ثم لإنشاء بعض المحتوى. يتم استخدام كل ذلك الآن في Sequence Modeling ، وإذا كان الأمر أسهل - في برامج الدردشة. على سبيل المثال ، عندما يختار Yandex كلمات متشابهة ، فهذه شبكات عصبية متكررة تنسخ كيفية معالجة الشخص للمعلومات.

كيف يتم استخدام الشبكات العصبية في الصحافة


المجال الأول لتطبيق الشبكات العصبية هو توليد المحتوى. إذا كان لدينا نوع من دليل المعلومات ، فإن الشبكة العصبية المدربة تسمح لنا بتحديد الموضوع وكتابة نص واضح تمامًا. بالفعل هناك الشركات التي تنتج البرمجيات المقابلة. هناك منشورات تستخدمه لخطوط المعلومات الروتينية - تقارير التبادل ، المؤشرات المالية للشركات. للحصول على معلومات واقعية - مرت زلزال هنا ، وسفينة أبحرت هناك وما إلى ذلك - تعمل بشكل جيد. ولكن إذا كنا نتحدث عن موجزات معلومات أكثر تقدمًا ، فسوف يتعين علينا العمل بجدية لتحويل المحتوى الذي تولده الشبكة العصبية إلى شيء ذي معنى وكافي حقًا.



المجال الثاني هو التصنيف ؛ وقد سبق ذكره أعلاه. والثالث هو تقييم الإدراك أو اختبار A / B ، الذي نادراً ما يستخدم في مكان ما خارج المبيعات. في الصحافة ، المبدأ مماثل: لدينا عدة أشكال للنشر ، ونريد أن نختبر كيف سيتم ذلك في مجموعات مستهدفة مختلفة. باستخدام هذه الأساليب ، يمكن أن تكون هذه العملية مؤتمتة بالكامل.

سوف يجذب الاتجاه الأخير أولئك الذين يحتاجون إلى كتابة المحتوى نفسه للقنوات المختلفة والموارد والجماهير المستهدفة. لنشر مقال عن حبري ، والذي تم نشره بالفعل في منشور آخر ، لا يمكنك القيام بنسخ سابقة فقط. لتكييفها ، يمكنك إما جذب مؤلف الإعلانات أو استخدام شبكة عصبية. بالنسبة إلى جهاز الكمبيوتر ، يعد هذا أبسط من الترجمة الآلية: لا يحتاج النص إلى تحويله إلى لغة أخرى ، بناء جملة ، وما إلى ذلك. ولكن عموما هو نفسه.

أين يتم استخدامه؟ تعتبر وكالة أسوشيتيد بريس رائدة في الوكالات الرئيسية. يستخدمون إنشاء المحتوى التلقائي للأخبار المالية ، حيث يوجد القليل من التحليلات ، ولكن هناك الكثير من الأرقام والأدلة. هناك ثلاثة موردين يصنعون مثل هذه البرامج: العلم السردي ، والرؤى الآلية ، ومقالة فورج. إذا ذهبت إلى مواقعهم ، يمكنك رؤية الكثير من الحالات الحقيقية - أمثلة على المنشورات التي كتبها روبوتات. وتستند جميع هذه المقالات على بعض الأدلة.



هل هناك فرق ملحوظ بين التأليف والمحتوى الذي تم إنشاؤه؟ في الولايات المتحدة وألمانيا ، أجروا أبحاثًا ، عُرض خلالها عدد كبير من المقالات على مجموعات من الصحفيين - على التوالي ، باللغتين الإنجليزية والألمانية. تم كتابة نصف النصوص من قبل الناس ، ونصف بواسطة الآلات. في المتوسط ​​، لا يمكن للناس التمييز بينهم. وعندما طُلب من الأشخاص تصنيف النصوص وفقًا لموثوقيتها واهتماماتها ، اتضح أنهم يجدون أن النصوص المكتوبة بواسطة الجهاز أكثر موثوقية. في الوقت نفسه ، أشار المجيبون إلى أن قراءتها ليست مثيرة للاهتمام مثل المقالات "الإنسانية".

اتضح أن الناس أفضل حالًا في القيام بالمحتوى الترفيهي. وإذا كنت بحاجة إلى إحضار بعض الأخبار - استخدم السيارة ، فسيصدقونها أكثر.

الفوائد والمخاطر


تتيح لك برامج الروبوت التركيز على المحتوى الذي تريد تضمينه في المحتوى ، بدلاً من التركيز على العملية الشاقة المتمثلة في تكييفه مع تنسيقات مختلفة. ميزة أخرى للآلات هي سرعة التفاعل: إذا كنت بحاجة إلى معالجة معلومات العملاء بسرعة ، فهذه هي أداتك. لقد سبق أن قلنا عن تخصيص المستخدم ، هذه إضافة محددة. الميزة الرابعة هي التعهيد الجماعي: إذا كنت تستخدم عددًا كبيرًا من المصادر ، فسيكون الجهاز قادرًا على تصنيف المعلومات التي يتم تلقيها منها تلقائيًا ، والتمييز الجيد من السيئ ، واختيار المصادر المناسبة.



هناك مخاطر محتملة. الأول هو كاميرا صدى. يتم تخصيص المحتوى الذي يعرضونه لي على أساس تشابه اهتماماتي - مع مراعاة ما قرأته بالفعل ، ومصالح أشخاص مثلي. وبالتالي ، بعد عدد معين من التكرار ، أبدأ في الطهي في حقل المعلومات المغلقة.

الخطر الثاني هو فقاعات المعلومات. إذا قمت بإنشاء نوع من المواقف الخيالية ، الحدث ، يمكن للآلة كتابة العديد من الإصدارات المختلفة من المنشورات التي تبدو أصلية. بمساعدة برامج الروبوت والشبكات الاجتماعية وما إلى ذلك ، يمكن نشر هذه المعلومات الخاطئة على جماهير ضخمة.



الآن يتحدثون عن ما يسمى الهجمات adversirial على الشبكة العصبية. يتم إعطاء مثال على شعار KFC: إذا عرضت هذه الصورة على سيارة ذاتية القيادة ، فإنها ترتفع فورًا - حيث يتعرف الذكاء الاصطناعي على الصورة كعلامة توقف. إذا كان هذا التلاعب ممكنًا مع النصوص ، فستتمكن مجموعة من الكلمات ذات معنى تقابل خوارزمية معينة من الحصول على تصنيف عالٍ للشبكات العصبية ، وسيشاهد القارئ نوعًا من الرطانة.



لحسن الحظ ، في الممارسة العملية ، مثل هذا الهجوم صعب للغاية. تذكر أن الشبكة العصبية - مثل دماغنا - تجلب أي صورة وفقًا للتمثيل الداخلي. انظر إلى الصورة: على يسار الوجه ، كما نراها ، وعلى اليمين - كما ترى الشبكة العصبية. بعد الوصول إلى الشبكة العصبية نفسها ، يمكن اختيار الصور ، كما في المثال مع شعار KFC. في الواقع ، فإن المشكلة معروفة أيضًا من خلال التشفير ، لأنها تمثيلية لاختراق وظائف التجزئة. الشبكة العصبية في هذه الحالة هي دالة هاش: يمكنك تحويل نص طويل معيّن إلى تمثيل داخلي صغير. إذا قمت بالتقاط شيء يطابق - الاختراق. ولكن حتى تتمكن من التكرار ، تحتاج إلى الوصول إلى الخوارزمية.

ليس منافسا ، ولكن مساعد


تقريبا جميع المنشورات حول هذا الموضوع تثير مشكلة الطلب على الصحفيين في المستقبل. يبدو لي أن السؤال ليس صحيحًا تمامًا: سيتم استبدال شخص ما ، وليس شخصًا آخر ، لكن من الواضح أنه لا يمكن استبدال كل الصحافة بأجهزة. لن يستسلم الشخص إلا لبعض المنشورات الأساسية البسيطة والمبتذلة. المشكلة مختلفة: نظرًا لأنه يمكن إنشاء المنشورات الأساسية تلقائيًا وتنفيذها بسهولة ، فإن النسبة المئوية للمحتوى الذي تم إنشاؤه قريبًا ستكون أكبر بكثير من تلك التي كتبها الأشخاص. كما اكتشفنا بالفعل ، يُنظر إلى المحتوى الذي تم إنشاؤه بشكل أفضل من حيث الموثوقية - وهذا يسمح لك بإنشاء أداة قوية لمعالجة الوعي والإدراك. ربما هذا هو أسوأ وأهم شيء.



لإنشاء محتوى باستخدام التعلم الآلي ، يتم استخدام عملية التفاعل بين الإنسان والآلة - ليس بشكل منفصل ، ولكن معًا ، في زوج. أولاً ، يبحث الجهاز عن مشكلات إعلامية ، ويصنفها ، ويتنبأ بالأهمية ، وينتج محتوى ... هذه هي الحالة عندما يكون لدينا تدفق كبير لجميع أنواع المعلومات ، ونريد الرد عليها بسرعة. إذا كان لديك وقت للتفكير وما إلى ذلك ، فهذا سيناريو مختلف تمامًا. ينتقل المحتوى الذي يعده الجهاز إلى صحفي أو محرر يشاهد ويقيم ويضيف. علاوة على ذلك ، يمكن أن ينتقل النص إلى المنشور أو مرة أخرى إلى الروبوت - من أجل تكوين إصدارات مختلفة من المنشور لمختلف شرائح الجمهور المستهدفة. بعد ذلك ، تعمل السيارة في التخصيص ، وتختار لكل شخص ما يريه. بالطبع ، لا يتم تطبيق ذلك في كل مكان ، لكن سير العمل العام يبدو مثل هذا.

لا يتم استبعاد شخص من عملية إعداد المحتوى. الروبوتات ليست أكثر من أدوات إضافية تسرع وتبسط العملية ، وتزيل المهام الروتينية منا.



يمكن طلب التقارير الواردة من " المحتوى " بتنسيق الفيديو هنا . لمستخدمي Habr خصم على الرمز الترويجي habr_online_promo.

شكرا للرعاة:




الأصدقاء ، لمدة 10 أيام أخرى ، نحن نقبل الطلبات الخاصة بالمسابقة الفنية - التقنية حول موضوع "الحالة وتكنولوجيا المعلومات" ، وندعو جميع المؤلفين الفنيين للمشاركة. يمكنك سرد قصة عن التكنولوجيا والتطوير وصقل الخدمات وجهاز النظم والتطبيقات المختلفة والمقابلات مع أحد الخبراء ومجموعة مختارة من المتسللين الحياة ومراجعة ومواد أخرى حول الموضوع - الشيء الرئيسي هو نشرها على Habré. معلومات مفصلة على صفحة المسابقة .

Source: https://habr.com/ru/post/ar439388/


All Articles