مقارنة أفضل واجهات برمجة التطبيقات لتصفية المحتوى الفاحش

الاختبار الكامل للعديد من واجهات برمجة التطبيقات (APIs) لتصفية الصور من مختلف الفئات ، مثل العري والمواد الإباحية والتشريح.



يفهم الشخص على الفور أن صورة معينة غير ملائمة ، أي NSFW (غير آمن للعمل). ولكن بالنسبة للذكاء الاصطناعي ، فكل شيء غير واضح. تحاول العديد من الشركات الآن تطوير أدوات فعالة لتصفية هذا المحتوى تلقائيًا.

أردت أن أفهم ما هو الوضع الحالي للسوق. قارن بين فعالية واجهات برمجة التطبيقات لتصفية الصور الموجودة في الفئات التالية:

  • عري صريح
  • عُري موحية (أي ، يدل على عُري صريح - تقريبًا لكل.)
  • المواد الإباحية / الجماع
  • التقليد / الرسوم المتحركة الاباحية
  • انفصال (غور) / عنف

Tl ؛ DR: إذا كنت ترغب فقط في معرفة أفضل واجهة برمجة التطبيقات ، يمكنك الانتقال على الفور إلى المقارنة في نهاية المقالة.

ظروف التجربة


مجموعة البيانات . للتقييم ، قمت بجمع مجموعة بيانات NSFW مع عدد متساوٍ من الصور في كل فئة فرعية من NSFW. تتكون مجموعة البيانات من 120 صورة مع 20 صورة إيجابية لـ NSFW لكل فئة من الفئات الخمس المذكورة ، و 20 صورة لـ SFW. قررت عدم استخدام YACVID 180 المتاح للجمهور ، لأنه يعتمد بشكل أساسي على استخدام العُري كمقياس لمحتوى NSFW.

يعد جمع صور NSFW مملاً ؛ إنها مهمة طويلة جدًا ومؤلمة تمامًا ، وهذا ما يفسر قلة عدد الصور.

مجموعة البيانات متاحة للتنزيل هنا . [تحذير: يحتوي على محتوى واضح]

فيما يلي جدول يحتوي على نتائج أولية لكل واجهة برمجة التطبيقات ولكل صورة في مجموعة البيانات.

المقاييس


يتم تقييم كل من المصنفات وفقًا للمقاييس المقبولة عمومًا:

إيجابي حقا: TP


إذا كان المصنف يستدعي شيئا NSFW وهو في الواقع NSFW.

السلبي الحقيقي: TN


إذا دعا المصنف شيء SFW ، وهو في الواقع SFW.

إيجابية كاذبة: FP


إذا كان المصنف يسمى شيئا NSFW ، وهذا هو في الواقع SFW.

سلبية كاذبة: FN


إذا كان المصنف يستدعي شيئا ما SFW ، لكنه كان في الواقع NSFW.



دقة


إذا قام النموذج بعمل تنبؤ ، فهل يمكن الوثوق به؟

دقة


إذا كان النموذج يقول أن الصورة هي NSFW ، فكم مرة يتم التنبؤ الصحيح؟

أذكر


إذا كانت جميع العينات هي NSFW ، إلى أي مدى تحددها؟

النتيجة F1


إنه مزيج من الخطأ والاستدعاء ، وغالبًا ما يشبه الدقة.



تم تقييم واجهات برمجة التطبيقات (APIs) التالية لضبط المحتوى:


الأداء حسب الفئة


أولاً ، قمت بتصنيف كل واجهة برمجة التطبيقات (API) عبر جميع فئات NSFW.

المواد الإباحية / الجنس


تعد واجهات برمجة تطبيقات Google و Sightengine جيدة حقًا هنا. كانوا الوحيدين الذين تعرفوا بشكل صحيح على جميع الصور الإباحية. نانونس والخوارزمية متخلفة قليلا برصيد 90 ٪. أظهرت Microsoft و Imagga أسوأ أداء في هذه الفئة.





الصور التي يسهل التعرف عليها إباحية بوضوح. تعرف جميع واجهات برمجة التطبيقات بشكل صحيح على الصور أعلاه. تنبأ معظمهم NSFW بثقة كبيرة جدا.



يصعب تحديد الصور التي تحتوي على كائنات مغلقة أو غير واضحة جزئيًا ، مما يجعل العمل صعبًا. في أسوأ الحالات ، ارتكب 11 نظامًا من أصل 12 خطأً في الصورة. تختلف فعالية التعرف على المواد الإباحية اختلافًا كبيرًا اعتمادًا على شدة الإباحية ومدى جودة المحتوى.

عري صريح


كان أداء واجهات برمجة التطبيقات (API) جيدًا بشكل مدهش مع وجود العديد من الصور في هذه الفئة ، مما يدل على معدل اكتشاف 100٪. حتى أقل واجهات برمجة التطبيقات أداءً (Clarifai و Algorithmia) أظهرت 90٪. كان تعريف العُرى موضوع النقاش دائمًا. كما يتضح من النتائج ، عادة ما تفشل الأنظمة في الحالات المشكوك في تحصيلها عندما يكون من المحتمل أن تكون الصورة لا تزال تغذي SFW.





في صور بسيطة ، عُري واضح بشكل واضح. أي شخص سوف ندعو لهم NSFW دون سؤال. لم يرتكب أي خطأ واجهة برمجة تطبيقات (API) واحدة ، وكان متوسط ​​النتيجة 0.99.



على الصور المثيرة للجدل ، كانت واجهات برمجة التطبيقات غير صحيحة. ربما السبب هو أن كل منهم لديه إعدادات الحساسية.

عري موحية


فاز Google مرة أخرى بمعدل اكتشاف 100 ٪. أداء Sightengine و Nanonets أفضل من غيرها مع 95 ٪ و 90 ٪ ، على التوالي. تتعرف الأنظمة الآلية على عُري توحي بنفس سهولة الوضوح. يرتكبون خطأ في الصور التي عادة ما تبدو مثل SFW ، مع وجود علامات قليلة على العري.





مرة أخرى ، لم يكن هناك خطأ في واجهة برمجة التطبيقات على صور NSFW الصريحة.



في العري موحية ، تباعدت واجهات برمجة التطبيقات. كما هو الحال في العري المطلق ، كان لديهم عتبات مختلفة من التسامح. أنا شخصياً لست متأكدًا مما إذا كنت ستتعرف على صور SFW هذه أم لا.

التقليد / الرسوم المتحركة الاباحية


أداء جميع واجهات برمجة التطبيقات بشكل جيد للغاية هنا ووجدت 100 ٪ أمثلة على تقليد الاباحية. وكان الاستثناء الوحيد هو Imagga ، التي فقدت صورة واحدة. أتساءل لماذا تعمل واجهات برمجة التطبيقات جيدًا في هذه المهمة؟ على ما يبدو ، من السهل على الخوارزميات تحديد الصور التي تم إنشاؤها بشكل مصطنع من الصور الطبيعية.





أظهرت جميع واجهات برمجة التطبيقات نتائج ممتازة ودرجات ثقة عالية.



الصورة الوحيدة التي أخطأت فيها Imagga ، يمكن تفسيرها على أنها ليست إباحية ، إذا كنت لا تنظر إليها لفترة طويلة.

تشريح


هذه واحدة من أصعب الفئات ، حيث كان متوسط ​​كفاءة الكشف من خلال واجهة برمجة التطبيقات أقل من 50 ٪. تفوقت شركة Clarifai و Sightengine على المنافسة من خلال اكتشاف 100٪ من الصور في هذه الفئة بشكل صحيح.





تعاملت واجهات برمجة التطبيقات مع الصور الطبية بشكل أفضل ، ولكن حتى 4 من 12 نظامًا ارتكبت الخطأ على أخف منها.



الصور الصعبة ليس لها شيء مشترك. ومع ذلك ، سوف يسمي الناس بسهولة هذه الصور الدموية. ربما يعني هذا أن سبب انخفاض الكفاءة هو عدم توفر البيانات المتاحة للتدريب.

صور آمنة


تعتبر الصور التي لا يمكن تحديدها على أنها NSFW آمنة. يعد جمع البيانات في حد ذاته أمرًا صعبًا ، لأن هذه الصور يجب أن تكون قريبة من NSFW حتى تقدر واجهة برمجة التطبيقات. يمكن للمرء أن يقول ما إذا كانت كل هذه الصور هي SFW أم لا. أظهرت Sightengine و Google أسوأ نتيجة ، وهو ما يفسر أدائها الممتاز في فئات أخرى. يسمونه ببساطة كل صور NSFW المشكوك فيها. من ناحية أخرى ، قامت Imagga بعمل جيد هنا لأنه لم يسم أي شيء NSFW. أداء X-Moderator جيد جدًا أيضًا.




روابط للصور الأصلية: SFW15 ، SFW12 ، SFW6 ، SFW4

يتم عرض بقع صغيرة فقط من الجلد على الصور التي يسهل التعرف عليها ، ويمكن للناس التعرف عليها بسهولة كـ SFW. نظام واحد أو اثنين فقط يتعرف عليها بشكل غير صحيح.


روابط للصور الأصلية: SFW17 ، SFW18 ، SFW10 ، SFW3

تظهر جميع صور SFW التي يصعب تحديدها مساحات أكبر من الجلد أو الأنيمي (تميل الأنظمة إلى اعتبار المواد الإباحية لأنيمي). تحسب معظم واجهات برمجة التطبيقات الصور ذات المساحة الكبيرة كـ SFW. والسؤال هو ، هل هذا SFW؟

المقارنة العامة


بالنظر إلى فعالية واجهة برمجة التطبيقات (API) في جميع فئات NSFW ، وكذلك فعاليتها في التعرف بشكل صحيح على SFW ، يمكننا أن نستنتج أن أفضل نتيجة F1 وأفضل متوسط ​​دقة لنظام Nanonets: إنه يعمل بشكل جيد في جميع الفئات. يُظهر نظام Google نتيجة جيدة بشكل استثنائي في فئات NSFW ، ولكن في كثير من الأحيان يصور الصور الآمنة كـ NSFW ، وبالتالي فقد تلقى غرامة على مقياس F1.







من قبل المطورين


قارنت أفضل 5 أنظمة للتأكد من دقتها ودرجة F1 لتقييم الاختلافات في أدائها. كلما كانت مساحة مخطط البتلة أكبر ، كان ذلك أفضل.

1. نانونات


نظام Nanonets لم يحتل المرتبة الأولى في أي فئة. ومع ذلك ، هذا هو الحل الأكثر توازنا. أضعف نقطة حيث لا يزال بإمكانك العمل عليها هي دقة التعرف على SFW. إنه حساس للغاية لأي منطقة مكشوفة من الجسم.



2. جوجل


تعد Google الأفضل في معظم فئات NSFW ، ولكنها الأسوأ في اكتشاف SFW. أريد أن أشير إلى أنني أخذت العينة للاختبار مع Google ، أي أنها "يجب أن تعرف" هذه الصور. يمكن أن يكون هذا سبب الأداء الجيد حقًا في معظم الفئات.



3. كلريفاي


تتألق Clarifai حقًا في تحديد التجزئة ، وقبل معظم واجهات برمجة التطبيقات الأخرى ، فإن النظام متوازن جيدًا ويعمل بشكل جيد في معظم الفئات. لكنها تفتقر إلى الدقة في تحديد العري الموحية والصور الإباحية.



4. س المشرف


X-Moderator هو واجهة برمجة تطبيقات أخرى متوازنة. بالإضافة إلى تشريح ، فإنه يحدد بوضوح معظم أنواع NSFW الأخرى. دقة 100 ٪ في تحديد SFW ، والذي يميز هذا النظام عن المنافسين.



5. البصر


مثل Google ، أظهر نظام Sightengine نتيجة مثالية تقريبًا في تحديد NSFW. ومع ذلك ، لم تتعرف على صورة واحدة للتشريح.



الأسعار


معيار آخر في اختيار API هو السعر. تتم مقارنة أسعار جميع الشركات أدناه. تقدم معظم واجهات برمجة التطبيقات تجربة مجانية مع استخدام محدود. Yahoo هي واجهة برمجة التطبيقات (API) المجانية الوحيدة تمامًا ، لكن يلزم استضافتها بمفردها ، ولا يتم تضمين واجهة برمجة التطبيقات هذه في هذا الجدول.



تقدم Amazon و Microsoft و Nanonets و DeepAI أدنى سعر قدره 1000 دولار شهريًا لمكالمات واجهة برمجة تطبيقات مليون.

ما هو أفضل API تعديل المحتوى؟


الطبيعة الذاتية لمحتوى NSFW تجعل من الصعب تحديد الفائز.

بالنسبة لوسائط التواصل الاجتماعي العامة التي تركز بشكل أكبر على توزيع المحتوى وتحتاج إلى مصنف متوازن ، فإنني أفضل استخدام واجهة برمجة التطبيقات Nanonets مع أعلى تصنيف F1 للمصنف.

إذا كان التطبيق يستهدف الأطفال ، فسأكون آمنًا واختر Google API لفعاليته النموذجية في جميع فئات NSFW ، حتى مع فقد بعض المحتوى العادي.





ما هو NSFW حقا؟




بعد أن قضيت الكثير من الوقت في هذه المشكلة ، أدركت شيئًا رئيسيًا واحدًا: في الواقع ، فإن تعريف NSFW غامض جدًا. سيكون لكل شخص تعريفه الخاص. ما يعتبر مقبولاً - يعتمد إلى حد كبير على ما تقدمه خدمتك. العري الجزئي مقبول في تطبيق المواعدة ، ولكن ليس سريرًا. وفي مجلة طبية ، على العكس من ذلك. المنطقة الرمادية حقًا هي عُري موحية ، حيث يستحيل الحصول على الإجابة الصحيحة.

Source: https://habr.com/ru/post/ar431628/


All Articles