Amazon AI facilite la lutte contre le contenu obscène de l'utilisateur

Des milliers d'entreprises utilisent le service de vision industrielle Rekognition d'Amazon pour rechercher des images et des vidéos obscènes téléchargées par les utilisateurs




La technologie controversée Rekognition d'Amazon est déjà utilisée pour supprimer les images de pénis des sites Web de nourriture. C'est du moins un exemple de son utilisation. À un moment donné, le service de livraison de nourriture basé à Londres, Deliveroo, a rencontré des problèmes de modération du contenu. En cas de problème alimentaire, les clients de Deliveroo envoient une photo du repas accompagnée d'une réclamation. Et souvent, ils font des photobombes avec leurs organes génitaux. Ou faites des photos obscènes de nourriture. Oui, vraiment.

Et il s'avère que les employés de Deliveroo ne veulent pas toujours traiter un tel contenu. Par conséquent, la société utilise Rekognition pour reconnaître les photographies obscènes et les brouille ou les supprime avant qu'une personne ne les voie.

Problème Deliveroo présente une facette quelque peu étrange d'un problème de complexité qui augmente progressivement. D'une manière ou d'une autre, de nombreuses sociétés en ligne s'appuient sur du contenu généré par les utilisateurs. Ces dernières années, nous sommes de plus en plus confrontés à la pénétration dans ce contenu du côté obscur de la nature humaine. La modération du contenu est devenue une priorité, car les sites Web sont de plus en plus confrontés à des documents désagréables tels que les fausses nouvelles, la violence, les diphtèques, l'intimidation, la rhétorique agressive et d'autres contenus toxiques créés par les utilisateurs. Si vous êtes Facebook, pour résoudre ce problème, vous pouvez développer votre propre IA ou embaucher une armée de modérateurs - ou faire les deux. Cependant, les petites entreprises disposant de peu de ressources n'ont souvent pas cette capacité. C'est là que le service de modération de contenu d'Amazon vient à leur aide.

Ce service fait partie du package de services de vision par ordinateur Rekognition fourni par Amazon Web Services. Il a été beaucoup critiqué dans la presse pour le fait que la société a accepté de fournir des services de reconnaissance faciale pour le service de migration américain. Sur le site Web Rekognition, vous pouvez trouver d'autres exemples d'utilisation du service pour le suivi - par exemple, la capacité de reconnaître les numéros de voiture pris sous différents angles sur une vidéo, ou de suivre le chemin d'une personne à l'aide des enregistrements de la caméra.

Peut-être à la recherche d'une image plus positive du service de vision par ordinateur, Amazon a d'abord parlé d'utiliser Rekognition pour superviser le contenu des utilisateurs afin d'éliminer la violence et l'indécence. Le service vous permet de reconnaître le contenu dangereux ou désagréable sur les images et vidéos téléchargées sur le site.

Et cette entreprise se développe. «Le rôle du contenu généré par les utilisateurs augmente de manière explosive d'année en année - aujourd'hui, nous partageons déjà 2 à 3 photos par jour sur les réseaux sociaux avec nos amis et nos proches», me dit Swami Sivasubramanyan, vice-président d'Amazon, Amazon. Shivasubramanyan dit qu'Amazon a commencé à offrir des services de modération de contenu en réponse aux demandes des clients en 2017.

Les entreprises peuvent payer pour Rekognition au lieu d'embaucher des personnes pour étudier les images téléchargeables. Comme d'autres services avec AWS, il fonctionne sur un modèle de paiement à l'utilisation, et son coût dépend du nombre d'images traitées par le réseau neuronal.

Il n'est pas surprenant que les services de rencontres aient été parmi les premiers utilisateurs de la gestion de contenu - ils doivent traiter rapidement les selfies téléchargés dans les profils utilisateur. Amazon dit que les sites de rencontres Coffee Meets Bagel et Shaadi utilisent ce service juste à cette fin - comme le site Portuguese Soul, qui aide les gens à créer des sites de rencontres.

L'IA ne recherche pas seulement la nudité. Le réseau neuronal a été formé pour reconnaître tout contenu douteux, y compris les images d'armes ou de violence, ou les images généralement désagréables. Voici le menu de classification du site Rekognition :

Nudité explicite:

  • corps nu;
  • représentation graphique d'un corps masculin nu;
  • image graphique d'un corps féminin nu;
  • activité sexuelle;
  • Démonstration de nudité ou d'activité sexuelle
  • jouets pour adultes.

Contenu suspect:

  • Maillot de bain ou sous-vêtements pour femmes;
  • maillots de bain ou sous-vêtements de natation pour hommes;
  • corps partiellement nu;
  • vêtements francs.

Contenu démontrant la violence:

  • représentation graphique de la violence ou du sang;
  • violence physique;
  • violence armée;
  • armes;
  • s'infliger des blessures.

Contenu visuel inquiétant:

  • corps émaciés;
  • cadavres;
  • pendaison.

Comment ça marche


Comme tout sur AWS, Rekognition s'exécute dans le cloud. L'entreprise peut indiquer au service le type d'images à rechercher. Ensuite, il alimente les photos et vidéos reçues des utilisateurs - qui dans de nombreux cas peuvent être stockées sur les serveurs AWS de toute façon.

Le réseau de neurones traite les images, recherche ce contenu et note les images potentiellement désagréables. Le réseau neuronal produit des métadonnées décrivant le contenu des images, ainsi qu'un pourcentage de confiance dans les étiquettes émises. Cela ressemble à ceci:



Ces données sont déjà traitées par le programme côté client, qui décide, sur la base des règles métier programmées, de ce qu'il faut faire de l'image traitée. Il peut le supprimer automatiquement, l'ignorer, en estomper une partie ou l'envoyer au modérateur pour examen.

Les réseaux neuronaux de traitement d'images profondes comportent de nombreuses couches. Chacun d'eux évalue des données représentant divers aspects des images, effectue des calculs et envoie le résultat à la couche suivante. Premièrement, le réseau traite des informations de bas niveau telles que les formulaires de base ou la présence d'une personne dans une image.

«Ensuite, elle affine de plus en plus les données, les couches suivantes deviennent plus spécifiques, etc.», explique Shivasubramanyan. Petit à petit, couche par couche, le réseau neuronal détermine le contenu des images avec une certitude toujours croissante.

Matt Wood, vice-président d'AWS, affirme que son équipe forme des modèles de vision par ordinateur sur des millions d'images privées et accessibles au public à partir de plusieurs ensembles. Il dit qu'Amazon n'utilise pas les images reçues des utilisateurs à cette fin.

Image par image


Certains des plus grands clients Rekognition n'utilisent pas ce service pour modérer le contenu généré par les utilisateurs. Amazon affirme que les grandes sociétés de médias disposant d'énormes bibliothèques de vidéos numériques veulent connaître le contenu de chaque image de ces vidéos. Le réseau de neurones Rekognition peut traiter chaque seconde d'une vidéo, la décrire à l'aide de métadonnées et signaler des images potentiellement dangereuses.

«L'une des tâches que le machine learning accomplit bien est d'entrer dans des vidéos ou des images et de fournir un contexte supplémentaire», me dit Wood. «Cela peut dire que« dans cette vidéo, une femme marche le long d'un lac avec un chien »ou« un homme partiellement habillé est représenté. » Dans ce mode, dit-il, le réseau neuronal est capable de reconnaître avec une grande précision le contenu dangereux, toxique ou indécent dans les images.

Et pourtant, ce domaine de la vision par ordinateur n'a pas encore atteint sa maturité. Les scientifiques découvrent toujours de nouvelles façons d'optimiser les algorithmes des réseaux de neurones afin de pouvoir reconnaître les images de manière encore plus précise et plus détaillée. «Nous n'avons pas encore atteint un état de baisse des bénéfices», explique Wood.

Shivasubramanyan m'a dit que le mois dernier, l'équipe travaillant sur la vision par ordinateur avait réduit le nombre de faux positifs (lorsque l'image était considérée à tort comme dangereuse) de 68% et le nombre de faux négatifs de 36%. «Nous avons la possibilité d'améliorer la précision de ces API», dit-il.

En plus de la précision, les clients demandent une classification plus détaillée des images. Le site Web AWS indique que le service fournit uniquement la catégorie principale et une sous-catégorie d'images dangereuses. Par conséquent, par exemple, le système peut indiquer que l'image contient la nudité comme catégorie principale et les actes sexuels comme sous-catégorie. La troisième sous-catégorie peut contenir une classification du type d'activité sexuelle.

"Jusqu'à présent, la machine est sujette aux faits et fonctionne littéralement - elle vous dira que" cela est montré là-bas ", a déclaré Pietro Perona , professeur d'informatique et de systèmes neuronaux de Caltech, un conseiller d'AWS. - Mais les scientifiques voudraient aller au-delà de ce cadre et rapporter non seulement ce qui y est décrit, mais aussi ce que ces gens pensent qu'il se passe. En conséquence, cette zone veut se développer dans cette direction - pas seulement donner une liste de ce qui est montré dans l'image. "

Et de telles différences subtiles peuvent être importantes pour la modération du contenu. Le fait que l'image contienne ou non un contenu potentiellement offensant peut dépendre des intentions des personnes qui y sont représentées.

Même les définitions mêmes des images «dangereuses» et «abusives» sont assez floues. Ils peuvent changer avec le temps et dépendre de la région géographique. Et le contexte est tout, explique Perona. Les images de violence en sont un bon exemple.

"La violence peut être inacceptable dans un contexte, comme la vraie violence en Syrie", dit Perona, "mais acceptable dans un autre, comme un match de football ou une scène d'un film de Tarantino."

Comme pour les autres services AWS, Amazon ne vend pas seulement des outils de modération de contenu à d'autres: c'est son propre client. La société affirme utiliser ce service pour trier le contenu généré par les utilisateurs en images et vidéos jointes aux avis sur les magasins.

Source: https://habr.com/ru/post/fr475886/


All Articles