Miles de empresas utilizan el servicio de visión artificial Rekognition de Amazon para buscar imágenes y videos obscenos cargados por los usuarios

La controvertida tecnología Rekognition de Amazon ya se usa para eliminar imágenes de pene de sitios web de alimentos. Al menos este es un ejemplo de su uso. En algún momento, el servicio de entrega de alimentos con sede en Londres Deliveroo se encontró con problemas de moderación de contenido. En caso de un problema alimentario, los clientes de Deliveroo envían una fotografía de la comida junto con una queja. Y a menudo hacen fotobombas con sus genitales. O hacer fotos obscenas de comida. Si de verdad.
Y resulta que los empleados de Deliveroo no siempre quieren lidiar con dicho contenido. Por lo tanto, la compañía usa Rekognition para reconocer fotografías obscenas y las difumina o elimina antes de que una persona las vea.
Problema Deliveroo presenta una faceta algo extraña de un problema progresivamente más complejo. De una forma u otra, muchas compañías en línea confían en el contenido generado por el usuario. En los últimos años, nos enfrentamos cada vez más a la penetración en este contenido del lado oscuro de la naturaleza humana. La moderación de contenido se ha convertido en una prioridad, ya que los sitios web se enfrentan cada vez más a materiales desagradables como noticias falsas, violencia, diffeks, intimidación, retórica agresiva y otros contenidos tóxicos creados por los usuarios. Si eres Facebook, para resolver este problema puedes desarrollar tu propia IA o contratar un ejército de moderadores, o hacer ambas cosas. Sin embargo, las empresas más pequeñas con pocos recursos a menudo no tienen esta capacidad. Aquí es donde el servicio de moderación de contenido de Amazon viene en su ayuda.
Este servicio es parte del paquete de servicios de visión por computadora Rekognition proporcionado por Amazon Web Services. Fue muy
criticado en la prensa por el hecho de que la compañía
acordó proporcionar servicios de
reconocimiento facial para el servicio de migración de Estados Unidos. En el sitio web de Rekognition, puede encontrar otros ejemplos del uso del servicio para el seguimiento, por ejemplo, la capacidad de reconocer los números de automóviles tomados desde diferentes ángulos en un video, o para
rastrear el
camino de una persona usando los registros de la cámara.
Quizás en busca de una imagen más positiva del servicio de visión por computadora, Amazon primero habló sobre el uso de Rekognition para monitorear el contenido del usuario con el fin de eliminar la violencia y la indecencia. El servicio le permite reconocer contenido inseguro o desagradable en imágenes y videos cargados en el sitio.
Y este negocio está creciendo. "El papel del contenido generado por el usuario está creciendo de manera explosiva de año en año; hoy ya compartimos 2-3 imágenes todos los días en las redes sociales con nuestros amigos y familiares", me dice Swami Sivasubramanyan, vicepresidente de Amazon, Amazon. Shivasubramanyan dice que Amazon comenzó a ofrecer servicios de moderación de contenido en respuesta a las solicitudes de los clientes en 2017.
Las empresas pueden pagar por Rekognition en lugar de contratar personas para estudiar imágenes descargables. Al igual que otros servicios con AWS, funciona en un modelo de pago por uso y su
costo depende de la cantidad de imágenes procesadas por la red neuronal.
No es sorprendente que los servicios de citas se encuentren entre los primeros usuarios de la administración de contenido: necesitan procesar rápidamente los selfies cargados en los perfiles de usuario. Amazon dice que los sitios de citas Coffee Meets Bagel y Shaadi usan este servicio solo para este propósito, al igual que el sitio Soul portugués, que ayuda a las personas a crear sitios de citas.
AI no solo busca desnudos. La red neuronal fue entrenada para reconocer cualquier contenido dudoso, incluidas imágenes de armas o violencia, o imágenes generalmente desagradables. Aquí está el menú de clasificación del
sitio de Rekognition :
Desnudez explícita:
- cuerpo desnudo
- representación gráfica de un cuerpo masculino desnudo;
- imagen gráfica de un cuerpo femenino desnudo;
- actividad sexual
- Demostración de desnudos o actividad sexual.
- Juguetes para adultos.
Contenido sospechoso:
- Traje de baño o ropa interior para mujeres;
- bañador o ropa interior para hombres;
- cuerpo parcialmente desnudo;
- ropa sincera
Contenido que demuestra violencia:
- representación gráfica de violencia o sangre;
- abuso físico
- violencia armada;
- armas
- infligirse lesiones a uno mismo.
Contenido visual perturbador:
- cuerpos demacrados;
- cadáveres
- colgando
Como funciona
Como todo en AWS, Rekognition se ejecuta en la nube. La compañía puede decirle al servicio qué tipo de imágenes necesita encontrar. Luego, alimenta las fotos y videos recibidos de los usuarios, que en muchos casos se pueden almacenar en los servidores de AWS de todos modos.
La red neuronal procesa imágenes, busca este contenido y toma nota de las potencialmente desagradables. La red neuronal produce metadatos que describen el contenido de las imágenes, junto con un porcentaje de confianza en las etiquetas emitidas. Se parece a esto:

Estos datos ya son procesados por el programa del lado del cliente, que decide, en base a las reglas comerciales programadas, qué hacer con la imagen procesada. Puede eliminarlo automáticamente, omitir, desenfocar parte de él o enviarlo al moderador para su revisión.
Las redes neuronales de procesamiento de imágenes profundas tienen muchas capas. Cada uno de ellos evalúa datos que representan varios aspectos de las imágenes, realiza cálculos y envía el resultado a la siguiente capa. Primero, la red procesa información de bajo nivel como formas básicas o la presencia de una persona en una imagen.
"Luego, ella refina constantemente los datos cada vez más, las siguientes capas se vuelven más específicas, y así sucesivamente", explica Shivasubramanyan. Gradualmente, capa por capa, la red neuronal determina el contenido de las imágenes con una certeza cada vez mayor.
El vicepresidente de inteligencia artificial de AWS, Matt Wood, dice que su equipo está entrenando modelos de visión por computadora en millones de imágenes privadas y de acceso público de diferentes conjuntos. Él dice que Amazon no utiliza imágenes recibidas de los usuarios para este propósito.
Cuadro por cuadro
Algunos de los mayores clientes de Rekognition no utilizan este servicio para moderar contenido generado por el usuario. Amazon dice que las principales compañías de medios con enormes bibliotecas de videos digitales quieren saber el contenido de cada cuadro de estos videos. La red neuronal Rekognition puede procesar cada segundo de un video, describirlo usando metadatos y marcar imágenes potencialmente peligrosas.
"Una de las tareas que el aprendizaje automático hace bien es entrar en videos o imágenes y proporcionar un contexto adicional", me dice Wood. "Puede decir que 'en este video, una mujer camina a lo largo de la orilla de un lago con un perro' o 'se representa a un hombre parcialmente vestido'". En este modo, dice, la red neuronal puede reconocer contenido peligroso, tóxico o indecente en imágenes con alta precisión.
Y sin embargo, esta área de visión por computadora aún no ha alcanzado su madurez. Los científicos aún están descubriendo nuevas formas de optimizar los algoritmos de redes neuronales para que puedan reconocer imágenes aún con mayor precisión y con más detalle. "Todavía no hemos alcanzado un estado de disminución de las ganancias", dice Wood.
Shivasubramanyan me dijo que solo el mes pasado el equipo que trabajaba en visión artificial redujo la cantidad de falsos positivos (cuando la imagen se consideró erróneamente peligrosa) en un 68%, y la cantidad de falsos negativos en un 36%. "Tenemos la oportunidad de mejorar la precisión de estas API", dice.
Además de la precisión, los clientes solicitan una clasificación más detallada de las imágenes. El sitio web de AWS dice que el servicio proporciona solo la categoría principal y una subcategoría de imágenes inseguras. Por lo tanto, por ejemplo, el sistema puede dar a conocer que la imagen contiene desnudos como categoría principal y actos sexuales como subcategoría. La tercera subcategoría puede contener una clasificación del tipo de actividad sexual.
"Hasta ahora, la máquina es propensa a los hechos y funciona literalmente: le dirá que 'esto se muestra allí'", dijo
Pietro Perona , profesor de informática y sistemas neuronales de Caltech, asesor de AWS. - Pero a los científicos les gustaría ir más allá de este marco y reportar no solo lo que se representa allí, sino también lo que estas personas piensan que está sucediendo. Como resultado, esta área quiere desarrollarse en esta dirección, no solo dar una lista de lo que se muestra en la imagen ”.
Y tales diferencias sutiles pueden ser importantes para la moderación de contenido. Si la imagen contiene contenido potencialmente ofensivo o no, puede depender de las intenciones de las personas representadas allí.
Incluso las definiciones de imágenes "inseguras" y "abusivas" son bastante borrosas. Pueden cambiar con el tiempo y dependen de la región geográfica. Y el contexto lo es todo, explica Perona. Las imágenes de violencia son un buen ejemplo.
"La violencia puede ser inaceptable en un contexto, como la violencia real en Siria", dice Perona, "pero aceptable en otro, como un partido de fútbol o una escena de una película de Tarantino".
Al igual que con otros servicios de AWS, Amazon no solo vende herramientas de moderación de contenido a otros: es su propio cliente. La compañía dice que usa este servicio para clasificar el contenido generado por el usuario en imágenes y videos que se adjuntan a las reseñas de la tienda.