O Amazon AI facilita a abordagem de conteúdo obsceno do usuário

Milhares de empresas usam o serviço de visão de máquina Rekognition da Amazon para procurar imagens e vídeos obscenos enviados por usuários




A controversa tecnologia Rekognition da Amazon já é usada para remover imagens de pênis de sites de alimentos. Pelo menos este é um exemplo de seu uso. Em algum momento, o serviço de entrega de alimentos Deliveroo, com sede em Londres, teve problemas de moderação de conteúdo. No caso de um problema alimentar, os clientes da Deliveroo enviam uma fotografia da refeição juntamente com uma reclamação. E muitas vezes eles fazem fotobomba com seus órgãos genitais. Ou faça fotos obscenas de comida. Sim mesmo.

E acontece que os funcionários da Deliveroo nem sempre querem lidar com esse conteúdo. Portanto, a empresa usa o Rekognition para reconhecer fotografias obscenas e as desfoca ou as remove antes que as pessoas as vejam.

Problema Deliveroo apresenta uma faceta um tanto estranha de um problema progressivamente mais complexo. De uma forma ou de outra, muitas empresas online confiam no conteúdo gerado pelo usuário. Nos últimos anos, estamos cada vez mais confrontados com a penetração neste conteúdo do lado sombrio da natureza humana. A moderação de conteúdo tornou-se uma prioridade, pois os sites são cada vez mais confrontados com materiais desagradáveis, como notícias falsas, violência, déficits, intimidação, retórica agressiva e outros conteúdos tóxicos criados pelos usuários. Se você é o Facebook, para resolver esse problema, você pode desenvolver sua própria IA ou contratar um exército de moderadores - ou fazer as duas coisas. No entanto, empresas menores com poucos recursos geralmente não possuem esse recurso. É aqui que o serviço de moderação de conteúdo da Amazon ajuda.

Este serviço faz parte do pacote de serviços de visão computacional Rekognition fornecido pelo Amazon Web Services. Ele foi muito criticado pela imprensa pelo fato de a empresa concordar em fornecer serviços de reconhecimento de rosto para o serviço de migração dos EUA. No site do Rekognition, você pode encontrar outros exemplos de uso do serviço para rastreamento - por exemplo, a capacidade de reconhecer números de carros obtidos de diferentes ângulos em um vídeo ou de rastrear o caminho de uma pessoa usando registros da câmera.

Talvez em busca de uma imagem mais positiva do serviço de visão por computador, a Amazon falou primeiro sobre o uso do Rekognition para supervisionar o conteúdo do usuário, a fim de eliminar a violência e a indecência. O serviço permite que você reconheça conteúdo inseguro ou desagradável em imagens e vídeos enviados para o site.

E esse negócio está crescendo. “O papel do conteúdo gerado pelo usuário está crescendo de forma explosiva de ano para ano - hoje já compartilhamos 2-3 fotos diariamente nas redes sociais com nossos amigos e parentes”, diz Swami Sivasubramanyan, vice-presidente da Amazon, Amazon. Shivasubramanyan diz que a Amazon começou a oferecer serviços de moderação de conteúdo em resposta a solicitações de clientes em 2017.

As empresas podem pagar pelo reconhecimento em vez de contratar pessoas para estudar imagens para download. Como outros serviços da AWS, ele funciona em um modelo de pagamento por uso e seu custo depende do número de imagens processadas pela rede neural.

Não é de surpreender que os serviços de namoro estejam entre os primeiros usuários do gerenciamento de conteúdo - eles precisam processar rapidamente as selfies carregadas nos perfis de usuário. A Amazon diz que os sites de namoro Coffee Meets Bagel e Shaadi usam esse serviço apenas para esse fim - como o site Portuguese Soul, que ajuda as pessoas a criar sites de namoro.

A IA não está apenas procurando por nudez. A rede neural foi treinada para reconhecer qualquer conteúdo duvidoso, incluindo imagens de armas ou violência, ou imagens geralmente desagradáveis. Aqui está o menu de classificação do site Rekognition :

Nudez explícita:

  • corpo nu;
  • representação gráfica de um corpo masculino nu;
  • imagem gráfica de um corpo feminino nu;
  • atividade sexual;
  • Demonstração de nudez ou atividade sexual
  • brinquedos para adultos.

Conteúdo suspeito:

  • Maiô ou roupa íntima feminina;
  • Calção de banho ou roupa interior para homem;
  • corpo parcialmente nu;
  • roupas francas.

Conteúdo que demonstra violência:

  • representação gráfica de violência ou sangue;
  • abuso físico;
  • violência armada;
  • armas;
  • causando dano a si mesmo.

Conteúdo visual perturbador:

  • corpos emaciados;
  • cadáveres;
  • pendurado.

Como isso funciona


Como tudo na AWS, o Rekognition é executado na nuvem. A empresa pode informar ao serviço que tipo de imagens ele precisa encontrar. Em seguida, ele alimenta as fotos e os vídeos recebidos dos usuários - que em muitos casos podem ser armazenados nos servidores da AWS de qualquer maneira.

A rede neural processa imagens, pesquisa esse conteúdo e anota quaisquer potencialmente desagradáveis. A rede neural produz metadados que descrevem o conteúdo das imagens, juntamente com uma porcentagem de confiança nos rótulos emitidos. Parece algo como isto:



Esses dados já são processados ​​pelo programa do lado do cliente, que decide, com base nas regras de negócios programadas, o que fazer com a imagem processada. Ele pode excluí-lo automaticamente, pular, desfocar parte dele ou enviá-lo ao moderador para revisão.

As redes neurais de processamento de imagem profunda têm muitas camadas. Cada um deles avalia dados que representam vários aspectos das imagens, realiza cálculos e envia o resultado para a próxima camada. Primeiro, a rede processa informações de baixo nível, como formulários básicos ou a presença de uma pessoa em uma imagem.

“Então, ela refina consistentemente os dados cada vez mais, as próximas camadas se tornam mais específicas e assim por diante”, explica Shivasubramanyan. Gradualmente, camada por camada, a rede neural determina o conteúdo das imagens com certeza cada vez maior.

O vice-presidente de IA da AWS, Matt Wood, diz que sua equipe está treinando modelos de visão computacional em milhões de imagens privadas e acessíveis ao público de diferentes conjuntos. Ele diz que a Amazon não usa imagens recebidas de usuários para esse fim.

Quadro a quadro


Alguns dos maiores clientes do Rekognition não usam esse serviço para moderar o conteúdo gerado pelo usuário. A Amazon diz que as principais empresas de mídia com enormes bibliotecas de vídeo digital desejam conhecer o conteúdo de cada quadro desses vídeos. A rede neural da Rekognition pode processar cada segundo de um vídeo, descrevê-lo usando metadados e sinalizar imagens potencialmente perigosas.

"Uma das tarefas que o aprendizado de máquina faz bem é entrar em vídeos ou imagens e fornecer contexto adicional", diz Wood. "Pode-se dizer que 'neste vídeo, uma mulher caminha ao longo da margem de um lago com um cachorro' ou 'um homem parcialmente vestido é retratado." Nesse modo, ele diz, a rede neural é capaz de reconhecer conteúdo perigoso, tóxico ou indecente em imagens com alta precisão.

E, no entanto, essa área de visão computacional ainda não atingiu sua maturidade. Os cientistas ainda estão descobrindo novas maneiras de otimizar os algoritmos de redes neurais para que possam reconhecer as imagens com ainda mais precisão e mais detalhes. "Ainda não atingimos um estado de lucros decrescentes", diz Wood.

Shivasubramanyan me disse que somente no mês passado a equipe que trabalhava com visão computacional reduziu em 68% o número de falsos positivos (quando a imagem foi considerada erroneamente perigosa) em 68% e o número de falsos negativos em 36%. "Temos a oportunidade de melhorar a precisão dessas APIs", diz ele.

Além da precisão, os clientes estão solicitando uma classificação mais detalhada das imagens. O site da AWS diz que o serviço fornece apenas a categoria principal e uma subcategoria de imagens não seguras. Portanto, por exemplo, o sistema pode divulgar que a imagem contém nudez como categoria principal e atos sexuais como subcategoria. A terceira subcategoria pode conter uma classificação do tipo de atividade sexual.

“Até agora, a máquina está propensa a fatos e funciona literalmente - ela dirá que 'isso é mostrado lá'”, diz Pietro Perona , professor de computação e sistemas neurais da Caltech, consultor da AWS. - Mas os cientistas gostariam de ir além dessa estrutura e relatar não apenas o que está descrito lá, mas também o que essas pessoas pensam que está acontecendo. Como resultado, essa área quer se desenvolver nessa direção - e não apenas fornecer uma lista do que é mostrado na figura. ”

E essas diferenças sutis podem ser importantes para a moderação do conteúdo. Se a imagem contém conteúdo potencialmente ofensivo ou não, pode depender das intenções das pessoas representadas lá.

Até as próprias definições de imagens "inseguras" e "abusivas" são bastante embaçadas. Eles podem mudar com o tempo e dependem da região geográfica. E o contexto é tudo, explica Perona. Imagens de violência são um bom exemplo.

"A violência pode ser inaceitável em um contexto, como a violência real na Síria", diz Perona, "mas aceitável em outro, como uma partida de futebol ou uma cena de um filme de Tarantino".

Assim como outros serviços da AWS, a Amazon não vende apenas ferramentas de moderação de conteúdo para outros: é seu próprio cliente. A empresa diz que usa esse serviço para classificar o conteúdo gerado pelo usuário em imagens e vídeos anexados às avaliações da loja.

Source: https://habr.com/ru/post/pt475886/


All Articles