O reconhecimento de imagens usando redes neurais está melhorando, mas até agora os pesquisadores não superaram algumas de suas deficiências fundamentais. Onde uma pessoa vê clara e claramente, por exemplo, uma bicicleta, até uma IA avançada e treinada pode ver um pássaro.
Freqüentemente, o motivo são os chamados "dados prejudiciais" (ou "elementos competitivos", ou "cópias maliciosas" ou ainda mais opções, pois os "exemplos adversários" não receberam uma tradução geralmente aceita). Esses são os dados que o classificador de rede neural engana, trazendo sinais de outras classes para ele - informações não importantes e não visíveis à percepção humana, mas necessárias para a visão de máquina.
Pesquisadores do Google publicaram um trabalho em 2015, onde ilustraram o problema com este exemplo:
Um gradiente "prejudicial" foi aplicado à imagem do panda. A pessoa na imagem resultante, é claro, continua vendo o panda, e a rede neural o reconhece como um gibão, já que os sinais de outra classe foram especialmente misturados nas partes da imagem pelas quais a rede neural aprendeu a identificar os pandas.
Em áreas onde a visão de máquina deve ser extremamente precisa, e os erros, os hackers e as ações dos invasores podem ter conseqüências terríveis, dados nocivos são um sério obstáculo ao desenvolvimento. O progresso na luta é lento, e o GoogleAI (a unidade de pesquisa de IA do Google) decidiu atrair o poder da comunidade e organizar uma competição.
A empresa oferece a todos que criem seus próprios mecanismos de proteção contra dados nocivos, ou vice-versa - imagens perfeitamente estragadas que nenhum algoritmo reconhece corretamente. Quem puder fazer o melhor receberá um grande prêmio em dinheiro (o tamanho ainda não foi anunciado).
A competição começará aquecendo e executando os primeiros algoritmos em ataques simples com dados prejudiciais. O Google escolheu três conjuntos de dados com tipos comuns e bem estudados de trapaça. Os participantes devem criar algoritmos que reconheçam todas as imagens propostas neles sem um único erro ou resposta vaga.
Como as condições nas quais os dados nocivos nos conjuntos de dados de aquecimento são baseados e conhecidas e acessíveis, os organizadores esperam que os participantes criem facilmente algoritmos altamente personalizados especificamente para esses ataques. Portanto, eles alertam - a mais óbvia das soluções existentes não tem uma única chance no segundo turno. Começa após o aquecimento e já haverá uma parte competitiva, onde os participantes serão divididos em atacantes e defensores.
A competição será construída em torno do reconhecimento de fotos com pássaros e bicicletas. Primeiro, cada imagem proposta será assistida por pessoas e emitirá um veredicto anônimo que é retratado lá. Uma imagem só entra no conjunto de dados quando todos os juízes concordam que mostra claramente um pássaro ou uma bicicleta, e não há sinais de confusão óbvia (por exemplo, pássaros em bicicletas ou apenas padrões e fotografias abstratos).
Acima são exemplos de imagens adequadas, abaixo são inadequadosOs participantes defensores devem criar um algoritmo que, sem um único erro, distribua as figuras em três categorias - "pássaros", "bicicletas" e "indefinido".Ou seja, no estágio competitivo - diferentemente do aquecimento - o algoritmo pode se abster de responder, mas, de acordo com os resultados do processamento do conjunto de dados, não mais de 20% das imagens devem ficar indefinidas.
Os requisitos técnicos para os algoritmos são os seguintes:
- 80% das imagens devem ser reconhecidas. Não são permitidos erros. Se os participantes já ingressarem na fase competitiva, deverão processar com êxito os 2 conjuntos de dados anteriores.
- A largura de banda deve ter pelo menos 1 imagem por minuto no Tesla P100.
- O sistema deve ser fácil de ler, escrito em TensorFlow, PyTorch, Caffe ou NumPy. Sistemas muito confusos e difíceis de reproduzir podem ser removidos da competição por decisão dos juízes.
Se o algoritmo de proteção durar 90 dias sem erros, seus criadores removerão metade do prêmio.
Os invasores obtêm acesso a modelos não treinados e a todo o código fonte dos algoritmos.Sua tarefa é criar uma imagem que todos os juízes aceitem como uma imagem inequívoca de uma bicicleta ou pássaro, e o algoritmo tomará a decisão errada. O Google coletará todas as imagens propostas para cada semana, depois as enviará para inspeção e somente as incluirá nos conjuntos de dados.
Se os invasores conseguirem enganar o algoritmo que lidou com as tarefas anteriores, eles receberão dinheiro da segunda metade do prêmio. Se várias equipes obtiverem sucesso, o dinheiro será dividido entre si.
A competição não tem prazos claros e durará até que o melhor algoritmo de proteção apareça. Segundo os organizadores, seu objetivo não é apenas um sistema difícil de contornar, mas uma rede neural completamente imune a ataques. As diretrizes para participação podem ser encontradas na
página do projeto no Github .