Aprendizagem pode ser uma revisão indecidível

Este artigo é que minha recontagem gratuita de Aprendizagem pode ser indecidível, Shai Ben-David, et al.


Recentemente, em Habré, o artigo Machine learning enfrentou um problema matemático não resolvido , que é uma tradução do artigo de Shay Ben-David no artigo da Nature News com o mesmo nome. No entanto, devido à natureza do tópico e à brevidade da revisão original, permaneceu completamente incompreensível para mim o que estava no artigo. Conhecendo Shai Ben-David, como autor do excelente livro "Entendendo o aprendizado de máquina: da teoria aos algoritmos", fiquei interessado neste tópico, me familiarizei com este trabalho e tentei delinear os principais pontos aqui.


Devo dizer imediatamente que o artigo é bastante complicado e, talvez, tenha perdido alguns pontos importantes, mas minha revisão será mais completa do que a que já está em Habré.


Algumas palavras sobre a aprendizagem do PAC em geral


A primeira coisa que me confundiu em uma revisão da Nature News foi que o problema de aprendizagem em si foi apresentado como algo completamente novo. De fato, esse é um problema longo e relativamente bem estudado.


Alguns conceitos básicos para aqueles que não estão familiarizados com a pergunta

O risco é uma função de y, haty- o valor real e previsto da variável de destino, que reflete o quão errado estávamos em nossa previsão. Um valor mais baixo reflete um erro menor. O exemplo mais simples para um problema de classificação é uma função de indicador.  mathbb1(y neq haty). Para regressão, este será o desvio padrão  sqrty2 haty2. Obviamente, pode haver opções mais complexas. Outro nome para esse conceito é a função de perda.


Risco médio - o valor médio do risco em todo o espaço de dados de entrada. Devido ao fato de que esse espaço geralmente é infinito (por exemplo, para recursos reais) ou exponencialmente grande (por exemplo, um espaço de imagens de tamanho 1024x1024 e valores de pixel de 0 a 255), não podemos estimar diretamente esse valor. No entanto, existem métodos para estimar essa quantidade que não entraremos agora. É esse indicador que, em última análise, queremos minimizar. Às vezes, esse indicador também é chamado de erro de generalização.


Risco empírico é o valor médio do risco em um determinado conjunto de dados empíricos selecionado em todo o espaço de dados de entrada. Geralmente, nossos algoritmos de aprendizado de máquina estão envolvidos na minimização desse valor.


A tarefa do aprendizado de máquina é construir uma solução (função) com base no conjunto de dados empíricos disponíveis que daria um valor mínimo de risco médio.


Existe uma teoria da aprendizagem provavelmente quase correta (provavelmente uma aprendizagem aproximadamente correta, PAC ).


Definição simplificada de um algoritmo de aprendizado de máquina treinado por PAC

O algoritmo A que constrói, usando uma amostra empírica X de tamanho n, alguma função h que restaura o valor da variável de destino é treinado pelo PAC se houver algum limite  epsilone confiança  deltaexiste um tamanho tão grande da amostra de treinamento n que, para a função h aprendida, a seguinte condição é atendida: a probabilidade de que o valor médio do risco exceda  epsilonmenos que 1 delta.


Podemos entendê-lo desta maneira: tendo selecionado alguns de nossos requisitos para a função h , do ponto de vista de seu valor médio de risco, saberemos que existe um tamanho tão grande do conjunto de dados (selecionado, obviamente, independentemente e aleatoriamente de todo o espaço) que, ao aprender sobre ele, Atingiremos esses requisitos.


Essa teoria remonta aos anos 80 do século passado. No entanto, ele não fornece nenhum indicador mensurável que reflita a capacidade de aprendizado de um algoritmo. Mas essa resposta é dada pela teoria do aprendizado estatístico ( teoria do VC ) já desenvolvida por V. Vapnik e A. Chervonenkis. Esta teoria é baseada em um indicador numérico da dimensão VC. A dimensão VC é uma estimativa combinatória do tamanho máximo de dados que o algoritmo pode dividir em duas partes de todas as maneiras possíveis.


Exemplo

Suponha que tenhamos um algoritmo que construa um hiperplano de separação em um espaço n-dimensional. Considere um espaço unidimensional: dois pontos nesse espaço sempre podem ser divididos, mas três não podem mais ser divididos, o que significa que VC = 2. Considere um espaço bidimensional: três pontos são sempre divididos em duas classes, mas quatro pontos não podem ser divididos por todos os meios possíveis, portanto, VC = 3.


De fato, pode ser estritamente mostrado que o VC para uma classe de hiperplanos em um espaço n-dimensional é n+1.


O principal teorema da teoria da CV, em uma das formulações possíveis, prova o fato de que, se a dimensão VC do algoritmo for finita, ela será treinada pelo PAC. Além disso, a dimensão VC é um indicador de quão rapidamente, com o aumento do tamanho da amostra empírica, o valor do risco empírico converge para o valor do risco médio.


Assim, o problema do aprendizado de máquina dos algoritmos de aprendizado de máquina per se é relativamente bem estudado e possui uma base matemática rigorosa.


Qual é, então, o assunto de um artigo na Nature?


Os autores escrevem que o problema com a teoria do PAC, baseada em várias dimensões da dimensão, é que ela não é universal.


Vários indicadores de dimensão da teoria do PAC
DesafioDimensão
Classificação bináriaDimensão VC
Classificação multi-classedimensão de Natarajan
RegressãoQuebra de gordura
......

Os autores dão um exemplo interessante de um problema cuja declaração em si é projetada para que o sucesso não possa ser formulado como aprendizado do PAC. Os autores escrevem:


Imagine que temos um site na Internet no qual exibimos anúncios. Defina X como o conjunto de todos os visitantes em potencial deste site. A publicidade é selecionada em um determinado pool de publicidade. Condicionalmente, suponha que cada anúncio do pool seja direcionado a alguma categoria de usuários: anúncios de esportes para fãs de esportes etc. A tarefa é colocar exatamente o tipo de publicidade mais relevante para os visitantes do site .


O problema aqui é que não sabemos realmente quem visitará o site no futuro. Para resumir, a declaração desse problema pode ser descrita da seguinte maneira:


Tendo um conjunto de recursos Fsobre o conjunto Xencontre essa função Fbestpara que sua métrica sobre a distribuição desconhecida Pfoi máximo. Além disso, é necessário encontrar essa função com base em um conjunto limitado de quantidades independentes distribuídas de forma idêntica P


Treinamento EMX


Shai Ben-David e seus colegas introduzem um novo conceito - E stimating the M a X imum (aprendizado EMX), que apenas fornece critérios de aprendizado para esses problemas de maximização:


Para conjunto de recursos Fconjuntos de entrada Xe distribuição desconhecida Ppara qualquer número d=d( epsilon, delta)função G(s)é ( epsilon, delta)-EMX-treinado se para qualquer distribuição P:


PrS simPd[ mathbbEP(G(S)) leq suph emF mathbbE(h) epsilon] leq delta


Essa definição de aprendizado é, sem dúvida, mais geral que o conceito de PAC.


Então, onde está o continuum e o "problema não resolvido da matemática"?


Os autores provam o seguinte teorema:
Rotatividade da EMX Fa respeito Pindependente do sistema de axiomas Zermelo - Frenkel com o axioma de escolha (a seguir denominado ZFC).


Em outras palavras, usando axiomas matemáticos padrão, não podemos, no caso geral, provar a possibilidade de encontrar uma solução para o problema de aprendizado do EMX ou provar a impossibilidade de encontrar essa solução.


Os autores também mostram que, para o caso geral de aprendizado EMX, não há análogo da dimensão VC (ou qualquer outra dimensão) que seria finito no caso da mensurabilidade EMX e vice-versa, a aprendizabilidade EMX seguiria sua finitude. Mais rigorosamente, eles o formulam da seguinte maneira:


Existe uma constante cque se assumirmos a consistência do ZFC, essa propriedade não existe A(X,Y)isso para alguns $ inline $ m, M> c $ inline $ para qualquer Xe conjunto de recursos Fseria realizado:


  • Se A(X,Y)verdade então (1/3,1/3)complexidade do aprendizado EMX Fnão excede M;
  • Se A(X,Y)falso então (1/3,1/3)complexidade do aprendizado EMX Fpelo menos m;

Pelo contrário, isso é verdade para, por exemplo, a dimensão VC, pois para A(X,Y)igual VC leqdserá essencialmente uma formulação do principal teorema da teoria da VC.


Conclusão


A mensagem do trabalho está, de fato, pouco relacionada às questões práticas do aprendizado de máquina, ou mesmo às questões teóricas da teoria do aprendizado estatístico. Pareceu-me que existem dois pensamentos principais no trabalho:


  • Uma bela conexão entre o aprendizado EMX e os teoremas de Gödel;
  • A impossibilidade fundamental de criar uma caracterização universal do aprendizado (como a dimensão VC) para a classe geral de problemas de aprendizado de máquina.

Ao mesmo tempo, eu pessoalmente não gosto do título "O aprendizado de máquina encontrou um problema matemático não resolvido", usado na tradução de uma revisão deste artigo . Na minha opinião, este é um clickbait absoluto, além disso, simplesmente não corresponde à realidade. O trabalho original não significa que alguém tenha encontrado alguma coisa. O aprendizado de máquina e a teoria do PAC funcionaram e continuam a funcionar. É apontado que a teoria do PAC não pode ser generalizada para algumas afirmações particulares do problema de aprendizado de máquina, são encontradas conexões interessantes com os teoremas de Gödel, mas nenhuma palavra sobre algum problema não resolvido que o aprendizado de máquina encontrou.

Source: https://habr.com/ru/post/pt484306/


All Articles