Olá Habr! Apresento a você a tradução do artigo
"As limitações do aprendizado de máquina", de Matthew Stewart.
A maioria das pessoas que lê este artigo provavelmente conhece o aprendizado de máquina e os algoritmos correspondentes usados para classificar ou prever resultados com base em dados. No entanto, é importante entender que o aprendizado de máquina não é a solução para todos os problemas. Dada a utilidade do aprendizado de máquina, pode ser difícil aceitar que, às vezes, essa não seja a melhor solução para o problema.
O aprendizado de máquina é um ramo da inteligência artificial que revolucionou o mundo como o conhecemos na última década. A explosão de informações levou à coleta de grandes quantidades de dados, especialmente por grandes empresas como Facebook e Google. Essa quantidade de dados, combinada com o rápido desenvolvimento da potência do processador e da paralelização do computador, torna relativamente fácil o recebimento e o estudo de grandes quantidades de dados.
Atualmente, a hipérbole do aprendizado de máquina e da inteligência artificial é onipresente. Talvez isso esteja correto, dado que o potencial para esta área é enorme. Nos últimos anos, o número de agências de consultoria em IA aumentou e, de acordo com o Indeed, o número de empregos relacionados à IA aumentou 100% entre 2015 e 2018.
Em dezembro de 2018, a Forbes descobriu que 47% das empresas tinham pelo menos uma capacidade de usar a IA em seus processos de negócios, e o relatório da Deloitte diz que a taxa de penetração de software corporativo com serviços de desenvolvimento de IA e IA baseados em nuvem integrados chegará a aproximadamente 87 e 83 por cento, respectivamente. Esses números são impressionantes - se você planeja mudar sua carreira em um futuro próximo, a IA parece ser uma boa área.
Tudo parece lindo, certo? As empresas estão felizes e os consumidores aparentemente felizes também, caso contrário, as empresas não usariam a IA.
É ótimo, e também sou um grande fã de aprendizado de máquina e inteligência artificial. No entanto, há momentos em que o uso do aprendizado de máquina simplesmente não é necessário, não faz sentido e, às vezes, quando a implementação pode levar a dificuldades.
Limite 1 - Ética
É fácil entender por que o aprendizado de máquina teve um impacto tão profundo no mundo, mas o que é menos claro é exatamente quais são suas capacidades e, mais importante, quais são suas limitações. Yuval Noah Harari, como você sabe, cunhou o termo “datismo”, que se refere ao novo estágio proposto da civilização, no qual entramos quando confiamos em algoritmos e dados mais do que em nosso próprio julgamento e lógica.
Embora essa idéia possa parecer ridícula, lembre-se de quando você saiu de férias pela última vez e seguiu as instruções do GPS, e não seus próprios julgamentos sobre o mapa - você questiona a classificação do GPS? As pessoas literalmente entraram nos lagos porque seguiram cegamente as instruções do GPS.
A ideia de confiar mais em dados e algoritmos do que pensamos tem seus prós e contras. Obviamente, nos beneficiamos desses algoritmos, caso contrário, não os usaríamos em primeiro lugar. Esses algoritmos nos permitem automatizar processos fazendo julgamentos informados usando os dados disponíveis. Às vezes, no entanto, isso significa substituir o trabalho de outra pessoa por um algoritmo que tem consequências éticas. Além disso, quem estamos culpando se algo der errado?
O caso mais frequentemente discutido hoje são os carros autônomos: como decidimos como o veículo deve reagir em caso de colisão fatal? No futuro, teremos a oportunidade de escolher a estrutura ética para a compra que nosso carro autônomo seguiria?
Quem é o culpado se meu carro autônomo mata alguém na estrada?Embora todas sejam perguntas fascinantes, elas não são o objetivo principal deste artigo. No entanto, é óbvio que o aprendizado de máquina não pode nos dizer nada sobre quais valores normativos devemos adotar, ou seja, como devemos agir nessa situação.
Limite 2 - Problemas determinísticos
Essa é uma limitação que eu pessoalmente tive que lidar. Minha área de especialização é ciência ambiental, que depende muito da modelagem por computador e do uso de sensores / dispositivos de IoT.
O aprendizado de máquina é incrivelmente eficaz para sensores e pode ser usado para calibrar e ajustar sensores quando conectado a outros sensores que medem variáveis ambientais como temperatura, pressão e umidade. As correlações entre os sinais desses sensores podem ser usadas para desenvolver procedimentos de auto-calibração, e este é um tópico quente em minha pesquisa em química atmosférica.
No entanto, as coisas ficam um pouco mais interessantes quando se trata de modelagem por computador.
A execução de modelos de computador que simulam o clima global, as emissões do planeta e a transferência dessas emissões são muito caras em termos computacionais. De fato, é tão computacionalmente difícil que a modelagem no nível de pesquisa pode levar várias semanas, mesmo quando se trabalha em um supercomputador.
Bons exemplos disso são o MM5 e o WRF, que são modelos numéricos de previsão do tempo usados para pesquisas climáticas e para fornecer previsões do tempo nas notícias da manhã. Eu me pergunto o que os meteorologistas fazem o dia todo? Execute e aprenda esses modelos.
Trabalhar com modelos climáticos é bom, mas agora que temos aprendizado de máquina, podemos usá-lo para obter nossas previsões meteorológicas? Podemos usar dados de satélites, estações meteorológicas e usar um algoritmo de previsão elementar para determinar se choverá amanhã?
A resposta é, surpreendentemente, sim. Se tivermos informações sobre pressão do ar em uma determinada região, níveis de umidade no ar, velocidade do vento e informações sobre pontos vizinhos e suas próprias variáveis, será possível treinar, por exemplo, uma rede neural. Mas a que custo?
O uso de uma rede neural com milhares de entradas permite determinar se choverá amanhã em Boston. No entanto, o uso de uma rede neural ignora toda a física do sistema climático.
O aprendizado de máquina é estocástico, não determinístico.
Uma rede neural não entende a segunda lei de Newton, ou essa densidade não pode ser negativa - não há limitações físicas.No entanto, isso não pode ser uma limitação por um longo tempo. Já existem vários pesquisadores que estão pensando em adicionar restrições físicas a redes neurais e outros algoritmos, para que possam ser usados para finalidades como essa.
Limitação 3 - Dados
Essa é a limitação mais óbvia. Se você alimentar mal o modelo, ele fornecerá apenas resultados ruins. Há duas razões para isso: falta de dados e falta de dados confiáveis. Se você não tiver esses problemas, poderá estudar com segurança o processamento de grandes quantidades de dados no canal Telegram do
Big Data Books , onde são publicados vários livros e recursos no Big Data.
Falta de dados
Muitos algoritmos de aprendizado de máquina exigem grandes quantidades de dados antes que eles comecem a produzir resultados úteis. Um bom exemplo disso é uma rede neural. As redes neurais são máquinas que consomem dados que exigem muitos dados de treinamento. Quanto maior a arquitetura, mais dados são necessários para produzir resultados viáveis. Reutilizar dados é uma má ideia, é sempre preferível ter mais dados.
Se você pode obter os dados, use-os.
Falta de bons dados
Apesar da aparência, isso não é o mesmo que o descrito acima. Imagine que você acha que pode trapacear gerando dez mil pontos de dados falsos para serem colocados em uma rede neural. O que acontece quando você insere isso?
Ele aprenderá sozinho e, quando você testá-lo em um novo conjunto de dados, ele não funcionará bem. Você tinha os dados, mas a qualidade é melhor.
Assim como a falta de bons recursos pode levar a um desempenho ruim do seu algoritmo, a falta de bons dados verdadeiros também pode limitar os recursos do seu modelo. Nenhuma empresa introduzirá um modelo de aprendizado de máquina que funcione pior que um erro humano.
Da mesma forma, a aplicação de um modelo treinado em um conjunto de dados em uma situação pode não necessariamente se aplicar igualmente bem à segunda situação. O melhor exemplo disso que encontrei até agora é na previsão do câncer de mama.
Os bancos de dados de mamografia têm muitas imagens, mas eles têm um problema sério que causou problemas significativos nos últimos anos - quase todas as radiografias foram feitas em mulheres brancas. Isso pode não parecer grande coisa, mas, na verdade, foi demonstrado que as mulheres negras têm 42% mais chances de morrer de câncer de mama devido a uma ampla gama de fatores, que podem incluir diferenças na detecção e no acesso aos cuidados. Portanto, aprender o algoritmo principalmente para mulheres brancas nesse caso afeta negativamente as mulheres negras.
Nesse caso em particular, são necessárias mais imagens de raios-x de pacientes negros no banco de dados de treinamento, mais sinais estão relacionados ao aumento de 42% na probabilidade e o algoritmo é mais justo devido à estratificação do conjunto de dados ao longo dos eixos correspondentes.
Limite 4 - Uso indevido
Com relação à segunda limitação discutida anteriormente, supõe-se que essa seja uma “crise de aprendizado de máquina na pesquisa acadêmica” quando as pessoas usam cegamente o aprendizado de máquina para tentar analisar sistemas de natureza determinística ou estocástica.
Pelas razões discutidas na segunda limitação, a aplicação do aprendizado de máquina em sistemas determinísticos será bem-sucedida, mas um algoritmo que não estuda a relação entre duas variáveis e não sabe quando viola as leis físicas. Nós demos algumas entradas e saídas ao sistema e dissemos a ela para estudar o relacionamento - assim como alguém traduz palavra por palavra de um dicionário, o algoritmo parece ser apenas uma compreensão superficial da física básica.
Para sistemas estocásticos (aleatórios), tudo é um pouco menos óbvio. A crise do aprendizado de máquina para sistemas aleatórios se manifesta de duas maneiras:
- P-hacking
- Âmbito de análise
p-hacking
Quando alguém tem acesso a big data, que pode ter centenas, milhares ou até milhões de variáveis, é fácil encontrar um resultado estatisticamente significativo (dado que o nível de significância estatística necessário para a maioria dos estudos científicos é de p <0,05). Isso geralmente leva à detecção de correlações falsas que geralmente são obtidas com o uso do p-hacking (olhando através de montanhas de dados até encontrar uma correlação mostrando resultados estatisticamente significativos). Essas não são correlações verdadeiras, mas simplesmente uma resposta ao ruído nas medições.
Isso levou ao fato de que pesquisadores individuais “capturaram” correlações estatisticamente significativas por meio de grandes conjuntos de dados e os disfarçaram como correlações verdadeiras. Às vezes, isso é um erro inocente (nesse caso, o cientista deveria estar melhor preparado), mas em outros casos isso é feito para aumentar o número de artigos publicados pelo pesquisador - mesmo no mundo da comunidade científica, a competição é alta e as pessoas fazem de tudo para melhorar suas métricas.
Âmbito de análise
Existem diferenças significativas no escopo da análise do aprendizado de máquina em comparação com a modelagem estatística - a modelagem estatística é por natureza uma confirmação e o aprendizado de máquina é essencialmente pesquisa.
Podemos considerar a análise confirmatória e os modelos como o que alguém faz ao receber o Ph.D. ou em pesquisa. Imagine que você está trabalhando com um consultor e tentando desenvolver uma base teórica para estudar qualquer sistema real. Esse sistema possui um conjunto de atributos predefinidos que afeta e, após projetar cuidadosamente experimentos e desenvolver hipóteses, você pode executar testes para determinar a validade de suas hipóteses.
A análise da pesquisa, por outro lado, carece de várias qualidades associadas à análise confirmatória. De fato, no caso de quantidades realmente enormes de dados e informações, as abordagens de suporte são completamente destruídas devido à enorme quantidade de dados. Em outras palavras, é simplesmente impossível afirmar com precisão o conjunto final de hipóteses testáveis na presença de milhões de sinais.
Portanto, e, novamente, em termos gerais, os algoritmos e as abordagens de aprendizado de máquina são mais adequados para modelagem e classificação preditiva de pesquisa com enormes quantidades de dados e funções computacionalmente complexas. Alguns argumentam que eles podem ser usados para dados "pequenos", mas por que fazê-lo quando métodos estatísticos clássicos e multidimensionais são muito mais informativos?
O aprendizado de máquina é uma área que resolve amplamente os problemas associados à tecnologia da informação, ciência da computação etc., podendo ser tanto problemas teóricos quanto aplicados. Como tal, está associado a áreas como física, matemática, probabilidade e estatística, mas o aprendizado de máquina na verdade representa um campo em si, um campo que não está sobrecarregado com problemas levantados em outras disciplinas. Muitas das soluções apresentadas por especialistas e praticantes de aprendizado de máquina estão dolorosamente erradas, mas eles fazem seu trabalho.
Limitação 5 - Interpretabilidade
A interpretabilidade é um dos principais problemas do aprendizado de máquina. Uma empresa de consultoria de IA que tenta alcançar uma empresa que usa apenas métodos estatísticos tradicionais pode ser interrompida se não vir o modelo como interpretado. Se você não consegue convencer seu cliente de que entende como o algoritmo tomou a decisão que ele tomou, qual a probabilidade de ele confiar em você e em sua experiência?
É mais provável que um gerente de negócios aceite recomendações de aprendizado de máquina se os resultados forem explicados da perspectiva do negócio.
Esses modelos, como tais, podem se tornar impotentes se não puderem ser interpretados, e o processo de interpretação humana segue regras que vão muito além do domínio técnico. Por esse motivo, a interpretabilidade é uma qualidade primordial que os métodos de aprendizado de máquina devem alcançar se aplicados na prática.
Em particular, as ciências em desenvolvimento no campo da física (genômica, proteômica, metabolômica etc.) tornaram-se o principal objetivo dos pesquisadores de aprendizado de máquina precisamente por causa de sua dependência de bancos de dados grandes e não triviais. No entanto, eles sofrem com a falta de interpretação de seus métodos, apesar de seu aparente sucesso.
Conclusão
Como espero, expliquei claramente neste artigo que existem limitações que, pelo menos no momento, impedem a solução de todos os problemas da humanidade. Uma rede neural nunca pode nos dizer como ser uma boa pessoa, e pelo menos ainda não entender as leis do movimento de Newton ou a teoria da relatividade de Einstein.
Também existem restrições fundamentais baseadas na teoria subjacente do aprendizado de máquina, chamada teoria do aprendizado computacional, que são principalmente restrições estatísticas. Também discutimos questões relacionadas ao escopo da análise e aos perigos do p-hacking, que podem levar a conclusões falsas.
Também há problemas com a interpretabilidade dos resultados, que podem afetar adversamente as empresas que não conseguem convencer clientes e investidores de que seus métodos são precisos e confiáveis.
O aprendizado de máquina e a inteligência artificial continuarão revolucionando a indústria e só se tornarão mais comuns nos próximos anos. Embora eu recomende que você faça pleno uso do aprendizado de máquina e da IA, também recomendo que você tenha em mente as limitações das ferramentas que usa - afinal, não há nada ideal.