O que é aprendizado automático de máquina (AutoML) e
Isso vai levar os cientistas de dados para longe?
Desde o início do surgimento de ferramentas automáticas de aprendizado de máquina (AutoML), como o Google AutoML, especialistas discutem se estão prontos para integração e aplicação corporativa completa. A descrição da ferramenta AutoML afirma que qualquer pessoa pode assumir o papel de "cientista de dados", capaz de criar modelos de aprendizado de máquina prontos para uso industrial sem o conhecimento técnico tradicionalmente necessário.
Embora certamente seja verdade que os processos automatizados de aprendizado de máquina estão mudando as maneiras pelas quais as empresas podem executar tarefas de análise de dados, a tecnologia ainda não está pronta para deixar os especialistas em dados fora de trabalho. Uma das principais reivindicações da tecnologia é que os modelos criados automaticamente têm qualidade semelhante e são produzidos o mais rápido possível em comparação com o modelo equivalente criado por um grupo de pesquisadores de dados.
Embora os modelos AutoML sejam mais rápidos de criar, eles só são eficazes se o problema que eles procuram for constante e recorrente. A maioria dos modelos de AutoML funciona bem e alcança qualidade consistente sob essas condições; mas quanto mais complexo o problema de dados, mais intervenção especializada é necessária para entender o que o sistema AutoML lançou e transformá-lo em algo útil. Para entender algumas dessas limitações, vejamos o processo AutoML com mais detalhes.
As ferramentas AutoML simplificam o processamento de dados, fazendo todo o possível usando as informações existentes. O processo consiste em três etapas principais:
O primeiro estágio inclui a “extração” de informações, o que ajuda a aumentar a produtividade dos modelos gerados, criando informações adicionais para estudo. Isso leva muito tempo, pois um especialista em análise de dados precisa identificar manualmente os relacionamentos entre os elementos de dados e desenvolver maneiras de apresentar informações como campos de dados adicionais que a máquina pode usar para treinamento, além de decidir a integridade dos dados para construir um modelo .
Este é um passo importante, pois esses dados adicionais geralmente significam a diferença entre um modelo inadequado e um excelente. O AutoML é programado para usar uma gama limitada de métodos de descoberta de dados, geralmente de maneira a satisfazer o problema "médio" de dados, limitando o desempenho final do modelo, pois não pode usar o conhecimento de uma PME específica (pequena e média empresa), que pode ser importante para o sucesso e que um especialista em dados pode usar em seu trabalho.
Muitos problemas de dados começam com um esforço mental significativo para selecionar os dados a serem representados no algoritmo. A transferência de todos os dados que você possui no sistema pode levar a um modelo que não corresponde aos parâmetros, porque os dados geralmente contêm muitos sinais diferentes, muitas vezes conflitantes, que devem ser direcionados e modelados individualmente.
Isso é especialmente verdadeiro no que diz respeito à fraude, quando diferentes regiões geográficas, canais de pagamento etc. têm tipos muito diferentes de fraude. Tentativas de descobrir manualmente esses padrões e projetar os conjuntos de dados apropriados para garantir a detecção precisa ainda não são amplamente automatizados. Atualmente, é impossível usar uma abordagem automatizada multiuso para esse problema devido à enorme complexidade de um evento desse tipo.
O próximo estágio é a geração de modelos. Modelos com diferentes configurações são criados e treinados usando dados do estágio anterior. Isso é muito importante porque é quase impossível usar a configuração padrão para cada problema e obter os melhores resultados.
Nesse momento, os sistemas AutoML têm uma vantagem sobre os especialistas em dados, pois podem criar um grande número de modelos de teste em um período muito curto. A maioria dos sistemas AutoML se esforça para ser universal e produzir apenas redes neurais profundas, que podem ser redundantes para muitas tarefas, quando um modelo simples, como regressão logística ou árvores de decisão, pode ser mais adequado e se beneficiar da otimização de hiper parâmetros.
A etapa final é um teste de desempenho em massa e a escolha do melhor desempenho. É nesse estágio que é necessário algum trabalho manual, principalmente porque é extremamente importante que o usuário selecione o modelo certo para a tarefa. É inútil ter um modelo de risco de fraude que identifique 100% dos casos de fraude, mas ponha em causa cada autorização.
No processo manual atual, os especialistas em dados trabalham com as PME para entender os dados e desenvolver funções efetivas de dados descritivos. Este importante vínculo entre as PME e o especialista em dados está ausente no AutoML geral. Conforme descrito anteriormente, o processo tenta gerar automaticamente esses modelos a partir do que a ferramenta pode detectar nos dados, o que pode ser inapropriado, resultando em modelos ineficientes. Os futuros sistemas AutoML devem ser projetados com essa e outras limitações em mente para criar modelos de alta qualidade de acordo com os padrões desenvolvidos por especialistas.
O futuro do AutoML
O AutoML continua a evoluir e os principais fornecedores atuais de AutoML (Google e Microsoft) fizeram melhorias significativas. Esses desenvolvimentos se concentraram principalmente no aumento da velocidade de geração de modelos prontos, e não em como melhorar a tecnologia para resolver problemas mais complexos (por exemplo, detectar fraudes e invasões de rede), onde o AutoML pode ir além do que um especialista em dados.
À medida que as soluções AutoML continuam a evoluir e expandir, processos manuais mais complexos podem ser automatizados. Os sistemas modernos de AutoML funcionam muito bem com imagens e fala porque o AutoML possui conhecimento comercial incorporado para executar essas tarefas tão bem. Os futuros sistemas AutoML terão a oportunidade de os usuários comerciais inserirem seus conhecimentos para ajudar a máquina a criar automaticamente modelos muito precisos.
Além disso, os pipelines de dados complexos serão cada vez mais ordenados, e a adição de um grande número de vários algoritmos para otimização expandirá ainda mais os possíveis problemas que podem ser resolvidos por cientistas que trabalham com dados de cidadãos.
Embora muitas tarefas de processamento de dados sejam automatizadas, isso permitirá que os cientistas realizem tarefas personalizadas para os negócios; estimular ainda mais a inovação e permitir que as empresas se concentrem nas áreas mais importantes de geração de receita e crescimento dos negócios.