O tópico de análise de dados e ciência de dados está se desenvolvendo a um ritmo surpreendente nos dias de hoje. Para entender a relevância de seus métodos e abordagens, é necessário acompanhar o trabalho dos colegas e é nas conferências que é possível obter informações sobre as tendências modernas. Infelizmente, nem todos os eventos podem ser visitados; portanto, artigos de conferências anteriores são de interesse de especialistas que não encontraram tempo e oportunidade para presença pessoal. Temos o prazer de apresentar uma tradução do
artigo de
Chip Huyen na conferência da
ICLR 2019 sobre tendências e abordagens de ponta no campo da ciência de dados.
Representações de aprendizado é um conjunto de métodos, técnicas e abordagens que detectam automaticamente as representações necessárias para identificar recursos de dados brutos. Os envios de aprendizado substituem a invenção manual de recursos e permitem que você estude as principais propriedades dos objetos com base em seus atributos e use-os para resolver problemas específicos.
O artigo fornece uma visão subjetiva de vários problemas do setor. No entanto, espera-se que mesmo uma revisão subjetiva forneça alimento suficiente para um especialista interessado. Além disso, discutiremos o seguinte:
- Os métodos artificiais para corrigir a composição sociodemográfica da conferência evocam uma série de sentimentos na comunidade: da indignação agressiva à ignorância covarde. Escolher o comportamento ideal em tal ambiente seria uma tarefa interessante para um especialista em teoria dos jogos.
- Os trabalhos nas áreas de aprendizado de representação e aprendizado de transferência estão aumentando em popularidade e despertam interesse ativo da comunidade.
- As redes neurais recursivas continuam a perder popularidade entre os pesquisadores, mas na prática elas não serão descartadas em breve.
- A área de GANs continua a se desenvolver rapidamente, embora nem todos os pesquisadores gostem desse fato. O potencial dos GANs está sendo revelado apenas e um número de trabalhos interessantes nessa direção pode ser esperado em um futuro próximo.
- O aprendizado reforçado continua a excitar as mentes dos pesquisadores, permanecendo o tópico mais popular da conferência. Os especialistas estão se aproximando da possibilidade de aplicar os métodos de RL a tarefas reais, o que falta tanto para adeptos nessa área.
- Surpreendentemente, recentemente, houve pouco interesse nos usos biológicos e genéticos do aprendizado de máquina. Uma boa oportunidade está se abrindo para os pesquisadores que procuram um tópico para um maior crescimento.
- Os artigos geralmente aceitos e os métodos retro ainda conseguem chegar à conferência, no entanto, a competição entre eles é maior e os pesquisadores precisam se esforçar mais para obter resultados interessantes do que em direções mais populares e da moda. Na época, pense no fato de que os materiais para a aplicação do aprendizado de máquina clássico foram esgotados.
Uma análise detalhada da conferência de Chip Hyun pode ser encontrada abaixo.
1. Inclusão
Os organizadores da [
Conferência Internacional sobre Representações de Aprendizagem 2019 - Ed.] Enfatizaram a importância da inclusão no campo da inteligência artificial. Os dois primeiros discursos - um discurso de abertura de Alexander Rush e da
palestrante convidada Cynthia Dvork - foram dedicados à justiça e à igualdade.
Algumas estatísticas preocupantes do ICLR 2019:
- mulheres apenas 8,6% dos oradores e 15% dos participantes,
- 2/3 de todos os pesquisadores LGBTQ + não revelam sua própria orientação no trabalho,
- todos os 8 oradores convidados são representantes da raça caucasiana.
Infelizmente [da autora], a maior parte dos pesquisadores de inteligência artificial não está interessada na questão da igualdade. Se os seminários sobre outros tópicos estavam lotados, então
o workshop de IA para o bem social estava bem vazio até Yoshua Benjio aparecer . Durante as muitas conversas que tive na ICLR, ninguém mencionou "diversidade". Um caso foi uma exceção: fui convidado para um evento técnico inadequado, que me surpreendeu muito, e meu bom amigo respondeu: “Uma pequena resposta ofensiva: você foi convidado porque é uma mulher”.
A razão para a situação observada é que o tópico da diversidade não é "técnico" e, portanto, não ajudará a promover uma carreira científica. Outra razão é que há uma rejeição da propaganda social e pública. Um amigo meu uma vez me aconselhou a não prestar atenção no cara que me perseguia em um bate-papo em grupo, porque "ele gosta de tirar sarro das pessoas que falam sobre igualdade e diversidade". Tenho amigos que não gostam de discutir diversidade na Internet porque não querem ser "associados a este tópico".
2. Aprendizado de representação e aprendizado de transferência
O principal objetivo do aprendizado de Representação Não Supervisionada é detectar características em dados não alocados que são úteis para uso em tarefas subseqüentes. No campo Processamento de linguagem natural, o treinamento em desempenho geralmente é feito por meio da modelagem de linguagem. As representações resultantes são então usadas para tarefas como análise de sentimentos, reconhecimento de nomes e tradução automática.
Algumas das apresentações não-professores mais interessantes do ano passado começaram com
ELMo (Peters et al.) ,
ULMFiT (Howard et al.) ,
GPT OpenAI (Radford et al.) ,
BERT. (Devlin et al.) E, claro, o
GPT-2 altamente perigoso
(Radford et al.) .
O GPT-2 completo foi demonstrado no ICLR, e é incrível. Você pode inserir um esboço arbitrário do início do texto e o modelo escreverá o restante do artigo. Um modelo pode escrever artigos de notícias, ficção de fãs, artigos científicos e até definições de palavras fictícias. Até agora, o resultado ainda não parece humano, mas a equipe está trabalhando duro no GPT-3. Estou ansioso para analisar os recursos do novo modelo.
A abordagem de aprendizado de transferência foi adotada principalmente pela comunidade de especialistas em visão computacional. No entanto, o treinamento do modelo de classificação de imagem ImageNet ainda está sendo realizado no modo de treinamento de professores. A pergunta que pode ser ouvida constantemente por representantes de ambas as comunidades é: “Como usaríamos o treinamento de apresentação de não professores para trabalhar com imagens?”
Embora a maioria dos laboratórios de pesquisa conhecidos já esteja trabalhando nessa tarefa, apenas um artigo,
“Atualizando Regras de Meta-Aprendizagem para o Ensino de Submissões de
Professores ”, foi apresentado no ICLR
(Metz et al.) Em vez de atualizar os pesos, o algoritmo atualiza a regra de aprendizado. As visualizações obtidas a partir da regra de aprendizado são apresentadas em uma pequena amostra de dados marcados no modo de classificação de imagem. Os pesquisadores foram capazes de encontrar regras de aprendizado que permitiram alcançar uma precisão de mais de 70% no MNIST e no Fashion MNIST.
Os autores descobriram
parte do código , mas não todos, porque "está ligado à computação". O ciclo externo requer cerca de 100 mil etapas de treinamento e 200 horas em 256 processadores.
Tenho a sensação de que, no futuro próximo, veremos muito mais trabalhos desse tipo. É possível usar o ensino sem um professor em tarefas como
codificação automática, previsão de rotação de imagem (o
documento Gidaris et al. Foi um sucesso no ICLR 2018), prevendo o próximo quadro em um vídeo, etc.
3. Retro ML
As idéias no aprendizado de máquina são como moda: são cíclicas. Assistir a uma sessão de pôsteres agora é como passear em um museu histórico. Até o tão aguardado debate na ICLR terminou com o debate sobre a questão "priors vs structure", que traz de volta
a discussão de Yann LeKun e Christopher Manning no ano passado e se assemelha ao debate secular entre os defensores da teoria bayesiana e os da abordagem Freventy (frequência) das probabilidades.
O projeto “Aprendizado e compreensão de idiomas fundamentados” no MIT Media Lab foi descontinuado em 2001, mas este ano o Aprendizado de idiomas fundamentado apresentou dois trabalhos envolvidos na capa do “aprendizado por reforço”.
- DOM-Q-NET: RL fundamentada em linguagem estruturada (Jia et al.) - Algoritmo RL para navegar em páginas da Web clicando em links e preenchendo campos, enquanto o objetivo da navegação é expresso em uma linguagem natural.
- BabyAI: Uma plataforma para estudar a eficiência da amostra do aprendizado de idiomas fundamentado (Chevalier-Boisvert et al.) É uma plataforma compatível com o OpenAI Gym com um agente bot artificial que imita um professor humano que ajuda os agentes a aprender uma linguagem sintética.
Meus pensamentos sobre esses dois artigos foram perfeitamente resumidos pelo AnonReviewer4:
“... os métodos propostos aqui são muito semelhantes aos métodos que há muito são considerados na literatura sobre análise semântica. Somente este trabalho cita artigos sobre RL profunda. Eu acho que seria muito útil para os autores se familiarizarem com esta literatura. Eu acho que a comunidade de análise semântica também se beneficiará disso ... Mas essas duas comunidades, aparentemente, têm pouco contato umas com as outras, embora em alguns casos estejam trabalhando em problemas muito semelhantes. ”
O DFA (Autômatos Finitos Determinísticos) também encontrou seu lugar no mundo do aprendizado profundo este ano em dois artigos:
- Representando linguagens formais: uma comparação entre autômatos finitos e redes neurais recorrentes (Mikhalenko et al.),
- Aprendendo representações de estados finitos de redes de políticas recorrentes (Koul et al.) .
A principal motivação para os dois trabalhos é a seguinte: em conexão com o enorme espaço de estados ocultos nas RNNs, é possível reduzir o número de estados para o final? Sou cético quanto ao fato de o DFA ser capaz de representar efetivamente a RNN em problemas de linguagem, mas gosto da ideia de ensinar a RNN durante o treinamento e depois convertê-la em DFA para conclusões lógicas, conforme apresentado em um artigo de Koul et al. As representações finais finais requerem apenas três estados discretos de memória e 10 observações para jogar pong. O DFA também ajuda na interpretação da RNN.
4. RNN está perdendo popularidade entre pesquisadores
Ao considerar o cronograma de crescimento de artigos sobre vários tópicos em 2019 em relação a 2018, fica claro que a RNN é caracterizada pela maior queda. Isso não é surpreendente, porque, embora o uso de RNNs seja intuitivo para tipos de dados seriais, eles sofrem uma falha grave: eles não podem ser paralelizados. Consequentemente, é impossível tirar proveito do fator mais importante que estimula o progresso da pesquisa desde 2012: o poder da computação. As RNNs nunca foram populares em CV ou RL e, para a PNL, são substituídas por arquiteturas baseadas em Atenção.
Isso significa que a RNN está morta? De fato, não. Artigo "Neurônios ordenados: integrando estruturas de árvores em redes neurais recorrentes"
(Shen et al.). recebeu um dos maiores prêmios deste ano. Além deste e dos dois artigos sobre autômatos mencionados acima, mais nove trabalhos da RNN foram revisados este ano, a maioria dos quais se aprofunda em fundamentos matemáticos, em vez de abrir novas possibilidades.
As RNNs permanecem cheias de vida e são impulsionadoras do setor, especialmente para empresas que lidam com séries temporais, como empresas comerciais. Infelizmente, as empresas comerciais geralmente não publicam detalhes de seu trabalho. Mesmo que as RNNs não sejam muito atraentes para os pesquisadores no momento, elas podem recuperar sua popularidade no futuro.
5. GANs ainda estão no topo
Apesar do tema GAN na escala relativa em relação ao ano anterior mostrar um crescimento negativo, na escala absoluta o número de obras aumentou de ~ 70 para ~ 100.
Ian Goodfellow deu uma palestra sobre a GAN e estava constantemente cercado por fãs. No último dia, ele precisou entregar o crachá para que as pessoas não pudessem ver o nome dele.
Toda a primeira sessão de pôsteres foi dedicada à GAN. Existem novas arquiteturas GAN, melhorias na arquitetura GAN antiga, análise GAN, aplicativos GAN da geração de imagens à geração de texto e síntese de áudio. Existem PATE-GAN, GANSynth, ProbGAN, InstaGAN, RelGAN, MisGAN, SPIGAN, LayoutGAN, KnockoffGAN, etc. e não faço ideia do que isso significa. Infelizmente,
Andrew Brock chamou seu modelo gigante de BigGAN, não de giGANtic :)
A sessão de pôsteres mostrou como a comunidade é tendenciosa no que diz respeito à GAN. Alguns dos comentários que ouvi dos oponentes da GAN ficaram assim: "Mal posso esperar por todo esse hype com a GAN para diminuir", "Quando alguém menciona o termo" adversário ", meu cérebro simplesmente desliga". Na minha opinião, eles são simplesmente invejosos.
6. Falta de tópicos biológicos em estudo aprofundado
Considerando a grande excitação causada pelo público ao determinar a sequência de genes no DNA, bem como o surgimento de crianças modificadas usando a tecnologia CRISPR, [foi] surpreendente para mim que não houve aumento no trabalho sobre o uso da aprendizagem profunda em biologia no ICLR. Havia seis artigos sobre o tema.
Dois sobre questões de arquitetura emprestadas da biologia:
- Algoritmos de aprendizado biologicamente plausíveis podem ser dimensionados para grandes conjuntos de dados (Xiao et al.),
- Uma teoria unificada das primeiras representações visuais da retina ao córtex através de CNNs anatomicamente restritas profundas (Lindsey et al.).
Um trabalho
no treinamento de design para RNA (Runge et al.) .
Três trabalhos de manipulação de proteínas:
- Localização de proteínas em nível humano com redes neurais convolucionais (Rumetshofer et al.),
- Aprendendo a estrutura proteica com um simulador diferenciável (Ingraham et al.),
- Aprendendo a incorporação de sequências de proteínas usando informações da estrutura (Bepler et al.).
Não havia artigos sobre o tema genomas e não foram realizados seminários. Não importa o quão triste isso possa parecer, no entanto, grandes oportunidades estão se abrindo para pesquisadores em biologia e biólogos em educação profunda.
Um fato:
Jack Lindsay, o primeiro autor do artigo acima sobre a impressão digital, ainda não se formou na Stanford College.
7. O aprendizado reforçado continua sendo o tópico mais popular.
Os trabalhos apresentados na conferência demonstram que a comunidade RL está migrando de métodos sem modelo para algoritmos baseados em modelo com algoritmos eficientes de amostragem e meta-aprendizado. A mudança ocorreu provavelmente devido aos resultados extremamente altos nos parâmetros de referência do Mujoco estabelecidos por
TD3 (Fujimoto et al., 2018) e
SAC (Haarnoja et al., 2018) , bem como no espaço de operações discretas no Atari definido por
R2D2 (Kapturowski et al. , ICLR 2019) .
No processo de treinamento, algoritmos baseados em modelo usam os dados disponíveis para obter um modelo ambiental e planejam as estratégias dos agentes nesse ambiente ou para gerar novos dados. Os algoritmos baseados em modelo finalmente alcançaram a precisão assintótica de suas contrapartes sem modelo, usando 10 a 100 vezes menos dados
(MB-MPO (Rothfuss et al.) ). A nova vantagem torna os métodos baseados em modelo adequados para tarefas com um nível real de complexidade. Se após o treinamento o simulador do ambiente apresentar falhas, o que é muito provável, suas deficiências poderão ser compensadas usando modelos mais complexos, como o conjunto de simuladores
(Rajeswaran et al.) . Outra maneira de usar o RL na resolução de problemas com um nível real de complexidade é permitir que o simulador suporte esquemas de randomização complexos. A estratégia obtida em uma variedade de simuladores ambientais pode considerar o mundo real como “outra randomização” e pode ter sucesso em tarefas de um nível real de complexidade
(OpenAI) .
Os algoritmos de meta-aprendizado que permitem obter uma rápida transferência de aprendizado para novas tarefas também foram aprimorados tanto em termos de desempenho quanto em termos de eficiência da amostra (
ProMP (Rothfuss et al.) ,
PEARL (Rakelly et al.) ). Essas melhorias nos aproximaram do momento “ImageNet for RL”, no qual podemos usar estratégias de decisão aprendidas com outras tarefas, em vez de treiná-las do zero (o que é impossível para tarefas complexas).
Uma parte impressionante do trabalho aceito, juntamente com um seminário sobre estrutura e probabilidade a priori em RL, foi dedicada à integração do conhecimento ambiental nos algoritmos de aprendizagem. Se um dos principais pontos fortes dos algoritmos profundos de RL profunda era a generalização (por exemplo, o DQN usa a mesma arquitetura para todos os jogos da Atari, sem saber nada sobre nenhum jogo em particular), agora os novos algoritmos usam a integração de conhecimentos a priori para resolver problemas mais complexos. tarefas. Por exemplo, na
Rede de Transportadores (Jakab et al.), Um agente usa conhecimento a priori para realizar um trabalho de exploração mais informativo.
Em resumo, podemos dizer que, nos últimos 5 anos, a comunidade RL desenvolveu muitas ferramentas eficazes para resolver os problemas do treinamento de reforço no modo sem modelo. Agora é hora de criar algoritmos mais transportáveis e com eficiência de amostra para aplicar a RL a tarefas do mundo real.
Um dos fatos: Sergey Levin é provavelmente a pessoa com mais trabalho sobre a ICLR este ano, em particular, 15 de seus artigos foram aceitos para publicação.
8. Artigos comuns desaparecem rapidamente em segundo plano
Quando perguntei ao famoso pesquisador o que ele pensava sobre o trabalho aceito este ano, ele riu: "A maioria deles será esquecida assim que a conferência terminar". Em um campo acelerado, como o aprendizado de máquina, os resultados são reprovados em semanas, se não dias. Não surpreende que a maioria dos trabalhos aceitos já esteja desatualizada no momento da submissão. Por exemplo, de acordo com o Borealis AI para ICLR 2018, “
sete em oito artigos sobre defesa contra ataques adversários foram refutados antes mesmo do início da ICLR . Isso mostra que métodos heurísticos sem qualquer base teórica estão longe de serem tão confiáveis quanto parecem. "
Muitas vezes ouvi comentários durante a conferência, observando a contribuição tangível do acaso na decisão de aceitar / rejeitar o trabalho. Não vou citar artigos específicos, no entanto, alguns dos artigos mais discutidos e mais citados nos últimos anos foram rejeitados pelas conferências no primeiro post. No entanto, muitos dos artigos aceitos serão relevantes por anos, mesmo sem serem citados.
Como pessoa que pesquisa nessa área, muitas vezes me deparo com uma crise existencial. Qualquer que seja a idéia, parece que alguém já está percebendo isso, e melhor e mais rápido. Qual é o sentido de publicar um artigo se ninguém precisar dele?
Conclusão
Claro, ainda existem tendências que eu gostaria de abordar.
- Otimização e regularização: O debate de Adam contra a SGD continua. Muitos métodos novos foram propostos, e alguns deles são bastante emocionantes. Parece que hoje em dia cada laboratório está desenvolvendo seu próprio otimizador - até nossa equipe está trabalhando em um novo otimizador, que deve ser lançado em um futuro próximo.
- : , - . , , . , , GAN , .
, . ,
(55 ) . ICLR 2019 , , .
ICLR. , , , . . NeurIPS , : « , , ».
, , — , . , , . , . 10 10, [ICLR — .].
- , , , , . « » (Oleksii Hrinchuk)
.
CleverDATA , , . . Data Science , , . , , - , !