👩🏼‍⚖️ 👩‍🚒 👆🏻 O que acontecerá na conferência UseData Conf 2019? 👩🏾‍🎓 🕰️ 👵🏼

Viva! Concluímos a formação do programa da conferência UseData Conf 2019 ! Esta conferência é para aqueles que resolvem problemas práticos usando métodos de aprendizado de máquina. Geralmente, existe uma lacuna entre o algoritmo ideal no vácuo e sua aplicação em dados reais. Queremos que aqueles que conseguem superar esse abismo se encontrem e troquem experiências.

A mágica do aprendizado de máquina para gerentes, a história do uso do ML para analisar a eficácia da publicidade na TV, carros de brinquedo não tripulados, números de óleo e de carros são apenas alguns dos relatórios do UseData 2019. Mais sobre esses e outros tópicos estão sob o gato.

No programa, formamos 5 seções. Os relatórios de seção são agrupados de acordo com as instruções das tarefas que eles resolvem.

Aprendizado de máquina e análise de dados no comércio.
Visão computacional.
Processamento de textos em línguas naturais.
Sistemas de tomada de decisão.
Estruturas e ferramentas de aprendizado de máquina.

Em cada um desses tópicos, algo interessante foi encontrado.

Aprendizado de máquina e análise de dados no comércio

O efeito da publicidade na TV: avaliação e otimização
Alexandra Lomakin, JOOM

Metade do meu orçamento de publicidade é desperdiçada. O problema é que não sei qual.

Esta é uma citação de John Wanamaker, um empresário americano que abriu a primeira loja de departamentos e aplicou os preços primeiro. Ele entendeu algo no comércio.

Joom também pensou em quanto do orçamento para anúncios de TV foi desperdiçado e planejou medir sua eficácia diante dos dados dos cientistas. Como entender que o usuário veio de publicidade na TV, quais ferramentas rastrear e quais dados são necessários para isso?

Alexandra seguiu esse caminho até o fim e está pronta para compartilhar as respostas . Spoiler: O espaço para otimização é enorme.

Aprendizado de máquina para prever vendas da loja online OZON.RU. Otimização de preços com modelos de previsão de demanda.
Alexander Alekseytsev, OZON.RU

OZON.ru é uma loja muito grande, com uma enorme quantidade de mercadorias, logística e preços complexos. O modelo trabalha na reposição de depósitos e na previsão de demanda. Uma grande loja possui muitos dados sobre os quais um modelo pode aprender. Por um lado, é bom, é conveniente fazer previsões. Por outro lado, nessa escala, um erro é rapidamente manifestado, se houver.

Por exemplo, um produto não estava em estoque por um longo tempo e, em seguida, apareceu e o modelo foi confundido com a previsão. Não há problema em um produto, mas no OZON.ru existem centenas desses produtos todos os dias. Devido a um erro, o armazém pode ficar sem mercadorias ou estará cheio.

Alexander lhe dirá como lidar com os erros de previsão e fornecimento e como se proteger contra erros. Seu relatório não é apenas um estudo de caso bem-sucedido de aprendizado de máquina, mas também uma excursão interessante pela área de assunto. Se você criar modelos para previsões de vendas, encontrará muito por si mesmo.

Visão computacional

Nesta seção, falaremos sobre o reconhecimento do estado. números, questões de recursos e ouvir um relatório científico.

512 KB de memória são suficientes para todos! Identificação de uma pessoa pelo rosto em um microcontrolador com uma câmera
Alexander Smorkalov, Xperience.ai

Acontece que você precisa reconhecer rostos em dispositivos computacionalmente fracos que funcionam com energia da bateria. Eles têm pouca memória, mas nunca ouviram falar da GPU. Alexander compartilhará a história da transferência bem - sucedida do modelo para esses dispositivos. A experiência de transferir modelos para dispositivos fora do padrão amplia muito os horizontes. As ideias podem ser úteis em situações em que o dispositivo é padrão, mas os recursos consumidos são inaceitáveis.

Regularização de Wasserstein para Aprendizagem Generativa e Discriminativa
Guido Montufar, Instituto Max Planck

Estamos muito satisfeitos que Vanya Yamshchikov tenha convencido seu colega Guido a vir à nossa conferência. Este é o único relatório científico da conferência, mas a aplicabilidade prática ainda é certa. A luta é em torno de reconhecer ou gerar classes com uma grande disseminação dentro, por exemplo, de imagens. Lembra-se da tarefa clássica dos gatos-cães, na qual cães de raças diferentes não são iguais? Portanto, essas diferenças são balbuciadas em comparação com o que acontece.

Não sou especialista neste tópico, mas parece-me que essas tarefas forçam a criação de redes neurais com um grande número de camadas. Isso agrava o problema da atenuação do gradiente, e a luta interminável de armaduras e conchas consome centenas de óleo de recursos de computação sem rumo. Os métodos que Guido explora permitem resolver problemas com uma grande dispersão dentro de cada classe, mais barato e mais rápido.

Como encontrar e fechar o estado. número na foto do carro e evite copiar conteúdo usando ataque adversário
Ilya Avev Sergeev

Era uma vez, eu trabalhei na Yandex, e a Y. Maps criou panoramas de rua, juntamente com uma equipe de visão computacional. Nos panoramas, era necessário encobrir os rostos e placas dos carros que acidentalmente caíam no quadro. Não havia soluções prontas para isso, eu tinha que ver por conta própria.

Em Avito, para uma tarefa semelhante, eles também tomaram sua decisão. Em 2019, essa tarefa não parece mais emocionante. Parece que agora qualquer pessoa é capaz de aprender como fechar o estado. número por hora no joelho. Mas parece que sim. Descobriu-se que, para algumas empresas, é mais fácil copiar imagens do Avito, substituindo a marca na imagem pela sua, porque é mais fácil detectá-la do que o número. Avito teve que fazer esforços especiais para trazer à tona ladrões de conteúdo.

Partes desta história já foram publicadas no Habré, mas em nossa conferência a Ilya a apresentará inteiramente na forma de uma história, não de um artigo.

Como as redes neurais podem ajudar a criar uma imagem do que está acontecendo no subsolo e determinar onde procurar petróleo
Darima Mylzenova, Gazprom Neft

Quem, na infância, resolveu um problema-modelo da visão computacional sobre o reconhecimento de números manuscritos? Quem escreveu os números em um pedaço de papel, digitalizou e verificou se viu o modelo (nada)? As pessoas experimentam aproximadamente o mesmo sentimento quando confrontadas com tarefas do mundo real.

Realmente amamos as tarefas do setor real, porque a diferença entre os dados nos quais as pessoas estão acostumadas a aprender e os dados da vida é claramente visível: imprecisos, com erros e limitações, com diferentes resoluções, com espaços. Darima dirá não apenas sobre o que os modelos de redes neurais são capazes no campo de análise do interior da Terra, mas também sobre o quanto eles ainda não sabem como gostariam.

Processamento de linguagem natural

Uma máquina pode entender piadas e piadas? Como ensinar um modelo a entender nomes estranhos? E reconhece o código?

Pesquise anomalias nos dados pessoais pelo exemplo de um nome completo
George Shushuev, CFT

Alguns usuários dificilmente escrevem seu nome em russo e seus nomes são incomuns. Butnaru de Iuria, Sashka Sedlay Konya Cuidadosamente, Eyide Lucky, Pulotov Aslam Akhmat Zhon Ugli, Bebalau IonNo, eu já cansei de Ilyasovich - qual o nome? Existem nomes nesse conjunto de letras, mas você pensou, certo? Aqui surge a dificuldade - ensinar o modelo a reconhecer nomes, mesmo que uma pessoa nem sempre tenha sucesso.

Adoramos histórias de aprendizado bem-sucedido sem um professor, e este é apenas um deles. George falará sobre a evolução do detector de anomalias em dados pessoais do modelo de Markov para a rede neural e compartilhará truques de vida do desenvolvimento desses detectores para conjuntos curtos de texto.

Aprendizado de máquina para código
Egor Bulychev, fonte {d}

Esta é uma visão geral dos desenvolvimentos mais recentes no campo do trabalho com código. Como encontrar repositórios que são similares em tarefas? Como encontrar um desenvolvedor com experiência semelhante no GitHub? Como formalizar essa semelhança? E como otimizar tudo para trabalhar com todo o GitHub de uma só vez? Egor está envolvido exatamente nessas tarefas e compartilhará sua experiência.

É possível ensinar a um carro um senso de humor?
Vladislav Blinov, Valeria Tinkoff Baranova

Vladislav e Valeria ensinam o carro a entender piadas em russo. Isso não é perfeito? Não há nada para falar - apenas tem que vir e ouvir .

Do ponto de vista prático, tudo é como amamos: quase não há conjuntos de dados marcados, não há água, não há vegetação, é habitada por robôs. Trabalho sério sobre um tópico divertido.

Como implementar uma pesquisa semântica rápida e eficaz em seu projeto com base no fluxo de cliques, transformadores e pesquisa aproximada (ANNS)
Vladimir Bugay, Knoema

Como fazer uma pesquisa normal em uma situação em que há muitos números e pouco texto? Knoema é um agregador de dados analíticos, que quase todos têm a forma de séries temporais. Se, por algum motivo, você quiser conhecer as estimativas mais recentes das reservas de petróleo venezuelanas ou o volume de produção de diamantes no Congo, então este é o local com os dados mais recentes. A única questão é como encontrá-los.

Alguns dados estão contidos diretamente no banco de dados, outros são computáveis. Para pesquisar bem, você precisa criar um modelo do relacionamento entre os dados. Agora já é um modelo de rede neural baseado em USE. Vladimir falará sobre várias etapas importantes no desenvolvimento de uma pesquisa usando dados não padrão: como montar essa pesquisa de maneira relativamente rápida a partir de componentes prontos, como treiná-la novamente usando suas informações adicionais, por exemplo, cliques, como reduzir o tamanho do índice e otimizar outros gargalos.

Sistemas de tomada de decisão

Arquiteturas de redes neurais modernas / versão 2019 do ano
Grigory Sapunov, Intento

Gregory, ao que parece, não precisa de introdução. Ele é co-fundador da Intento, palestrante regular e líder de seção em conferências de aprendizado de máquina, uma pessoa que segue a indústria e a dirige. Uma das últimas novidades de que nem todos já ouviram falar, é a inclusão do Google Developer Expert na categoria Aprendizado de Máquina na lista. No momento da redação deste artigo, havia apenas 109 pessoas na lista e apenas uma delas é da Rússia. Grisha, parabéns!

Esse é exatamente o nível de conhecimento em que você pode fazer uma revisão interessante de novos produtos no mundo das redes neurais nos últimos dois anos. Que novas tarefas a rede aprendeu a resolver? O que você tinha que fazer para isso? Em que direções estamos aguardando os próximos avanços?

O que é bom e o que é ruim: métricas para sistemas de recomendação
Irina Yandex Pchelintseva

Como medir a eficácia de um sistema de recomendação para filmes? Preveja a classificação que um espectador em particular atribuirá a um filme em particular e ofereça assistir somente se a classificação for alta. Mas existem nuances.

A maioria certamente dirá que O Padrinho ou a Lista de Schindler são bons filmes, mesmo que ele próprio não os tenha visto. Mas imagine como você volta do trabalho. O dia foi difícil: o projeto não continua, o chefe comeu todo o cérebro e amanhã será o mesmo. Nesse estado, é improvável que ele queira assistir a um filme inteligente e profundo, e um filme de ação estúpido, para quem o preço vermelho é seis em cada dez, caia. Portanto, o sistema de recomendação deve oferecer o que você vê , e não o que é costume elogiar .

Esse é apenas um dos lados inesperados da tarefa e existem muitos desses lados. Para aprender sobre eles, venha ao discurso de Irina.

Desenvolvimento e implementação de agentes inteligentes
Andrey Ivanov, Tinkoff

Um agente inteligente é parte de um sistema que resolve uma tarefa intelectual para uma pessoa. O agente é desenvolvido por um especialista em aprendizado de máquina, algumas tarefas das quais o agente assumirá. Por exemplo, para um banco, este é um sistema de recomendação que pode oferecer um empréstimo, depósito, cartão ou outro produto, dependendo do que se sabe sobre o usuário.

Andrei tem uma apresentação muito prática: como os agentes intelectuais são usados em Tinkoff (por exemplo, "histórias"), que dificuldades surgem no seu desenvolvimento e que ferramentas ajudam nisso.

Previsão de incidente de perfuração
Altarix Ivan Isaev

Mais uma vez sobre o setor real e o petróleo. Ivan contará uma boa história prática sobre como obter alguns dados do cliente, criar um modelo útil com base nele, obter mais dados depois disso e já obter um resultado decente sobre eles.

Algoritmos autônomos baseados em aprendizado de máquina
Saloni garg

Esta história não é o que parece. Saloni resolveu problemas, cuja existência muitos de nós desconhecemos.

Em uma região pobre, o combustível para um ônibus é um recurso valioso. Os motoristas o salvam com a ajuda de muitas técnicas surpreendentes: eles não acendem os faróis, dirigem em ponto morto e não seguem a linha. Como, nessas condições, forçá-lo a dirigir com segurança?

Como não há muito dinheiro, o hardware para resolver o problema é o mais primitivo, a maioria das estimativas precisa ser construída localmente, o vídeo da câmera para o servidor não pode ser transferido. Como trabalhar em tais condições, e diz Saloni Garg.

Estruturas e ferramentas de aprendizado de máquina

Adicionar controle de dados ao pipeline de ML
Artyom Seleznev, megafone

Você espera do MegaFon sistemas de recomendação com novos serviços e tarifas ou histórias sobre Elena. Mas não, desta vez, a Artyom contará sobre a experiência de implementar a ferramenta DVC e outros sinos e assobios que foram feitos em cima dela. Os sinos e assobios são interessantes e não triviais. Se você é a favor da reprodutibilidade de experimentos de aprendizado de máquina, venha à conversa.

AWS DeepRacer: aprendendo os desafios durante o jogo
Alexander Patrushev, AWS

É verdade que seria interessante treinar um modelo para competir em um carro não tripulado? E ainda assim, para quebrar com um mínimo de carros. Idealmente, eu quero ter um ambiente virtual próximo da realidade, no qual capturar a maioria dos erros. Uma opção para esse ambiente é o uso de modelos. Carros de brinquedo, em uma escala de 1 a 18, são usados para treinar algoritmos. Alexander compartilhará a história da criação do AWS DeepRacer e as dificuldades que surgem ao desenvolver um ambiente de aprendizado virtual e ao transferir um modelo para equipamentos reais.

Relatório de gerenciamento fora da seção

Gerenciamento de projetos 2.0: transformação da IA
Eduard Tyantov, Grupo Mail.ru

O mundo está mudando e os modelos de ML estão cada vez mais penetrando em nossos produtos, e às vezes eles se tornam sua parte central. Você já teve o irritado "Por quê? !!" das autoridades, culpados de responder "Bem, o modelo está tão afinado ..."? Os chefes, que cresceram nas práticas de desenvolvimento de software no final do século passado, geralmente não entendem o que esperar do aprendizado de máquina e qual é o preço dessa mágica.

Edward em seu relatório analisará o problema da liderança da equipe e do produto. O que muda no ciclo de desenvolvimento, na definição de tarefas, no controle de qualidade? Ele é exatamente a pessoa que pode dizer muito sobre isso, pois há muitos anos conduz com sucesso projetos baseados no aprendizado de máquina no Mail.ru. O projeto mais famoso, na minha opinião, é o Artisto, um aplicativo de estilo de vídeo.

Faixa bônus

E também teremos um workshop prático de três horas da Yandex sobre a coleta de dados usando o Yandex.Tolki! Será liderado por pessoas que desenvolvem o Toloka e por quem o utiliza continuamente: Alexei Druta e Olga Megorskaya.

Você terá uma idéia geral de como funcionam os mecanismos de crowdsourcing, como Toloka ou Mechanical Turk. Em seguida, você pode escolher uma das várias tarefas propostas para marcar dados, criar uma tarefa para tolokers, preparar tarefas de teste e "traps" para trapaceiros. No final, você tentará determinar as estimativas verdadeiras da marcação resultante e dos marcadores suspeitos usando os algoritmos que o sistema oferece.

O workshop será útil para aqueles que pensaram em coletar dados através do Toloka, mas não ousaram por causa do perigo de gastar todo o orçamento sem preparação.

Para atravessar a lacuna entre os algoritmos no vácuo e os reais, aguardamos o dia 16 de setembro. Um dia inteiro de relatórios, reuniões, comunicação, aprendizado de máquina e estudos de caso - beleza! O próximo e último aumento de preço do UseData Conf 2019 já é 9 de setembro, portanto, reserve seus ingressos agora para fixar o preço. Vejo você no Infraspace!

O que acontecerá na conferência UseData Conf 2019?

Aprendizado de máquina e análise de dados no comércio

O efeito da publicidade na TV: avaliação e otimizaçãoAlexandra Lomakin, JOOM

Aprendizado de máquina para prever vendas da loja online OZON.RU. Otimização de preços com modelos de previsão de demanda.Alexander Alekseytsev, OZON.RU

Visão computacional

512 KB de memória são suficientes para todos! Identificação de uma pessoa pelo rosto em um microcontrolador com uma câmeraAlexander Smorkalov, Xperience.ai

Regularização de Wasserstein para Aprendizagem Generativa e DiscriminativaGuido Montufar, Instituto Max Planck

Como encontrar e fechar o estado. número na foto do carro e evite copiar conteúdo usando ataque adversárioIlya Avev Sergeev

Como as redes neurais podem ajudar a criar uma imagem do que está acontecendo no subsolo e determinar onde procurar petróleoDarima Mylzenova, Gazprom Neft

Processamento de linguagem natural

Pesquise anomalias nos dados pessoais pelo exemplo de um nome completoGeorge Shushuev, CFT

Aprendizado de máquina para códigoEgor Bulychev, fonte {d}

É possível ensinar a um carro um senso de humor?Vladislav Blinov, Valeria Tinkoff Baranova

Como implementar uma pesquisa semântica rápida e eficaz em seu projeto com base no fluxo de cliques, transformadores e pesquisa aproximada (ANNS)Vladimir Bugay, Knoema