
A FunCorp recentemente se envolveu na bela experiência de aprendizado de máquina. Nosso engenheiro de back-end ensinou os mecanismos de pesquisa a ler memes. Nesta ocasião, decidimos coletar o mitap ML para compartilhar nossas melhores práticas e, ao mesmo tempo, aprender com especialistas mais experientes de outras empresas, onde o aprendizado de máquina já é uma parte importante do negócio. Decidimos coletar - coletar. Passaremos 9 de fevereiro. O programa está sob o corte.
O programa
“Descubra a experiência de lançamento para 90 milhões de usuários: cinco recomendações para desenvolvedores de ML”, Andrey Zakonov, vk.com
Sobre o relatório
- Não apenas o modelo é importante: formulamos os problemas corretamente e escolhemos as métricas.
- Diferentes maneiras de otimizar suas soluções para a carga.
- Avaliamos corretamente os experimentos: estudamos gráficos e trabalhamos com feedback.
“Produção em ML”, Mark Andreev, Conundrum.ai
Sobre o relatório
O relatório incluirá:
- sobre tipos de previsões: tempo real, offline, realtime + offline
- como passar de um protótipo em um notebook Jupyter para um contêiner
- sobre decisões de dimensionamento e controle de qualidade.
“Como ensinar os mecanismos de pesquisa a ler memes”, Grigory Kuzovnikov, FunCorp
Sobre o relatório
iFunny é uma aplicação com imagens e vídeos engraçados. O único conteúdo textual são os comentários dos usuários, mas para atrair tráfego dos mecanismos de pesquisa, não é suficiente, por isso foi decidido extrair o texto das imagens e colocá-lo nas páginas. Especialmente para isso, foi criado um serviço que:
- encontra a área que contém a “piada principal” na imagem
- extrai texto desta área
- verifica a qualidade do texto reconhecido.
O serviço é escrito em Python usando o tensorflow. Como ninguém na equipe tinha experiência no desenvolvimento de serviços de ML, passamos por todas as etapas:
- Declaração da tarefa.
- Os primeiros experimentos, quando tentamos fazer algo que pelo menos de alguma forma funciona, experimentando a arquitetura de redes neurais.
- Elaborando uma amostra de treinamento.
- Treinamento e seleção de coeficientes de modelo.
- Criando um serviço usando nosso modelo treinado. Envolvendo-o em um contêiner de encaixe.
- Implantação e ligação de serviço ao nosso monolito php. Início único.
- Os primeiros resultados do trabalho e comentários dos aluguéis.
- Usar o reconhecimento resulta em batalha.
- Análise dos resultados.
- Estamos aqui agora. Ainda precisamos refazer e treinar novamente os modelos para aumentar o número de memes reconhecidos corretamente.
Aprendizado de máquina em Yandex.Taxi, Roman Khalkachev, Yandex.Taxi
Sobre o relatório
O relatório discutirá o dispositivo Yandex.Taxi.
Haverá uma história detalhada:
- sobre as tarefas que resolvemos usando as tecnologias de análise de dados e aprendizado de máquina
- sobre nossa linha de montagem para o desenvolvimento, teste e lançamento de modelos de aprendizado de máquina na produção
- vamos passar por todas as etapas: desde experimentos no Jupyter Notebook até a produção completa de ML.
“Livrar-se da maldição do Sklearn: escrevendo o XGBoost do zero”, Artyom Hapkin, Mail.ru Group
Sobre o relatório
Uma história sobre impulsionar. O que você precisa saber para escrever você mesmo. Quais são as armadilhas, como melhorar seu trabalho.
No momento, é difícil imaginar um local onde não sejam utilizados algoritmos de conjuntos para aumentar as árvores de decisão. Esses são mecanismos de pesquisa, algoritmos de classificação de recomendação, competições Kaggle e muito mais.
Existem muitas implementações prontas do algoritmo: Catboost, Lightgbm, Xgboost e muito mais. No entanto, há momentos em que o uso imediato de soluções prontas não é muito bom - o entendimento do algoritmo é perdido e, para certas tarefas, tais implementações não são muito adequadas etc.
Neste relatório, analisaremos os princípios do algoritmo e, passando de simples para complexos, implementaremos nosso próprio algoritmo Xgboosting, que poderá ser ajustado para qualquer tarefa de aprendizado de máquina - classificação, regressão, classificação etc.
Mais informações em
TelegramVocê pode se registrar no
Timepad . O número de vagas é limitado.
Para quem não pode vir ou não tem tempo para se inscrever, uma
transmissão será transmitida em nosso
canal .