🕉️ 🙎🏼 ⛏️ Até o centésimo mais próximo: Os 10 principais relatórios do SmartData 2017 👥 💠 👐🏾

Os participantes da conferência SmartData são pessoas que adoram trabalhar com dados. Deve-se presumir que eles fizeram suas avaliações dos relatórios após a conferência do ano passado com muita atenção.

E agora, de acordo com essas estimativas, compilamos os 10 melhores vídeos. E, ao mesmo tempo, para agradar os entusiastas dos dados, eles indicaram todos os números relacionados para cada um dos dez relatórios: lugar na classificação superior e precisa dos espectadores, número de espectadores.

De um modo geral, as classificações nas primeiras posições geralmente não são significativamente diferentes. Portanto, talvez você não deva dar muita importância a "quem segue quem" - é mais importante que todos esses relatórios tenham recebido notas altas. Mas, por outro lado, como não dar muita atenção aos números quando é tão emocionante!

Neurona: por que ensinamos a rede neural a escrever poemas no espírito de Kurt Cobain?

Palestrante: Ivan Yamshchikov
Localização: 1
Classificação: 4.51 ± 0.08
O número de espectadores: ~ 200
Apresentação do relatório

O líder claro da conferência foi a palestra de encerramento do criador dos projetos Neural Defense e Neurona. Esse é um desempenho acessível que não requer uma tremenda preparação do espectador - mas, ao mesmo tempo, não é apenas uma centésima milésima explicação de "como as redes neurais funcionam". Este parece ser um formato "divertido" (é improvável que o que você ouve imediatamente afete seu projeto de trabalho) - mas, a longo prazo, tudo isso pode ser não apenas muito interessante, mas também útil. Em geral, é de admirar que tenhamos convidado Ivan a participar do próximo SmartData 2018.

Do clique à previsão e vice-versa: pipelines de ciência de dados em Odnoklassniki

Palestrante: Dmitry Bugaychenko
Local: 2
Classificação: 4,36 ± 0,08
O número de espectadores: ~ 140
Apresentação do relatório

E aqui está o oposto. Em primeiro lugar, este não é um “o que o aprendizado de máquina pode nos dar”, mas as especificidades de “exatamente como implementamos tudo”. E o relatório não é sobre ML em si (a personalização do feed de notícias é apenas um exemplo), mas sobre tudo relacionado a ela: "o que precisa ser feito para fazer com que toda essa beleza da ML funcione". Em geral, se um discurso de Yamshchikov pode até interessar a uma ampla audiência, será interessante apenas pessoalmente conectado ao aprendizado de máquina, mas eles podem suportar muito por si mesmos.

CatBoost - A próxima geração de aumento de gradiente

Palestrante: Anna Veronika Dorogush
Localização: 3
Classificação: 4,32 ± 0,12
O número de espectadores: ~ 100
Apresentação do relatório

Se o aumento do gradiente não é sua especialidade, e o tópico do relatório despertou a sensação de que "provavelmente existem nuances para aqueles que já estão fazendo isso com força e força", dissipem os medos. O relatório é amigável para iniciantes e não mergulha imediatamente na piscina com a cabeça, mas primeiro explica coisas básicas. E considerando que, no ano passado, a biblioteca Yandex CatBoost se tornou mais bonita e mais popular que a anterior, é útil ter uma idéia, mesmo que você não precise lidar com isso agora, e o relatório pode ser apenas uma boa introdução.

De volta ao futuro do sistema bancário moderno

Palestrante: Vladimir Krasilshchik
Localização: 4
Classificação: 4,31 ± 0,17
O número de espectadores: ~ 80
Apresentação do relatório

O que deve ser feito se, devido à consistência eventualmente, os dados do seu relatório trimestral estiverem em desacordo com o mensal e os auditores e reguladores tiverem perguntas? Vladimir Krasilshchik explica que a bitemporalidade se torna o conceito principal: existe "quando o evento ocorreu" e "quando o sistema descobriu isso", você precisa trabalhar com essas duas escalas e demonstrar ao testador de terceiros. O relatório não se limita a isso, há muito mais - por exemplo, você achou que na conferência de TI você ouviria a frase "não há justiça e não deve tentar criá-la"?

O nome é uma característica

Palestrante: Vitaly Khudobakhshov
Localização: 5
Classificação: 4.28 ± 0.08
O número de espectadores: ~ 280
Apresentação do relatório

A apresentação mais paradoxal da conferência, forçando você a coçar a cabeça, confuso. Por um lado, é completamente óbvio para qualquer pessoa racional: não há razões perceptíveis para a correlação do nome de uma pessoa (se estamos falando de nomes populares da Rússia) e se essa pessoa estará em um relacionamento. Por outro lado, Vitaly apresenta dados mostrando o oposto. Ele próprio não tinha uma explicação exata, mas ninguém realmente encontrou objeções convincentes. Você pode tentar procurar por si mesmo.

Sem dados? Não tem problema! Aprendizagem Profunda na CGI

Palestrante: Ivan Drokin
Localização: 6
Classificação: 4.26 ± 0.18
O número de espectadores: ~ 40
Apresentação do relatório

Como você sabe, os algoritmos não são suficientes para o aprendizado profundo - precisamos de dados iniciais para o aprendizado. Como resultado, um bom conjunto de dados se tornou um recurso valioso. Mas e se você não o possui agora e não é o Google e não pode investir recursos gigantescos? Acontece que nem sempre é necessário coletar dados "reais" do mundo real e, sob certas condições, eles podem ser gerados literalmente. O relatório trata de um caso específico desse tipo.

Redes convolucionais profundas para detecção de objetos e segmentação de imagens

Palestrante: Sergey Nikolenko
Localização: 7
Classificação: 4.24 ± 0.17
O número de espectadores: ~ 80
Apresentação do relatório

Se você ainda está longe da aprendizagem profunda / mecânica em geral, os primeiros 20 minutos deste relatório podem ser bem adequados: há uma introdução completa ao tópico com uma excursão histórica a partir da década de 1950. E se você entende tudo sobre isso como um todo, mas não entende o subtópico das redes convolucionais profundas, pode pular a introdução imediatamente e prestar atenção na segunda metade do relatório, onde ela é direcionada às redes neurais complicadas.

Alta disponibilidade do Hadoop: experiência do Badoo

Palestrante: Alexander Krashennikov
Localização: 8
Classificação: 4.22 ± 0.14
O número de espectadores: ~ 100
Apresentação do relatório

Parece que, além do conceito de "big data", "crescer dados" também seria útil, porque o crescimento determina suas próprias especificidades. Uma vez que o Badoo teve ordens de magnitude de dados menores e uma abordagem para elas, então os volumes aumentaram e as mudanças foram necessárias - e deve-se ter em mente que amanhã tudo poderá ficar ainda mais forte, fazendo tudo "com uma margem".

As empresas ficaram interessadas na combinação de "Hadoop" e "tempo real", mesmo quando usualmente escreviam "incompatível" entre essas duas palavras, e agora conversavam sobre sua experiência com o Hadoop e forneciam alta disponibilidade no seu caso. Bônus: um pouco de criatividade de Vasily Lozhkin nos slides.

Segmentamos 600 milhões de usuários em tempo real todos os dias

Palestrante: Artyom Marinov
Localização: 9
Classificação: 4.21 ± 0.09
O número de espectadores: ~ 120
Apresentação do relatório

Aqui, o projeto é muito diferente do Badoo: não namoro, mas DMP (plataforma de gerenciamento de dados), onde você deseja destacar segmentos como “donas de casa com um carro com mais de cinco anos” entre o público. Mas, primeiro, há também uma grande escala (cerca de cem mil eventos por segundo). E segundo, aqui você precisa estar ainda mais preparado para o crescimento: "entre as fontes de dados - instalação de pixels, se amanhã o site super popular colocar seu pixel em si - haverá um fluxo enorme que precisará ser tratado". Com quais tecnologias eles lidam e como exatamente são usados? Respostas no relatório.

ML distribuído em big data: experiência na construção de um sistema de recomendação no ivi

Palestrante: Boris Schminke
Localização: 10
Classificação: 4.21 ± 0.09
O número de espectadores: ~ 100
Apresentação do relatório

Por fim, o último relatório também é “sobre infraestrutura, não algoritmos” e também com base na experiência de um produto grande. Era uma vez, a ivi começou a implementar recomendações usando um serviço de terceiros que fornecia "recomendações como serviço". Então eles "cresceram" a partir dele e começaram a criar seu próprio sistema. Em Habré, a empresa escreveu sobre isso em 2014 e, a partir do relatório, você pode descobrir o estado atual das coisas.

Se esses relatórios forem interessantes, observe: o SmartData 2018 será realizado neste outono. Os oradores separados deste top 10 retornarão com novos relatórios, haverá nomes completamente novos. As informações mais atualizadas sobre o programa sempre podem ser vistas no site , você também pode comprar ingressos lá - e o preço deles está aumentando gradualmente, então você deve pensar agora.

Até o centésimo mais próximo: Os 10 principais relatórios do SmartData 2017