Au centième près: Top 10 des rapports SmartData 2017



Les participants à la conférence SmartData sont des personnes qui aiment travailler avec les données. Il faut partir du principe qu’ils ont soigneusement évalué leurs rapports après la conférence de l’année dernière.

Et maintenant, selon ces estimations, nous avons compilé les 10 meilleures vidéos. Et en même temps, pour faire plaisir aux amateurs de données, ils ont indiqué tous les numéros associés pour chacun des dix rapports: place en haut, classement précis des téléspectateurs, nombre de téléspectateurs.

De manière générale, les notes aux premières positions ne sont souvent pas significativement différentes. Donc, peut-être, vous ne devriez pas attacher beaucoup d'importance à «qui suit qui» - il est plus important que tous ces rapports reçoivent des notes élevées. Mais d'un autre côté, comment peut-il ne pas accorder beaucoup d'attention aux chiffres quand il est si excitant!



Neurona: pourquoi avons-nous enseigné au réseau neuronal à écrire des poèmes dans l'esprit de Kurt Cobain?


Conférencier: Ivan Yamshchikov
Emplacement: 1
Évaluation: 4,51 ± 0,08
Le nombre de téléspectateurs: ~ 200
Présentation du rapport

Le leader clair de la conférence était le discours de clôture du créateur des projets Neural Defense et Neurona. Il s'agit d'une performance accessible qui ne nécessite pas une préparation considérable de la part du spectateur - mais en même temps, ce n'est pas seulement une cent millième explication du «fonctionnement des réseaux de neurones». Cela semble être un format "divertissant" (il est peu probable que ce que vous entendez immédiatement affecte votre projet de travail) - mais à long terme, tout cela peut être non seulement très intéressant, mais aussi utile. En général, est-il étonnant que nous ayons invité Ivan à participer au prochain SmartData 2018.




Du clic à la prévision et vice versa: pipelines de science des données à Odnoklassniki


Conférencier: Dmitry Bugaychenko
Place: 2
Évaluation: 4,36 ± 0,08
Le nombre de téléspectateurs: ~ 140
Présentation du rapport

Et ici c'est le contraire. Premièrement, il ne s'agit pas d'un aperçu général de «ce que l'apprentissage automatique peut nous apporter», mais des spécificités de «exactement comment nous mettons tout en œuvre». Et le rapport n'est pas sur le ML en soi (la personnalisation du fil d'actualité est donnée à titre d'exemple), mais sur tout ce qui s'y rapporte: "ce qui doit être fait pour que tout ce ML-beauté fonctionne." En général, si un discours de Yamshchikov peut même intéresser un large public, il ne sera intéressant que personnellement lié à l'apprentissage automatique, mais ils peuvent en supporter beaucoup pour eux-mêmes.




CatBoost - La nouvelle génération de boosting de dégradé


Conférencière: Anna Veronika Dorogush
Emplacement: 3
Évaluation: 4,32 ± 0,12
Le nombre de téléspectateurs: ~ 100
Présentation du rapport

Si le renforcement du gradient n'est pas votre spécialité, et le sujet du rapport a suscité le sentiment «qu'il y a probablement des nuances pour ceux qui le font déjà avec force et force», dissipent les craintes. Le rapport est convivial pour les débutants et ne plonge pas immédiatement dans la piscine avec sa tête, mais explique d'abord les choses de base. Et étant donné qu'au cours de l'année écoulée, la bibliothèque Yandex CatBoost est devenue plus belle et plus populaire que la précédente, il est utile d'avoir une idée à ce sujet, même si vous n'avez pas à vous en occuper maintenant, et le rapport ne peut être qu'une bonne introduction.




Retour vers l'avenir du système bancaire moderne


Conférencier: Vladimir Krasilshchik
Emplacement: 4
Évaluation: 4,31 ± 0,17
Le nombre de téléspectateurs: ~ 80
Présentation du rapport

Que faire si, en raison de la cohérence éventuelle, les données de votre rapport trimestriel diffèrent de celles du mois et si les auditeurs et les régulateurs ont des questions? Vladimir Krasilshchik explique que la bitemporalité devient le concept clé: il y a «quand l'événement s'est produit», et il y a «quand le système l'a découvert», vous devez travailler avec ces deux échelles et en faire la démonstration au testeur tiers. Le rapport ne se limite pas à cela, il y a bien plus - par exemple, pensiez-vous qu'à la conférence informatique, vous entendriez la phrase «il n'y a pas de justice, et vous ne devriez pas essayer de la créer»?




Le nom est une caractéristique


Conférencier: Vitaly Khudobakhshov
Emplacement: 5
Évaluation: 4,28 ± 0,08
Le nombre de téléspectateurs: ~ 280
Présentation du rapport

La présentation la plus paradoxale de la conférence, vous obligeant à vous gratter la tête avec perplexité. D'une part, cela est tout à fait évident pour toute personne rationnelle: il n'y a pas de raison notable pour la corrélation du nom d'une personne (si nous parlons de noms russes populaires) et si cette personne sera dans une relation. En revanche, Vitaly présente des données montrant le contraire. Lui-même n'avait pas d'explication exacte, mais personne n'a vraiment trouvé d'objections convaincantes. Vous pouvez essayer de vous rechercher.




Pas de données? Pas de problème! Deep Learning chez CGI


Conférencier: Ivan Drokin
Emplacement: 6
Évaluation: 4,26 ± 0,18
Le nombre de téléspectateurs: ~ 40
Présentation du rapport

Comme vous le savez, les algorithmes ne suffisent pas pour l'apprentissage en profondeur - nous avons besoin de données initiales pour l'apprentissage. En conséquence, un bon ensemble de données est devenu une ressource précieuse. Mais que se passe-t-il si vous ne l'avez pas maintenant et que vous n'êtes pas Google et que vous ne pouvez pas investir des ressources gigantesques? Il s'avère qu'il n'est pas toujours nécessaire de prendre des données «réelles» du monde réel, et dans certaines conditions, elles peuvent être générées littéralement. Le rapport traite d'un cas spécifique de ce type.




Réseaux convolutionnels profonds pour la détection d'objets et la segmentation d'images


Conférencier: Sergey Nikolenko
Emplacement: 7
Évaluation: 4,24 ± 0,17
Le nombre de téléspectateurs: ~ 80
Présentation du rapport

Si vous êtes encore loin de la machine / du deep learning en général, alors les 20 premières minutes de ce rapport peuvent bien se présenter: il y a une introduction approfondie au sujet avec une excursion historique à partir des années 1950. Et si vous comprenez tout à ce sujet dans son ensemble, mais que vous ne comprenez pas le sous-thème des réseaux convolutionnels profonds, vous pouvez ignorer l'introduction tout de suite et faire attention à la seconde moitié du rapport, où il va aux réseaux de neurones alambiqués.




Haute disponibilité Hadoop: expérience Badoo


Conférencier: Alexander Krashennikov
Emplacement: 8
Évaluation: 4,22 ± 0,14
Le nombre de téléspectateurs: ~ 100
Présentation du rapport

Il semble qu'en plus du concept de «big data», la «croissance des données» serait également utile, car la croissance dicte ses spécificités. Une fois que Badoo avait des ordres de grandeur de données plus petits et une seule approche, les volumes ont augmenté et des changements ont été nécessaires - et il faut garder à l'esprit que demain tout peut encore se renforcer, en faisant tout «avec une marge».

Les entreprises se sont intéressées à la combinaison de «Hadoop» et de «temps réel» même lorsqu'elles écrivaient habituellement «incompatible» entre ces deux mots, et maintenant elles ont parlé de leur expérience avec Hadoop et de la haute disponibilité dans son cas. Bonus: un peu de créativité de Vasily Lozhkin sur les slides.


Nous segmentons 600 millions d'utilisateurs en temps réel chaque jour


Conférencier: Artyom Marinov
Emplacement: 9
Évaluation: 4,21 ± 0,09
Le nombre de téléspectateurs: ~ 120
Présentation du rapport

Ici, le projet est très différent de Badoo: pas de rencontres, mais DMP (plate-forme de gestion des données), où vous souhaitez mettre en avant des segments comme «les femmes au foyer avec une voiture de plus de cinq ans» auprès du public. Mais, premièrement, il y a aussi une grande échelle (environ cent mille événements par seconde). Et deuxièmement, ici, vous devez être encore plus prêt pour la croissance: "parmi les sources de données - l'installation de pixels, si demain le site Web très populaire met votre pixel en lui-même - il y aura un énorme flux qui devra être traité." À quelles technologies font-ils face et comment sont-ils utilisés exactement? Réponses dans le rapport.




ML distribué sur les mégadonnées: expérience dans la construction d'un système de recommandation dans ivi


Conférencier: Boris Schminke
Emplacement: 10
Évaluation: 4,21 ± 0,09
Le nombre de téléspectateurs: ~ 100
Présentation du rapport

Enfin, le dernier rapport est également «sur l'infrastructure, pas sur les algorithmes», et également basé sur l'expérience d'un grand produit. Il était une fois, ivi a commencé à mettre en œuvre des recommandations en utilisant un service tiers qui fournissait des «recommandations en tant que service». Puis ils en ont «grandi» et ont commencé à créer leur propre système. Sur Habré, la société a écrit à ce sujet en 2014, et à partir du rapport, vous pouvez en savoir plus sur l'état actuel des choses.


Si ces rapports sont intéressants, veuillez noter: SmartData 2018 aura lieu cet automne. Des conférenciers séparés de ce top 10 reviendront avec de nouveaux rapports, il y aura des noms complètement nouveaux. Les informations les plus à jour sur le programme peuvent toujours être consultées sur le site Web , vous pouvez également y acheter des billets - et leur prix augmente progressivement, alors vous devriez penser maintenant.

Source: https://habr.com/ru/post/fr416985/


All Articles