Conférence de Budapest (29-31 octobre) Data Crunch

Cette année, j'ai assisté à la conférence Data Crunch à Budapest consacrée à l'analyse des données et à l'ingénierie des données. Des conférenciers de Linkedin, Uber, Github et de nombreuses entreprises de second niveau sont invités à cette conférence, où les gens partagent leurs expériences ou parlent d'outils de données. Eh bien, ce qui est tout aussi intéressant pour moi, c'est de parler avec les participants de la conférence pour comprendre en quoi notre réalité russe diffère de l'Europe et des États-Unis.


Pour que je note ceci:


  1. Full Stack Data Sceince - 2 rapports ont été consacrés à peu près au même sujet que celui que j'ai écrit auparavant . Faites de DS / DA une personne capable de résoudre les problèmes du début à la fin. Ne divisez pas le travail en "fonctions", mais divisez le DS en "sujets". C'est-à-dire travailler avec des données n'est pas une division en parties entre ceux qui préparent, traitent, analysent, construisent des modèles et visualisent, mais cette division de «sujets» entre des spécialistes qui peuvent tout faire complètement.
  2. De zéro à héros - les gars ont raconté comment ils ont construit leur département DS à partir de zéro. En général, comme d'habitude, les idées sonores ordinaires fonctionnent:
    • 2 DS comme taille minimale de l'équipe.
    • et 2 ingénieurs de données pour eux.
    • Propriétaire du produit B, qui communiquerait avec l'entreprise.
    • Construisez un bon écosystème. Les intervenants se noient généralement pour l'open source. Chaque rapport mentionne généralement Hadoop. Le problème est vrai à bien des égards en ce que dans le projet dans lequel je travaille, ainsi que de nombreux lecteurs, aucun Hadoop n'est nécessaire, car il n'y a pas cette quantité de données là où il y aurait un gain. En général, mon attitude vis-à-vis de l'open source est d'essayer, d'étudier, mais si votre entreprise a déjà acheté quelque chose, continuer à vivre dans l'écosystème des logiciels propriétaires peut être plus rentable que de se précipiter vers d'autres technologies, puis de les «jumeler» ou de les apprendre à partir de zéro.
    • Testez ce que vous faites. Tests A / B et évaluation des résultats. Curieusement, mais un simple conseil ne fait pas tout dans la pratique.
  3. Démocratisation des données dans Uber - à ce sujet, j'ai déjà écrit un article séparé
  4. Éthique de l'IA - a expliqué que de nombreuses tâches ont plusieurs optima fondamentalement différents. Conditionnellement, vous pouvez avoir une décision «efficace» et une «décision éthique». Et le problème est que leur maximisation se produit dans des conditions différentes. Et il n'y a pas de bonne solution en mathématiques ou en algorithmes. C'est aux gens de décider ce qu'ils veulent de leurs "voitures". À titre d'exemple, l'orateur a déclaré que l'algorithme d'évaluation des risques de rechute du crime tend à donner une évaluation des risques accrue aux Noirs américains. Cette évaluation des risques est utilisée pour prendre des décisions sur la libération conditionnelle. Le dilemme est que la «discrimination» socialement inacceptable des Noirs se traduit par une augmentation subséquente objectivement inacceptable de la criminalité de la part de ceux qui ont été libérés avant la date prévue en vain. Et il est impossible de combiner les deux solutions dans un seul algorithme. Il est intéressant de noter que la communauté noire des États-Unis commet principalement des crimes contre ses propres «frères et sœurs» noirs, de sorte que même une tentative pour «égaliser» les blancs et les noirs n'est pas en danger, mais selon le nombre de ceux qui ont été libérés, elle entraînera une augmentation disproportionnée du nombre de victimes de violences parmi les noirs.
  5. ML et guerre de l'information - le mec a raconté comment, en analysant le texte et les liens les uns avec les autres, et sur Facebook, il a trouvé une activité suspecte sur Facebook avant les élections de Trump. Il affirme que quelqu'un a massivement supervisé l'agenda «russe», de sorte que la langue parlée par les groupes conservateurs est devenue plus raciste. Il a étudié cela en analysant le vocabulaire utilisé dans les groupes néo-nazis, puis l'a comparé avec le langage des conservateurs. Et il a constaté que le lexique avait commencé à se rapprocher avant l'élection de Trump, bien que rien de tel n'ait été observé auparavant. En général, il a laissé entendre que Poutine est à blâmer :)

Des conversations avec les personnes présentes à la conférence:


  1. R contre Python. Les gens vivent avec deux outils et généralement R est aimé par les gens issus des sciences et des mathématiques, et le python est aimé par les gens issus du développement. L'utilisation la plus courante de R est pour l'exploration, Python pour le pipeline. Les modèles écrivent sur les deux. J'ai une expérience personnelle dans la production de modèles de production sur R, par exemple.
  2. Tests A / B - la mise en œuvre d'une évaluation régulière de vos actions et le choix de solutions basées sur des tests A / B restent une pratique rare pour les entreprises (sur une douzaine de groupes à qui j'ai parlé, un seul a des tests A / B). Les gens ne veulent pas dépenser de l'énergie pour les tests A / B, ils disent qu'ils savent déjà ou le PDG "voit" comment ...
  3. Tout le monde a des problèmes de communication - avec les managers, avec les clients, au sein de l'entreprise, etc. L'amélioration des communications est un point de croissance pour presque toutes les équipes.
  4. Le travail principal sur l'apprentissage automatique ne va pas dans le sens du choix des modèles les plus cool, mais de l'ingénierie et de la préparation des données. Ni Google ni Facebook n'ont de modèles «secrets», mais l'efficacité de leurs algorithmes est plus probable dans le traitement et la préparation des données pour ces modèles. C'est généralement une bonne nouvelle, car cela signifie que le xgboost public ou la régression est l'algorithme de pointe pour la plupart des tâches.

Source: https://habr.com/ru/post/fr430278/


All Articles