Démocratisation des données Uber

Bonjour à tous!


Sous Halloween, j'ai assisté à une conférence à Budapest ( Data Crunch ) et écouté un certain nombre de présentations intéressantes. L'un d'eux était d'Uber, qui a parlé des approches sur lesquelles ils ont organisé leur plate-forme de gestion des données. Ce rapport n'était pas tant technique que managérial et d'épicerie.


Uber utilise largement les données qu'il recueille en raison des interactions avec les passagers et les conducteurs. Ils calculent le coût du voyage, évaluent le flux de personnes, modifient les algorithmes de prix, donnent des recommandations aux conducteurs sur la façon dont ils peuvent gagner plus d'argent et tout cela sur la base des données collectées. Dans une telle entreprise, tous les travaux sur les données ne peuvent pas être concentrés entre les mains d'un groupe d'analystes et de DS, car sinon, ils devront en embaucher trop, et en plus, ils ne sont pas toujours plongés dans le contexte des affaires.


Dès le début, la société a choisi de créer une plate-forme de gestion des données qui permettrait l'utilisation d'outils d'analyse assez avancés à un large éventail d'utilisateurs. Ils ont identifié 4 groupes principaux:


  1. Utilisateurs ordinaires - ils connaissent le SQL de base, ils ont simplement besoin de tableaux de données et de tableaux de bord)
  2. Directeurs régionaux - ils connaissent un peu plus le SQL, regardent les données dans différentes sections, il y a un grand besoin de slice & dice
  3. Analystes de données - SQL avancé, créer des tableaux de bord, faire des recherches, rechercher des informations dans les données
  4. Science des données - le niveau maximum de compréhension de l'utilisation des données, de la construction de modèles, de la réalisation d'expériences, de tests A / B, etc.
    En marge, j'ai également appris d'eux qu'il existe en fait un 5ème niveau - les cadres supérieurs qui utilisent principalement des rapports et des tableaux de bord de haut niveau.

Fait intéressant, dans Uber, les personnes qui travaillent d'une manière ou d'une autre avec des données devraient connaître SQL au moins au niveau minimum.


À titre d'exemple du produit qu'ils ont créé sur la base de leur plateforme, ils ont cité l'automatisation des tests A / B. La société dépense une énorme quantité d'A / B et alloue à chaque Data Scientist, afin qu'il organise une expérience et donne ensuite une évaluation des tests - encore une fois, ce n'est pas un luxe admissible. Par conséquent, ils souhaitent donner aux utilisateurs ordinaires la possibilité d'interpréter et d'utiliser A / B correctement et sans erreur, sans charger le Data Scientist.


Leur construction de ce produit a commencé par un travail approfondi avec Data Scientist, si ces gars ne sont pas sûrs que tout est considéré comme correct, aucun produit Data ne sortira. En fait, ils ont commencé à automatiser le lancement et l'évaluation des tests A / B, donnant à Data Scientist un outil pour leur faciliter la vie. Après cela, ils ont construit une interface sur cet outil qui montrerait les résultats du test sous une forme simple (ce qui a été lancé, quelle différence, si la différence est significative). Dans le même temps, ils ont caché «sous le capot» le nombre maximum de nuances inhérentes aux tests A / B afin que l'utilisateur n'ait pas besoin de plonger profondément dans les mathématiques et les statistiques.


Fait intéressant, la plupart des personnes avec qui j'ai parlé des pauses-café ont déclaré ne pas avoir de tests A / B dans leur pratique, utiliser beaucoup de recherche qualitative et d'intuition pour prendre des décisions. Donc comme ailleurs, une fois que vous pensez, vous devez couper!

Source: https://habr.com/ru/post/fr428772/


All Articles