🛌🏽 🧜 🎦 Expériences d'infrastructure A / B dans la grande recherche. Rapport Yandex 🙅🏽 ✂️ 😭

Les tests A / B sont un moyen puissant de tester les interfaces avant de publier à un public entier. J'ai décidé de dire en quoi cet outil consiste, de quelles fonctionnalités de journalisation il dispose, comment les métriques sont compilées et quelle est l'essence des expériences dans l'interface. Parlons de leur appareil et de leurs services pour résoudre les tâches analytiques quotidiennes. Nous allons discuter de plusieurs pistes de développement pour un développeur qui semble déjà capable de tout faire mais qui en veut plus.

- Mon nom est Lesha, je travaille dans la recherche et développe les résultats de recherche de produits les plus importants, probablement Yandex.

Vous avez tous, d'une manière ou d'une autre, déjà utilisé l'une des recherches. Quelques termes. Le problème se compose de différents blocs. Il existe de simples documents organiques que nous collectons sur Internet et que nous savons comment présenter, et il existe des blocs spéciaux que nous affichons en tant que balisage spécial. Nous connaissons beaucoup de données sur leur contenu. Ces blocs sont appelés sorciers. Terminologie spécifique adoptée par Yandex et pas seulement.

Aujourd'hui, je veux vous dire comment nous menons des expériences, quelles nuances, quels outils et quelles merveilleuses inventions sont dans nos zashniks dans ce domaine de notre activité.

À quoi servent les tests A / B?

Par où commencer? Pourquoi Yandex a-t-il besoin d'expériences A / B?

J'aimerais commencer par les paroles. Il n'y a pas si longtemps, avec ma fille, j'ai regardé un court métrage scientifique «4,5 milliards d'années en 40 minutes. Histoire de la Terre. " Il y a très souvent des expériences A / B. Y compris ces derniers. J'ai essayé de faire l'un des plus intéressants et amusants de cette diapositive. C'est alors que l'évolution a plusieurs branches. Par exemple, il existe deux familles: les marsupiaux et le placentaire. Et comme nous le voyons maintenant, placentaire gagne en quelque sorte. C'est pourquoi ils gagnent.

C'est déjà le cerveau humain conçu. Dans le développement prénatal et ultérieur des marsupiaux, la boîte du crâne durcit rapidement et empêche le cerveau de se développer. Et dans le placentaire, tout progresse, tout est mou jusqu'à ce que le cerveau se plie avec des sillons, la surface s'agrandit, ce qui refroidit le néocortex. En conséquence, le placentaire gagnera en évolution. À quoi ça sert? La nature a une évolution et ses forces motrices sont la mutation et la sélection naturelle, comme vous le savez probablement.

La société a une analogie avec les expériences A / B de la nature: toute entreprise veut se développer de manière stable et investit certains efforts, en utilisant les expériences A / B comme moyen de muter quelque chose, de changer quelque chose. La société utilise toute la puissance mathématique de l'analyse pour sélectionner ces mêmes expériences.

Les expériences A / B et toute l'évolution visent à atteindre des objectifs, à pouvoir s'observer de l'extérieur, à se comparer aux concurrents et à rechercher de nouvelles niches, hypothèses. Pour les développeurs en général, en particulier pour les fournisseurs frontaux, il est important de tester de nouvelles fonctionnalités sur une petite fraction de la production.

Une courte histoire ressemble à ceci. On peut dire que 2010, lorsque nos chefs de produit ont fait les premières expériences A / B, est une telle post-période après le Big Bang. Certains amas d'étoiles commencent tout juste à apparaître, une compréhension de la façon de mener des expériences A / B, de ce qu'il faut regarder, de la façon de se connecter. Les premières bosses, les premières erreurs, se sont accumulées.

Au cours de cette période de 2010 à 2019, nous avons obtenu des résultats significatifs. Aujourd'hui, tous ces termes concernant les journaux, les expériences, les métriques, les objectifs, les réalisations, etc. sont déjà fondamentaux pour nous, en particulier pour les nouveaux arrivants aux nouveaux développeurs. C'est notre argot, notre mentalité interne à Yandex.

Big Search

Nous passons directement à la viande, à propos de la grande recherche. Big Search dans sa structure ressemble à ceci.

Nous avons un navigateur, un équilibreur, beaucoup de centres de données et une énorme infrastructure riche sous le capot. Le diagramme montre que l'appareil est complexe, il existe de nombreux composants. Et ce qui est le plus surprenant, tous ces composants sont capables de mener des expériences A / B et, bien sûr, d'écrire et d'analyser des journaux.

Journaux

Les journaux sont écrits par de très nombreux composants. Bien sûr, il est plus intéressant pour nous de parler dans le contexte du frontend. Le frontend enregistre deux grandes tranches importantes. Il s'agit de journaux purement techniques liés à la mesure directe d'un certain temps, des performances sur les appareils clients. Mesure réelle de l'utilisateur, métriques RUM. Voici les temps avant le premier octet, avant le premier rendu, avant de charger tout le contenu DOM et avant l'interactivité.

Parallèlement à cela, il existe des journaux écrits par la composition du serveur et du client. Ce sont des journaux d'épicerie. Dans nos réalités, même ici, il existe un terme «baobab». Pourquoi le baobab? Parce que l'arborescence: l'arborescence des composants, l'arborescence des fonctionnalités, dans laquelle l'un des principaux journaux est les journaux d'impressions, de clics et d'autres événements techniques que nous enregistrons pour une analyse ultérieure.

Cette diapositive montre un outil pour stocker des journaux dans Yandex et pour l'informatique distribuée. Nous l'avons appelé Yandex Tables, YT . Tout ce qui a été développé dans Yandex porte la lettre Y. J'ai essayé de rappeler l'analogue de cet outil dans le monde extérieur. À mon avis, Facebook a un outil MapReduce appelé Hadoop. Il vous permet d'implémenter le stockage et le calcul.

La diapositive montre les statistiques du 8 août de cette année. L'un des journaux de recherche les plus précieux, les sessions utilisateur, représente 54 téraoctets par jour sous sa forme. Il s'agit d'une énorme quantité d'informations qui ne peuvent pas être pellées sous leur forme brute. Par conséquent, il faut être capable de construire des histoires de haut niveau.

Pour travailler avec des journaux, en particulier, tous nos développeurs particulièrement expérimentés doivent maîtriser une sorte d'outil d'analyse.

À l'intérieur de Yandex, il existe un outil YQL . Il s'agit d'un langage de requête et de calcul de type SQL sur nos journaux, qui vous permet de créer toutes sortes d'environnements, d'effectuer uniquement des analyses de bas niveau, de regarder directement des nombres spécifiques, des centiles moyens et de générer des rapports. L'outil est assez puissant, il a une énorme API branchée et de nombreuses fonctionnalités. De nombreux processus d'infrastructure sont construits sur sa base.

De plus, parmi nos développeurs front-end et, en particulier, les analystes, l'outil Jupyter est très demandé et populaire. Il est déjà possible avec la puissance des outils Numpy et d'autres que vous connaissez, par exemple Pandas, de faire une sorte de transformations et d'analyses de haut niveau sur nos journaux.

Nous apprécions vraiment les journaux, nous nous battons littéralement pour chaque entrée. Pour ce faire, dans le référentiel de notre projet de recherche, il y a des tests dans le code frontal qui nous permettent de vérifier que tous les événements sont correctement enregistrés. Nous écrivons des tests pour chacune de nos fonctionnalités, nous pouvons vérifier un script spécifique, cliquer sur certains liens, boutons, faire défiler certaines galeries dans notre interface et voir exactement ce que le nombre de journaux est enregistré exactement avec les valeurs que nous attendons, que nous avons enregistrées, pour lesquelles nous avons fait certaines normes. Et puis nous allons entrer dans ces valeurs de référence.

Nous accordons également une grande attention aux performances de nos interfaces. Dans toute demande de pool avec de nouvelles fonctionnalités ou refactoring de fonctionnalités existantes, nous portons une grande attention aux délais, volumes, nombre d'appels de certaines fonctions. Sur la diapositive se trouve l'un des rapports d'une demande de pool complètement aléatoire. Nous avons deux étapes de recherche, l'une est de type ajax: nous chargeons d'abord l'en-tête sur la page avec la flèche de recherche, et lorsque toutes les sources de recherche fonctionnent, nous pouvons toujours mesurer les temps du modèle et toutes les performances lors du rendu de la partie principale de la sortie.

Pour nous, comme, bien sûr, et pour tout autre sujet informatique, les erreurs de production et dans des environnements spéciaux sont très importantes. Nous avons un outil appelé booster d'erreurs, qui vous permet de regarder les vraies erreurs de production en temps réel avec un assez bon délai. Sous le capot, cet outil utilise la base de données ClickHouse, dans laquelle les demandes sont traitées assez rapidement, et la base de données elle-même est conçue pour un travail analytique. La plupart des interactions sont implémentées spécifiquement avec ClickHouse.

Nous avons parlé des grumes, de leurs variétés. Il y en a beaucoup. Afin de déplacer des expériences et d'analyser quelque chose, de prendre des décisions sur quelque chose, nous avons un grand nombre de métriques. Ce sont des circonvolutions sur de gros volumes de données brutes.

Mesures

Yandex compte désormais environ 8,6 milliers de métriques différentes basées sur les mêmes journaux bruts - et des niveaux supérieurs, tels que la recherche et les sessions utilisateur. Ils sont très divers, et souvent précisément orientés vers les fonctionnalités. Autrement dit, ce sont des mesures spécifiques à un sorcier particulier, un bloc spécifique, une tranche de demandes, le type de documents que nous affichons.

Dans nos scénarios de test, il est possible de vérifier la valeur des métriques dans nos propres interfaces. Lorsque nous avons perdu certains scénarios, nous pouvons regarder les résultats des calculs sur les journaux et trouver certaines valeurs métriques.

Les métriques de vitesse jouent un rôle important. Tous sont assez simples et arrangés. Il s'agit généralement soit d'une sorte de centile, soit de la valeur moyenne et de son écart et de sa signification statistique.

Ils sont nombreux, ils prennent en compte à la fois le temps de standardisation et le temps de livraison du contenu sur l'appareil de l'utilisateur.

Les performances directes du client sont également prises en compte: temps de rendu, temps d'interactivité, etc.

Les expériences

Alors, comment menons-nous des expériences? Par exemple, deux utilisateurs ont soudainement décidé d'utiliser la recherche Yandex. Nous nous sommes mis d'accord - nous allons aujourd'hui, par exemple, chez Starbucks, et nous le recherchons à l'aide de notre recherche. Leurs demandes, tombant dans l'infrastructure de nos sources de recherche, sont marquées de certains marqueurs. Par marqueurs, ces utilisateurs entrent dans divers paniers d'expériences. Chaque panier contient un ensemble spécifique de drapeaux qui activent des expériences dans chacune des sources de recherche. Par exemple, ces deux utilisateurs sont allés aux résultats de recherche et ont utilisé des indices de recherche. Le premier introduit "Starbucks", voit quelques indices mot à mot sous forme de mots. Quand il se retrouve avec une recherche, il voit un bloc sur cette organisation, dit - oui, je l'ai trouvé, j'y vais. Et le deuxième utilisateur découvre un indice de navigation déjà dans l'interface des indices de recherche, passe rapidement à l'organisation et reçoit une réponse plus rapidement.

Pour toute cette variété de changements, différences d'interface, dans une certaine fonctionnalité, l'outil BEM est responsable. Ce n'est pas seulement un cadre, mais toute une méthodologie pour la déclaration des composants visuels, leurs modifications. Même ici en arrière-plan se trouvent les chromosomes mêmes de l'ADN qui semblent muter à travers le bem. En fait, le bem est l'ADN de Yandex, l'ADN des expériences à l'avant.

Il existe plusieurs implémentations dans la méthodologie. L'un d'eux se trouve sur la pile i-bem déjà établie, qui se trouve quelque part sous le capot connecté à jQuery. C'est déjà une technologie assez mature. Sur une telle pile, nous pouvons résoudre beaucoup de problèmes. Aujourd'hui, la technologie bem-react, qui est déjà implémentée sur le framework React et le langage TypeScript, gagne en puissance et en développement. Tous ces outils vous permettent de construire des expériences et de prêcher l'idée principale - la possibilité de déclarer les composants visuels et leurs modifications. Nous avons un tout autre niveau dans le référentiel avec les déclarations de ces mêmes expériences. Mais vers 2015, ils ont réalisé qu'il n'était pas rentable sur le plan économique de diffuser nos indicateurs expérimentaux sur l'ensemble du code frontal. Le fait est que les unités d'expériences atteignent une production réelle, et tout ce qui n'est pas utilisé est très difficile à découper plus tard dans le code. Par conséquent, nous les avons expulsés à un niveau de définition distinct. Et là encore grâce à la méthodologie bem, qui nous a permis d'utiliser des niveaux de redéfinition. Nous déclarons nos expériences sur eux.

Ceci est l'un des rapports d'expériences. Deux colonnes: contrôle et expérience. Avant vous, il n'y a même pas tout ce qui est dans le rapport. Pourquoi est-il si long? Tout d'abord, vous avez vu combien de mesures nous avons - 8,6 milliers.

Mais le rôle principal n'est en fait joué que par les métriques qui diffèrent. Et nous pouvons mener nos expériences en même temps, c'est-à-dire que sur un utilisateur, nous pouvons avoir simultanément une vingtaine d'expériences. Ils n'entrent pas en conflit les uns avec les autres, et dans toutes nos expériences, seules leurs métriques de produit pur sont colorées, sans affecter les uns les autres. Maintenant, il y a environ 800 expériences en production: non seulement des moteurs de recherche, mais aussi de tant de services. L'outil s'appelle AB, ce qui n'est pas surprenant. Les services démarrent des expériences, déclarent certains échantillons, puis examinent les différences entre les métriques, qui après une certaine période commencent à différer en termes d'expérience et de contrôle.

Rôles de développeur associés

En raison de cette diversité dans le travail des développeurs front-end, il y a même des rôles parmi eux. Il y a des experts en expérimentations, et pour cela nous donnons officiellement des réalisations dans le cadre du réseau interne Yandex, les gens passent vraiment les examens. Ils analysent les expériences, valident leurs résultats sur les experts et obtiennent un passeport qui dit: "Je suis analyste, je peux analyser les expériences." Et en général, tout travail avec des expériences, avec nos métriques, se concentre principalement sur l'amélioration du produit lui-même. Je suis l'un des représentants, je suis très motivé pour développer le produit, et pas seulement le code et pas la technologie. Et cela me motive vraiment lorsque je viens en équipe et que je fabrique un produit.

Quel est le résultat net? Nous avons un grand nombre de journaux écrits quotidiennement dans nos systèmes de stockage. Il existe un grand nombre de métriques que nous calculons, nous effectuons des expériences sur celles-ci. Très grande infrastructure. Le meilleur outil moderne qui vous permet d'implémenter un grand nombre d'outils est le package bem-react. Nous accordons une grande attention aux indicateurs de vitesse et de qualité, à la stabilité du produit. Et en général, nous développons dans nos développeurs de plus en plus de nouveaux rôles liés à la spécialité principale - le frontend. J'ai tout. Merci de votre attention.