🧐 🍕 🎎 Le film dans lequel il y avait de la terre. Recherche sur Yandex et bref historique de la recherche par sens 👩🏽‍🤝‍👩🏼 🧔 💇

Parfois, les gens se tournent vers Yandex pour trouver un film dont le nom leur est sorti de la tête. Ils décrivent l'intrigue, des scènes mémorables, des détails saisissants: par exemple, [quel est le nom du film où un homme choisit une pilule rouge ou bleue]. Nous avons décidé d'étudier les descriptions des films oubliés et de découvrir ce dont les gens se souviennent le plus dans les films.

Aujourd'hui, nous partagerons non seulement un lien vers nos recherches , mais nous parlerons également brièvement de l'évolution de la recherche sémantique de Yandex. Vous apprendrez quelles technologies aident la recherche à trouver la réponse même s'il est tout simplement impossible de formuler la demande exacte.

Et nous avons également ajouté des curseurs d'énigmes avec des exemples de demandes de personnes réelles - sentez-vous comme un moteur de recherche et essayez de deviner la réponse.

Tous les moteurs de recherche ont commencé par une recherche de mots. Yandex déjà au départ était capable de prendre en compte la morphologie de la langue russe, mais c'était toujours la même recherche de mots à partir d'une requête sur des pages du réseau. Nous avons conservé des listes de toutes les pages connues pour chaque mot. Si la demande contenait une phrase, il suffisait de traverser les listes de mots - voici la réponse. Cela fonctionnait très bien à l'époque où il y avait peu de sites, et la question du classement n'était pas encore aussi aiguë.

Runet s'est développé, les sites sont devenus de plus en plus nombreux. Deux autres facteurs ont été ajoutés au facteur de croisement de mots. D'une part, les utilisateurs eux-mêmes nous ont aidés. Nous avons commencé à réfléchir aux sites et aux requêtes qu'ils choisissaient. Il n'y a pas de correspondance exacte des mots, mais le site résout-il le problème humain? Ceci est un signal utile. En revanche, les liens entre sites qui ont permis d'évaluer la signification des pages sont venus à la rescousse.

Trois facteurs sont très peu nombreux. Surtout quand ils sont souvent essayés par les optimiseurs de moteur de recherche très talentueux. Mais digérer davantage à la main était difficile. Et c'est ici qu'a commencé l'ère de l'apprentissage automatique. En 2009, nous introduisons Matrixnet basé sur le boost de gradient (plus tard, cette technologie a formé la base de la bibliothèque open source plus avancée CatBoost ).

Depuis lors, il y a eu de plus en plus de facteurs, car nous n'avons plus à rechercher manuellement les relations entre eux. Une voiture l'a fait pour nous.

Pour l'histoire de tous les changements ultérieurs dans la recherche, non seulement le message, mais aussi les livres suffiront, nous allons donc essayer de nous concentrer sur les plus importants.

Le classement n'est pas seulement une comparaison des mots de la requête et de la page depuis longtemps. Deux exemples.

En 2014, nous avons introduit la technologie d'annotation de documents avec des requêtes caractéristiques. Supposons que dans le passé il y ait eu une demande [une série du Brésil sur le roi de la viande], pour laquelle une bonne réponse est déjà connue. Ensuite, un autre utilisateur saisit une requête [la série brésilienne dans laquelle il y avait un roi de la viande et un roi du lait], pour laquelle la machine ne connaît pas encore la réponse. Mais ces requêtes ont de nombreux mots communs. C'est un signal que la page trouvée sur la première demande peut être pertinente sur la seconde.

Un autre exemple. Prenons des enquêtes [la série brésilienne dans laquelle il y avait un roi de la viande et un roi du lait] et [un héritage fatal en série]. Sur le total, ils n'ont qu'un seul mot - "série", et cela ne suffit pas pour une correspondance explicite des demandes. Dans ce cas, nous avons commencé à prendre en compte l'historique de la recherche. Si deux demandes différentes sont demandées sur les mêmes sites lors de l'émission, alors nous pouvons supposer que les demandes sont interchangeables. Ceci est utile car nous allons maintenant utiliser le texte des deux requêtes pour rechercher des pages plus utiles. Mais cela ne fonctionne que pour les demandes répétées lorsqu'il existe déjà au moins quelques statistiques. Que faire des nouvelles demandes?

Le manque de statistiques peut être compensé par l'analyse de contenu. Et dans l'analyse de données homogènes (texte, voix, images), les réseaux de neurones se montrent le mieux. En 2016, nous avons d'abord parlé à la communauté Habr de la technologie Palekh , qui est devenue le point de départ d'une utilisation plus large des réseaux de neurones dans la recherche.

Nous avons commencé à former le réseau neuronal pour comparer la proximité sémantique (sémantique) du texte de la requête et du titre de la page. Deux textes sont représentés sous forme de vecteurs dans un espace multidimensionnel de sorte que le cosinus de l'angle entre eux prédit bien la probabilité de choisir une page par une personne, et donc la proximité sémantique. Cela vous permet d'évaluer la proximité des significations même des textes dans lesquels il n'y a pas d'intersection de mots.

Un exemple d'architecture de couches pour les curieux

De la même manière, nous avons commencé à comparer des textes de requête afin d'identifier des liens entre eux. Un exemple réel sous le capot d'un moteur de recherche: pour une requête [la série américaine sur la façon dont la méthamphétamine est bouillie], c'est le réseau de neurones qui trouve les expressions [signifiant mauvais] et [cassant] comme ayant un sens similaire.

Les demandes et les en-têtes sont déjà bons, mais nous n'avons pas renoncé à espérer utiliser les réseaux de neurones dans le texte intégral des pages. De plus, lorsque nous recevons une demande de l'utilisateur, nous commençons à sélectionner les meilleures pages parmi des millions de pages d'index, mais à Palekh, nous avons utilisé des modèles de réseau neuronal uniquement aux toutes dernières étapes du classement (L3) - pour environ 150 des meilleurs documents. Cela peut entraîner la perte de bonnes réponses.

La raison en est prévisible - ressources limitées et exigences élevées en termes de vitesse de réponse. Les limites strictes des calculs sont liées à un simple fait: vous ne pouvez pas forcer l'utilisateur à attendre. Mais ensuite, nous avons trouvé quelque chose.

En 2017, nous avons présenté la mise à jour de la recherche Korolev, qui comprenait non seulement l'utilisation élargie des réseaux de neurones, mais également un travail sérieux sur l'architecture pour économiser les ressources. Plus en détail, avec des diagrammes de couches et d'autres détails que nous avons déjà racontés dans un autre post sur Habré, mais maintenant nous allons rappeler l'essentiel.

Au lieu de prendre le titre du document et de calculer son vecteur sémantique lors de l'exécution de la requête, vous pouvez pré-calculer ce vecteur et l'enregistrer dans la base de données de recherche. En d'autres termes, nous pouvons faire une partie substantielle du travail à l'avance. Bien sûr, en même temps, nous avions besoin de plus d'espace pour stocker des vecteurs, mais cela nous a fait gagner du temps processeur. Mais ce n'est pas tout.

Un autre schéma pour les curieux

Nous avons construit un index supplémentaire. Il est basé sur l'hypothèse: si vous prenez une liste suffisamment grande des documents les plus pertinents pour chaque mot ou expression pour une requête de plusieurs mots, alors parmi eux il y aura des documents qui seront pertinents en même temps pour tous les mots. En pratique, cela signifie cela. Pour tous les mots et paires de mots populaires, un index supplémentaire est formé avec une liste de pages et leur pertinence préliminaire à la requête. Autrement dit, nous transférons une partie du travail de l'étape L0 à l'étape d'indexation et, à nouveau, nous enregistrons.

En conséquence, un changement d'architecture et une redistribution des charges nous ont permis d'utiliser des réseaux de neurones non seulement au stade L3, mais aussi pour L2 et L1. De plus, la possibilité de former un vecteur à l'avance et avec des exigences de performance moins strictes nous a permis d'utiliser non seulement le titre de la page, mais aussi son texte.

Plus c'est plus. Au fil du temps, nous avons commencé à utiliser les réseaux de neurones au tout début du classement. Nous enseignons aux réseaux de neurones à identifier les modèles implicites dans l'ordre des mots et leurs positions relatives. Et même pour révéler la similitude sémantique des textes dans différentes langues. Chacun de ces domaines est attiré par un article distinct, et nous essaierons de revenir avec eux dans un proche avenir.

Aujourd'hui, nous avons rappelé une fois de plus comment les moteurs de recherche apprennent à trouver la réponse dans les conditions d'une vague interrogation et d'un manque d'informations. La recherche de films par leur description n'est pas seulement un cas particulier de telles demandes, mais aussi un grand sujet de recherche . De là, vous apprendrez: ce qui est le plus retenu par les gens du cinéma, avec quels différents genres et cinématographes de différents pays sont associés, quels mouvements de l'intrigue font une impression particulière.

Le film dans lequel il y avait de la terre. Recherche sur Yandex et bref historique de la recherche par sens

More articles: