Vie quotidienne MT_FREE: plusieurs histoires sur l'influence des services tiers sur le travail du Wi-Fi public



Internet est un environnement vaste et dynamique où tout est connecté d'une manière ou d'une autre et peut s'influencer mutuellement. Une telle relation, lorsqu'un petit changement dans une partie du système peut entraîner un changement complet dans une autre, est communément appelée «effet papillon». L'effet illustre parfaitement comment une "chaussure bien placée sur la console" peut faire tomber un service majeur et en même temps quelques étrangers ... Nous en parlerons.

Il y a cinq ans, lorsque le Wi-Fi dans le métro venait d'apparaître ...


... c'était un phénomène qui divisait la vie des Moscovites en «avant» et «après». À cette époque, le projet était le seul au monde et tout y était tout aussi unique: structure de réseau, modèle de monétisation, services aux utilisateurs, approches de construction et d'exploitation.

Presque depuis le lancement du premier segment du Wi-Fi dans le métro, nous avons obtenu l'autorisation et notre propre portail média. Nous avons généreusement expérimenté le portail en termes d'intégration avec des services tiers, en fait, en explorant les capacités de notre modèle commercial ("et si nous vendons du café dans le métro avec livraison à l'entrée du hall?!").

Au début, nous avons activement impliqué des partenaires de divers domaines dans notre travail. Mais presque chaque publication d'un nouveau service affilié a entraîné la chute de ce dernier sous la charge et la nécessité d'une annulation d'urgence des changements. Peu de personnes peuvent survivre à des milliers de nouvelles demandes par minute, et certaines sont en principe incapables en raison de l'architecture non évolutive. La présence d'un tel problème nous a fait suivre les performances des services d'affiliation, dont dépend directement l'expérience utilisateur. Et aussi développer des mécanismes pour réduire cette dépendance (proxy, cache).

Une fois qu'un grand cri dans le bureau de "Five Hundred" a mis en marche toute l'entreprise - maintenant de telles situations ne se produisent pratiquement pas. A l'écran à partir de juillet 2015, le résultat du lancement d'un service de vente de fleurs avec livraison sur notre sous-domaine.

Mais l'évolution ne va jamais vite. Avant de construire le système actuel, nous devions «remplir les cônes» et vivre toute une série d'accidents sur notre propre expérience. De plus, le processus ne s'arrête pas: plus nous approfondissons les problèmes, plus nous identifions les dépendances les plus inattendues. Avec le recul, nous comprenons combien il est parfois important d'avoir un exemple de la façon dont cela se produit. C'est ce que nous voulons partager.

Le nouvel iOS a réduit le trafic de 20%


MaximaTelecom est spécialisée dans la construction de réseaux dans les transports. La grande majorité des appareils d'abonnés qui utilisent notre réseau sont des mobiles, des smartphones et des tablettes basés sur Android et iOS. Les deux fournisseurs, Google et Apple, ont des feuilles de route pour publier les mises à jour de leurs systèmes d'exploitation. Dans les nouvelles versions, les modules chargés de se connecter au Wi-Fi changent souvent. Dans le meilleur des cas, le jour de la publication de la mise à jour, le trafic augmente du fait que les appareils téléchargent la mise à jour via le Wi-Fi. Mais il y a des cas catastrophiques.

L'année dernière, Apple a publié une nouvelle version d'iOS 10.3.1, après quoi le trafic réseau s'est écrasé de près de 20%. Il s'est avéré que dans la nouvelle version, Apple «interrompait» le processus de connexion au réseau: les mécanismes d'autorisation dans Captive ne fonctionnaient plus et les appareils ne pouvaient pas se connecter à MT_FREE. J'ai dû libérer un correctif en mode d'urgence et corriger la situation. Le problème a été résolu après trois mises à jour mineures, après avoir ouvert un dossier dans le bugtracker d'Apple.




Le nombre d'appels vers la page d'autorisation auth.wi-fi.ru par minute. Le graphique montre clairement un décalage important par rapport aux indicateurs de la période précédente.

La situation est aggravée par le fait que le Wi-Fi est une technologie assez ancienne et extrêmement répandue, dont la création n'était pas censée être utilisée à une telle échelle que nous l'avons dans le métro de Moscou. Nous devons donc faire face à toute une «salade» de divers appareils, chacun se comportant dans le réseau à sa manière. Les métriques fixes du nombre de mégaoctets abstraits ou «abonnés sphériques sur le réseau» ne nous sont pas applicables. Tout service, qu'il s'agisse d'un accès de base à Internet, à un portail multimédia ou à une application mobile, doit être considéré dans le contexte d'appareils et / ou de systèmes d'exploitation spécifiques, car le problème peut concerner un groupe spécifique et assez restreint.


... et quelques dizaines des options les plus exotiques.

Ce n'est pas du DDOS: l'accident d'un opérateur de téléphonie mobile a entraîné une augmentation du trafic de près d'un tiers


Il y a deux ans, l'un des opérateurs mobiles a eu un accident majeur. Dans de tels cas, les utilisateurs recherchent une alternative au service de communication. Si nous parlons du métro, il n'y avait aucun moyen de communication alternatif dans les trains.

Clarification
Et maintenant, seuls quelques opérateurs fournissent des services dans les zones équipées d'un câble rayonnant. Mais cette technologie a une capacité très limitée et n'est pas en mesure de fournir un niveau de service comparable à une proportion importante d'utilisateurs. Sans parler du coût du trafic sur les plans tarifaires limites.

Mais dans les stations, les communications cellulaires se sont développées assez fortement, sans parler des segments terrestres, où le Wi-Fi lui fait directement concurrence.

Nous avons appris l'accident sur le réseau de l'opérateur mobile grâce à notre service de répartiteur, qui a annoncé qu'ils nous attaquaient. La croissance du nombre d'utilisateurs et du trafic a été telle qu'au début, nous pensions être basés sur DDOS. Nous avons appris les vraies raisons de l'augmentation du trafic plus tard, en découvrant qu'un tiers des employés n'ont pas de téléphone portable.


Voici à quoi cela ressemblait pour nos utilisateurs Wi-Fi au-dessus du sol.

La spécificité de notre situation est précisément que nous avons des réseaux Wi-Fi, ce qui signifie que peu importe pour nous quelle carte SIM de quel opérateur de télécommunications est installée dans la machine utilisateur.

Il convient de mentionner que l'accident survenu a affecté notre service en partie et négativement. Certains segments du réseau MT_FREE, en particulier le réseau des bus urbains et des trains de banlieue, utilisent la communication cellulaire comme réseau fédérateur, ce qui signifie qu'un accident sur les réseaux cellulaires entraîne une dégradation du service dans ces segments.

Wi-Fi dans le métro sans publicité? Oui!


La publicité est le fondement d'un accès gratuit au réseau MT_FREE, car c'est grâce à lui que le service existe et porte ses fruits. En tant qu'AdServer de base, nous utilisons AdFox depuis de nombreuses années. Il est intéressant de noter que AdServer lui-même n'a subi aucun changement significatif pendant tout le temps que nous avons travaillé avec lui. L'une de ses spécificités est le système de collecte de statistiques sur les impressions, qui est formé d'intervalles horaires. Cela provoque des pics rythmiques dans le temps de réponse du service (toutes les heures, exactement à la frontière de l'heure, la «torsion» commence à «jouer des farces» et à penser à chaque réponse). Nous n'avons pas saisi cette nuance très immédiatement!


Chronologie de réponse AdFox pour une demande d'annonce. Les éclats et les creux sur le bord de l'heure sont clairement visibles.

En fait, nous avons observé les mêmes «pics» horaires caractéristiques du nombre d'impressions pour d'autres outils de surveillance, pour la même métrique. Mais je veux parler d'une situation plus extrême. L'hiver dernier, AdFox a subi un grave accident: le service n'a pas répondu depuis longtemps. Sur nos mesures, cela s'est manifesté par un manque d'autorisation des utilisateurs et une forte baisse des performances du portail. Dans le même temps, l'interface de gestion AdFox avec une erreur de certificat n'était pas disponible.


Illustration d'une erreur de certificat adfox.ru.

Après avoir effectué quelques tests et appelé AdFox lui-même, nous avons découvert l'accident et nous n'avions pas d'autre choix que de laisser tous les utilisateurs identifiés sur le réseau sans publicité.


Et voici l'accident sur les métriques Yandex sur notre portail.

Des téléchargements plus rapides produisent parfois des résultats inattendus


La qualité perçue de notre service dépend non seulement du travail de l'infrastructure d'autres personnes, des mises à jour du système d'exploitation et des plantages sur les ressources de masse, mais aussi du comportement de navigateurs spécifiques sur des appareils spécifiques. À cet égard, nous avons beaucoup plus de possibilités d'influence, nous travaillons donc constamment à l'amélioration des produits. En moyenne, nous publions une mise à jour par jour. Mais parfois, une mise à jour apparemment simple, qui devrait conduire à une amélioration de l'expérience utilisateur, entraîne des conséquences imprévisibles.

Puisque nous avons la possibilité d'influencer le fonctionnement des services au niveau du réseau (par exemple, en changeant la priorité d'un type de trafic par rapport à un autre), l'idée est venue d'accélérer l'autorisation en priorisant le trafic. Nous avons publié les modifications correspondantes et, avec étonnement, nous avons commencé à observer de nombreuses erreurs et une baisse de 20% des revenus publicitaires. Les tests techniques ont montré que le circuit fonctionne parfaitement correctement du point de vue du réseau. L'annulation des modifications a toutefois confirmé que la raison en était précisément dans les nouveaux paramètres.

En conséquence, nous avons constaté qu'en augmentant la priorité de certains scripts par rapport à d'autres, nous avons changé l'ordre d'exécution des fonctions au niveau de chargement de la page d'autorisation elle-même dans le navigateur. Cela a considérablement affecté l'expérience utilisateur. En fait, les scripts d'autorisation ont commencé à se charger et à s'exécuter plus rapidement que les scripts publicitaires. En raison de la relation existante entre elles, des situations se sont produites lorsqu'une fonction attend le résultat d'une autre, dont le fichier n'a même pas encore été téléchargé sur l'appareil.

Réseaux sociaux vs médias


Le comportement des utilisateurs sur Internet correspond aux modèles standard. Les gens ont l'habitude de communiquer via des messagers, de rechercher du contenu sur des portails multimédias, de lire les actualités via les réseaux sociaux et les agrégateurs d'actualités. Assez évident, mais toujours en se concentrant sur le fait que les réseaux sociaux sont une alternative aux nouvelles, et vice versa. Lorsque quelque chose se produit soudainement avec l'une des sources d'information, l'attention des utilisateurs est redistribuée aux autres, généralement les plus accessibles. Donc, en 2017, il y a eu un problème mondial sur VKontakte. Pour notre part, cet événement ressemblait à une forte augmentation du nombre d'utilisateurs et de temps sur notre portail d'actualités wi-fi.ru. En fait, les utilisateurs, se rendant compte que leur réseau social préféré ne fonctionne pas, sont allés nous lire les nouvelles.

Le moment de l'effondrement de VK a été marqué par une augmentation de 30% de la charge sur le portail wi-fi.ru.

Ce cas illustre combien il est important pour les services de masse d'avoir une marge de sécurité pour "digérer" les conséquences d'un accident "voisin" informationnel.

Vert - pas d'accident


Les situations décrites nous encouragent constamment à améliorer la surveillance des services tiers dans MT_FREE. Voici à quoi ressemble le tableau de bord pour l'exploitation de notre réseau.

Fonctionnement du réseau de tableaux de bord à Saint-Pétersbourg.

Un tableau de bord se compose de nombreux indicateurs de type «feu de signalisation»: état vert - tout est normal, couleur rouge - alarme. La couleur des indicateurs varie avec le temps. Cela peut être un comportement normal ou un signe d'anomalie. Mais si vous «tirez» tous les indicateurs avec une ligne et placez chaque étape de mesure de cette manière sur le tableau, vous obtenez une image bidimensionnelle en constante croissance qui décrit l'évolution du réseau dans son ensemble. Cette image peut facilement être «alimentée» avec des algorithmes d'apprentissage automatique standard conçus pour reconnaître les modèles graphiques (une sorte de FindFace, uniquement pour les modèles de capteur).

Le nuancier temporel des indicateurs n'est rien d'autre qu'une image décrivant l'évolution du réseau.

Ensuite, des algorithmes d'auto-apprentissage (tels que l'IA) sont ajoutés qui peuvent automatiquement classer les modèles et identifier les causes des écarts ou des données incomplètes. Tout semble simple, mais qu'en pensez-vous, combien d'opérateurs télécoms l'utilisent vraiment?

Peu, et nous ne sommes pas parmi eux


En toute honnêteté, l'application de cette technologie dans le cadre de MaximTelecom lui-même est à un stade assez précoce, en grande partie parce qu'il n'est pas clair où se situe la frontière entre ce qui doit être reçu de l'extérieur du réseau et ce qui peut être obtenu de l'intérieur. Notre avantage ici est que nous avons commencé à développer la base algorithmique nécessaire dès le début dans le cadre de notre plate-forme de monétisation des réseaux publicitaires.

Maxima est tout d'abord l'opérateur du service d'accès Wi-Fi gratuit. De plus, contrairement à un nombre suffisamment important de réseaux Wi-Fi «sociaux», nous sommes un opérateur de communications commerciales à part entière. En fait, c'est notre idée d'entreprise: nous nous efforçons de rendre la communication gratuite et rentable en même temps, et nous avons déjà prouvé que c'était possible. Presque aucun opérateur de télécommunications dans le monde ne peut (ou ne veut) cela, et ne développe donc pas de technologie pour cela. Cela donne l'espoir qu'à l'avenir, nous serons en mesure d'amener nos technologies au point où l'expérience utilisateur de MT_FREE ne sera pas différente de celle offerte par les opérateurs payants traditionnels. Dans le même temps, le niveau de fiabilité sera plus élevé en raison d'un système de commande et d'exploitation intelligent plus développé.

Mais, malheureusement, tous les problèmes ne peuvent pas être résolus dans les capacités d'une seule entreprise, ne serait-ce que parce qu'il existe de nombreux fabricants d'équipements d'abonnés et de réseaux Wi-Fi, et que le niveau d'unification est nettement inférieur à celui des réseaux cellulaires. Nous résolvons les problèmes avec divers appareils lors de la connexion au réseau dès le lancement. La «racine du mal» est ici en l'absence de toute norme et, par conséquent, chaque fabricant crée quelque chose qui lui est propre.

Pour résoudre ces problèmes industriels, il existe des associations internationales. Par exemple, nous dirigeons actuellement le projet de normalisation de l'expérience utilisateur lors de la connexion aux réseaux Wi-Fi à l'aide de la monétisation publicitaire. Mais c'est un sujet pour un autre article.

Soit dit en passant, nous élargissons constamment le personnel de développement, les offres d'emploi pertinentes peuvent être trouvées sur notre page carrière .

Source: https://habr.com/ru/post/fr457958/


All Articles