😆 🐵 🧑‍🤝‍🧑 c.tech sur HighLoad ++ 2019 👏🏽 👩🏿‍🚀 👨🏾‍🎓

Highload ++ est très proche! Les 7 et 8 novembre, plus de 3 000 développeurs de systèmes hautement chargés se réuniront à Skolkovo pour la treizième fois. L'événement vise à échanger des connaissances sur les technologies qui servent simultanément plusieurs milliers et millions d'utilisateurs.
Le programme couvre des aspects du développement Web tels que l'architecture de grands projets, les bases de données et les systèmes de stockage, l'administration du système, les tests de charge, le fonctionnement de grands projets et d'autres domaines associés aux systèmes très chargés.
Nous sommes activement impliqués dans Highload ++ 2019 et aujourd'hui, nous vous dirons quels rapports nos employés ont préparés pour les participants à la conférence.

7 novembre

Le nouveau comte de camarades de classe . Anton Ivanov, développeur principal de la plateforme

Heure: 12:00
Lieu: Salle de Moscou

Le comte d'amis est l'un des services les plus importants et les plus chargés d'Odnoklassniki. Il est nécessaire pour presque toutes les fonctions du site: créer un flux, trouver de nouveaux amis, vérifier les autorisations lors de la visualisation des photos, et bien plus encore. Tout cela crée jusqu'à 700 000 requêtes par seconde à 300 000 000 000 connexions entre les utilisateurs.

Une telle charge n'est pas seulement une exigence stricte de performances, mais également une tolérance aux pannes, car tout problème avec le graphique peut paralyser le travail de l'ensemble du site. Pendant longtemps, nous avons vécu sur un schéma classique de bases et de caches partageables. Mais elle a eu beaucoup de problèmes avec la cohérence des données et la tolérance aux pannes.

Dans le rapport, nous parlerons en détail de la transition vers la nouvelle architecture graphique, commencerons par une histoire sur l'ancienne version et les problèmes survenus lors de son utilisation, puis nous plongerons dans la nouvelle architecture graphique et les surprises qui nous attendaient lors de la migration.

Des microservices efficaces et fiables . Oleg Anastasiev, ingénieur en chef

Heure: 17 h
Lieu: Singapore Hall

À Odnoklassniki, les demandes des utilisateurs sont traitées par plus de 200 types de types de services uniques. Beaucoup de ces services utilisent la JVM combinant la technique de la logique métier et la base de données tolérante aux pannes distribuée Cassandra. Cela nous permet de créer des services très chargés qui gèrent des centaines de milliards d'enregistrements avec des millions d'opérations par seconde sur eux.

Dans ce rapport, nous parlerons des avantages qui apparaissent lors de la combinaison de la logique métier et de la base de données; discuter de la façon dont l'état affecte la fiabilité et la disponibilité des services; et discutez également de la manière dont cette technique a considérablement amélioré les performances de nos services.

Mais toutes les bases de données ne conviennent pas à cela. Nous examinerons en détail quelles bases de données peuvent être intégrées dans votre prochain microservice, et lesquelles ne le sont pas.

8 novembre

La montée des machines est OK . Leonid Talalaev, développeur principal dans l'équipe de la plateforme

Heure: 10:00
Lieu: Cape Town Hall

Les camarades de classe se composent de plus de 6 000 serveurs situés dans plusieurs centres de données. Près de la moitié d'entre eux font partie de notre cloud, un cloud, dont nous avons déjà parlé il y a deux ans sur HighLoad ++.

Lors de la gestion de plus de 10 000 conteneurs, des tâches typiques se posent, dont la mise en œuvre manuelle prendrait trop de temps et conduirait inévitablement à des erreurs humaines. Par conséquent, nous nous efforçons d'automatiser tous les processus dans le cloud afin de minimiser la participation humaine. Nous avons appelé cette automatisation complète «Rise of the Machines».

Dans le rapport, nous aborderons des sujets tels que:
- Disposition des correctifs de sécurité sur tous les conteneurs. Dans le même temps, nous apprendrons comment remplacer les couches d'images Docker en 1 seconde;
- assurer la disponibilité de services d'État distribués pendant les opérations dans le cloud;
- Le problème de la fragmentation dans le cloud. Nous vous expliquerons comment économiser un million de dollars en modifiant l'algorithme de placement.

Transfert d'une aiguille TCP vers UDP avec des millions d'utilisateurs . Alexander Tobol, responsable du développement des plateformes vidéo et bande

Heure: 14 h
Emplacement: Salle principale (salle des congrès)

Alexander dira:

comme Odnoklassniki a transplanté des millions d'utilisateurs de TCP à UDP, 3/4 OK les utilisateurs Android utilisent déjà UDP pour la communication réseau
comment ils ont accéléré jusqu'à 30% de la livraison de contenu aux utilisateurs selon les statistiques des clients produits
sur les approches de construction de protocoles réseau et les méthodes de test et de modélisation du réseau

De plus, OK partagera non seulement les résultats des tests TCP et QUIC sur différents réseaux, mais également le code source de l'émulateur de réseau sur lequel ces tests sont effectués.

200 To + Elasticsearch Cluster . Petr Zaitsev, administrateur système, spécialiste Elasticsearch

Heure: 16 h
Emplacement: Salle principale (salle des congrès)

Le but du rapport: parler des écueils et de l'architecture du cluster Elasticsearch pour le stockage des journaux dans un volume particulièrement important.

Dans le rapport, je parlerai de la façon dont nous avons organisé le stockage et l'accès aux journaux pour les développeurs dans le cadre du projet Odnoklassniki.

Initialement, des exigences élevées étaient imposées au service. Tout le monde a compris que le volume de données traitées serait important, qu'une tolérance aux pannes était également nécessaire et que la charge de pointe pouvait atteindre 2 millions de lignes par seconde. Pour ces raisons, la tâche s'est avérée tout à fait non triviale, avec un grand contenu de «pièges» et de caractéristiques piquantes.

Je décrirai l'histoire de notre chemin «sinueux» pour résoudre ce problème, et je vous dirai également à quelle architecture de cluster nous sommes finalement parvenus et quelles décisions qui semblaient justes à première vue «ont été prises dans le pied» au moment le plus inattendu.

Nous avions 4 centres de données, 500 instances pour élastique, 200 To + de données, jusqu'à 2 millions de lignes par seconde en période de pointe et 100% de disponibilité du service à tout prix.

Comment nous avons réussi à réaliser cela, vous le découvrirez dans notre rapport!

c.tech sur HighLoad ++ 2019