👨🏿‍🔧 👩🏿‍🚒 🍪 Comment nous avons conçu et mis en œuvre le nouveau réseau sur Huawei dans le bureau de Moscou, partie 1 🖖🏻 👔 📋

Aujourd'hui, je vais parler de la façon dont l'idée de créer un nouveau réseau interne pour notre entreprise est apparue et s'est concrétisée. Position de gestion - pour vous-même, vous devez réaliser le même projet à part entière que pour le client. Si nous le faisons bien pour nous-mêmes, nous pouvons inviter le client et montrer comment bien organisé et fonctionne ce que nous lui proposons. Par conséquent, nous avons abordé le développement du concept d'un nouveau réseau pour le bureau de Moscou de manière très approfondie, en utilisant le cycle de production complet: analyse des besoins des départements → choix de la solution technique → conception → mise en œuvre → tests. Alors c'est parti.

Choix de la solution technique: réserve de mutants

La procédure pour travailler sur un système automatisé complexe est jusqu'à présent mieux décrite dans GOST 34.601-90 «Systèmes automatisés. Les étapes de la création », nous y avons donc travaillé. Et déjà au stade de l'élaboration des exigences et du développement d'un concept, nous avons rencontré les premières difficultés. Des organisations de profils variés - banques, assurances, développeurs de logiciels, etc. - pour leurs missions et normes, certains types de réseaux sont nécessaires, dont les spécificités sont claires et standardisées. Cependant, cela ne fonctionnera pas avec nous.

Pourquoi?

Jet Infosystems est une grande entreprise informatique multidisciplinaire. Dans le même temps, notre département de support interne est petit (mais fier), il assure la disponibilité des services et systèmes de base. La société comprend de nombreuses divisions qui remplissent différentes fonctions: elle comprend plusieurs puissantes équipes d'impartition, et ses propres développeurs de systèmes commerciaux et de sécurité de l'information, et des architectes de complexes informatiques - en général, qui ne l'est pas. En conséquence, leurs tâches, systèmes et politiques de sécurité sont également différents. Ce qui était censé créer des difficultés dans le processus d'analyse des besoins et de leur standardisation.

Par exemple, le service de développement: ses employés écrivent et testent du code pour un grand nombre de clients. Souvent, il est nécessaire d'organiser rapidement des environnements de test, et franchement, il n'est pas toujours possible pour chaque projet de formuler des exigences, de demander des ressources et de créer un environnement de test séparé conformément à toutes les réglementations internes. Cela donne lieu à des situations curieuses: une fois que votre humble serviteur a regardé dans la salle des développeurs et trouvé un cluster Hadoop de 20 postes de travail sous la table qui était inexplicablement connecté à un réseau commun. Je pense qu'il ne vaut pas la peine de préciser que le service informatique de l'entreprise ne connaissait pas son existence. Cette circonstance, comme beaucoup d'autres, est devenue la cause du fait que pendant le développement du projet, le terme «réserve mutante» est né, décrivant l'état de l'infrastructure de bureau qui souffre depuis longtemps.

Ou voici un autre exemple. Périodiquement, un banc d'essai est installé à l'intérieur d'une unité. Ce fut le cas avec Jira et Confluence, qui étaient peu utilisés par le Software Development Center dans certains projets. Après un certain temps, ces ressources utiles ont été découvertes dans d'autres divisions, évaluées et, fin 2018, Jira et Confluence sont passées du statut de "programmeurs de jouets locaux" au statut de "ressources de l'entreprise". Maintenant, le propriétaire doit être affecté à ces systèmes, les SLA, les politiques d'accès / de sécurité, les politiques de sauvegarde, les politiques de surveillance, les règles de routage pour la résolution des demandes doivent être définies - en général, tous les attributs d'un système d'information complet doivent être présents.
Chacune de nos unités est également un incubateur qui cultive ses propres produits. Certains d'entre eux meurent au stade du développement, certains que nous utilisons pendant la période de travail sur les projets, tandis que d'autres prennent racine et deviennent des solutions reproduites que nous commençons à appliquer nous-mêmes et à vendre aux clients. Pour chacun de ces systèmes, il est souhaitable d'avoir son propre environnement de réseau, où il se développera sans interférer avec d'autres systèmes, et à un moment donné, il pourra être intégré dans l'infrastructure de l'entreprise.

En plus du développement, nous avons un très grand centre de service avec plus de 500 employés, formé en équipes pour chaque client. Ils sont engagés dans la maintenance des réseaux et autres systèmes, la surveillance à distance, le règlement des applications, etc. Autrement dit, l'infrastructure du SC est, en fait, l'infrastructure du client avec lequel il travaille actuellement. La particularité de travailler avec cette partie du réseau est que leurs postes de travail pour notre entreprise sont en partie externes et en partie internes. Par conséquent, pour SC, nous avons mis en œuvre l'approche suivante - la société fournit à l'unité correspondante un réseau et d'autres ressources, en considérant les postes de travail de ces unités comme des connexions externes (similaires aux succursales et aux utilisateurs distants).

Conception d'autoroutes: nous sommes l'opérateur (surprise)

Après avoir évalué tous les écueils, nous avons réalisé que nous disposions du réseau d'un opérateur de télécommunications dans un seul bureau et avons commencé à agir en conséquence.

Nous avons créé un réseau fédérateur, à l'aide duquel tout consommateur interne, et à long terme, externe est fourni avec le service requis: VPN L2, VPN L3 ou routage L3 conventionnel. Certains départements ont besoin d'un accès Internet sécurisé, tandis que d'autres ont besoin d'un accès propre sans pare-feu, mais avec la protection de nos ressources d'entreprise et de notre réseau principal contre leur trafic.

Avec chaque division, nous avons officieusement «conclu un SLA». Conformément à celui-ci, tous les incidents survenus devraient être éliminés dans un certain délai préalablement convenu. Les exigences de l'entreprise pour son réseau se sont avérées difficiles. Le temps de réponse maximum aux incidents pour les pannes de téléphone et de courrier électronique était de 5 minutes. Le temps de récupération du réseau lors de pannes typiques ne dépasse pas une minute.

Comme nous avons un réseau de classe opérateur, vous ne pouvez vous y connecter qu'en stricte conformité avec les règles. Les départements de service établissent des politiques et fournissent des services. Ils n'ont même pas besoin d'informations sur les connexions de serveurs, de machines virtuelles et de postes de travail spécifiques. Mais en même temps, des mécanismes de protection sont nécessaires, car aucune connexion ne doit désactiver le réseau. Lors de la création accidentelle d'une boucle, les autres utilisateurs ne doivent pas le remarquer, c'est-à-dire qu'une réponse réseau adéquate est nécessaire. Tout opérateur de télécommunications résout constamment ces tâches apparemment complexes au sein de son réseau principal. Il fournit des services à de nombreux clients ayant des besoins et un trafic différents. Dans le même temps, différents abonnés ne devraient pas être gênés par le trafic des autres.
À la maison, nous avons résolu ce problème comme suit: nous avons construit un réseau L3 de base avec une redondance complète en utilisant le protocole IS-IS . Un réseau de superposition basé sur la technologie EVPN / VXLAN a été construit au-dessus du réseau principal, en utilisant le protocole de routage MP-BGP . Pour accélérer la convergence des protocoles de routage, la technologie BFD a été utilisée.

Structure du réseau

Dans les tests, un tel schéma s'est révélé excellent - lorsqu'un canal ou un commutateur est désactivé, le temps de convergence ne dépasse pas 0,1-0,2 s, un minimum de paquets (souvent aucun) est perdu, les sessions TCP ne sont pas interrompues, les conversations téléphoniques ne sont pas interrompues.

Sous-couche

Niveau de calque sous-jacent - Routage

Superposition de niveaux - Routage

En tant que commutateurs de distribution, des commutateurs Huawei CE6870 avec des licences VXLAN ont été utilisés. Cet appareil a une combinaison optimale de prix / qualité, vous permet de connecter des abonnés à une vitesse de 10 Gbit / s, et de se connecter au tronc à des vitesses de 40-100 Gbit / s, selon les émetteurs-récepteurs utilisés.

Commutateurs Huawei CE6870

En tant que commutateurs principaux, les commutateurs Huawei CE8850 ont été utilisés. De la tâche - pour transmettre rapidement et de manière fiable du trafic. Aucun périphérique n'y est connecté, à l'exception des commutateurs de distribution, ils ne connaissent rien au VXLAN, par conséquent, un modèle avec 32 ports 40/100 Gbit / s a été choisi, avec une licence de base qui fournit le routage L3 et la prise en charge des protocoles IS-IS et MP-BGP .

Le plus bas est le commutateur de base Huawei CE8850

Au stade de la conception, une discussion a éclaté au sein de l'équipe sur les technologies avec lesquelles vous pouvez implémenter une connexion de sécurité aux nœuds du réseau principal. Notre bureau de Moscou est situé dans trois bâtiments, nous avons 7 chambres croisées, dans chacune desquelles deux commutateurs de distribution Huawei CE6870 ont été installés (seuls quelques commutateurs d'accès ont été installés dans plusieurs chambres croisées). Lors du développement du concept de réseau, deux options de sauvegarde ont été envisagées:

Combinaison des commutateurs de distribution en une pile à sécurité intégrée dans chaque pièce transversale. Avantages: simplicité et facilité d'installation. Inconvénients: il y a une probabilité plus élevée de défaillance de la pile entière lors de la manifestation d'erreurs dans le micrologiciel des périphériques réseau («fuites de mémoire», etc.).
Appliquez les technologies de passerelle M-LAG et Anycast pour connecter des appareils aux commutateurs de distribution.

En conséquence, nous avons opté pour la deuxième option. Il est un peu plus difficile à configurer, mais en pratique, il a montré ses performances et sa haute fiabilité.
Envisagez d'abord de connecter des terminaux aux commutateurs de distribution:
Croix

Croix

Un commutateur d'accès, un serveur ou tout autre périphérique nécessitant une connexion de basculement est inclus dans deux commutateurs de distribution. La technologie M-LAG assure la redondance des liaisons. On suppose que deux commutateurs de distribution ressemblent à un seul appareil pour l'équipement connecté. La redondance et l'équilibrage de charge sont effectués à l'aide du protocole LACP.

La technologie de passerelle Anycast fournit une redondance au niveau du réseau. Chaque commutateur de distribution est configuré avec un nombre suffisamment important de VRF (chaque VRF est conçu pour ses propres besoins - séparément pour les utilisateurs «ordinaires», séparément pour la téléphonie, séparément pour différents environnements de test et de développement, etc.), et dans chaque VRF a configuré plusieurs VLAN. Dans notre réseau, les commutateurs de distribution sont les passerelles par défaut pour tous les appareils qui leur sont connectés. Les adresses IP correspondant aux VLAN sont les mêmes pour les deux commutateurs de distribution. Le trafic est acheminé via le commutateur le plus proche.

Pensez maintenant à connecter les commutateurs de distribution au noyau:
La tolérance aux pannes est fournie au niveau du réseau, selon le protocole IS-IS. Veuillez noter - entre les commutateurs, une ligne de communication L3 distincte est fournie, à une vitesse de 100G. Physiquement, cette ligne de communication est un câble à accès direct, on peut le voir à droite sur la photo des commutateurs Huawei CE6870.

Une alternative serait d'organiser une topologie double étoile «honnête» entièrement connectée, mais, comme mentionné ci-dessus, nous avons 7 chambres transversales dans trois bâtiments. En conséquence, si nous choisissions la topologie «double étoile», nous aurions alors besoin d'exactement deux fois plus d'émetteurs-récepteurs 40G «à longue portée». Les économies ici sont très importantes.

Je dois dire quelques mots sur la façon dont les technologies de passerelle VXLAN et Anycast fonctionnent ensemble. VXLAN, s'il n'entre pas dans les détails, est un tunnel pour transporter des trames Ethernet à l'intérieur de paquets UDP. Les interfaces de bouclage des commutateurs de distribution sont utilisées comme adresse IP de destination du tunnel VXLAN. Chaque commutateur a deux commutateurs avec les mêmes adresses d'interface de bouclage, respectivement, un paquet peut arriver à l'un d'eux et une trame Ethernet peut en être extraite.

Si le commutateur connaît l'adresse MAC de destination de la trame extraite, la trame sera correctement livrée à sa destination. Le mécanisme M-LAG, qui assure la synchronisation des tables d'adresses MAC (ainsi que des tables ARP) sur les deux, est chargé de s'assurer que les deux commutateurs de distribution installés sur un seul croisement ont des informations à jour sur toutes les adresses MAC qui arrivent des commutateurs d'accès. Commutateurs à paire M-LAG.

L'équilibrage du trafic est obtenu grâce à la présence dans le réseau sous-jacent de plusieurs routes vers les interfaces de bouclage des commutateurs de distribution.

Au lieu d'une conclusion

Comme mentionné ci-dessus, pendant les tests et en fonctionnement, le réseau a montré une haute fiabilité (temps de récupération pour les pannes typiques pas plus de centaines de millisecondes) et de bonnes performances - chacune étant interconnectée avec le cœur par deux canaux de 40 Gbit / s. Les commutateurs d'accès de notre réseau sont empilés et connectés aux commutateurs de distribution via LACP / M-LAG avec deux canaux 10 Gb / s. La pile a généralement 5 commutateurs avec 48 ports chacun, jusqu'à 10 piles d'accès sont connectées à la distribution dans chaque croix. Ainsi, le backbone fournit environ 30 Mbit / s par utilisateur, même à une charge théorique maximale, ce qui au moment de la rédaction est suffisant pour toutes nos applications pratiques.

Le réseau vous permet d'organiser facilement l'appairage de tout périphérique connecté arbitrairement à la fois via L2 et L3, offrant une isolation complète du trafic (qui est apprécié par le service de sécurité de l'information) et des domaines de défaillance (qui est apprécié par le service d'exploitation).

Dans la partie suivante , nous décrirons comment nous avons migré vers un nouveau réseau. Restez à l'écoute!

Maxim Klochkov
Consultant principal, Audit de réseau et projets intégrés
Centre de solutions réseau
Jet Infosystems

Comment nous avons conçu et mis en œuvre le nouveau réseau sur Huawei dans le bureau de Moscou, partie 1

Choix de la solution technique: réserve de mutants

Conception d'autoroutes: nous sommes l'opérateur (surprise)

Au lieu d'une conclusion

More articles: