Mise à jour (2 juillet 2018): le personnel d'assistance de Google Cloud Platform (GCP) a assuré que cela ne se reproduirait plus. Leurs mots: "Beaucoup de gens (au sein du GCP) sont intéressés à améliorer la situation, non seulement pour vous, mais pour tous les clients."Remarque: ce message ne concerne pas la qualité des services cloud de Google. Ils sont excellents, avec AWS. Nous parlons de «mouvements soudains sans avertissement», lorsqu'ils éteignent complètement tous vos systèmes, si les employés (ou les voitures) décident soudainement: quelque chose ne va pas. Cela nous est arrivé la deuxième fois.Contexte
Notre projet de production utilise GCP pour surveiller des centaines de centrales éoliennes (éoliennes) et des dizaines de centrales solaires disséminées dans huit pays. Nous avons des centres de contrôle avec des écrans sur tout le mur: il y a des tableaux de bord pleins de métriques qui sont surveillés 24h / 24. Les gestionnaires d'objets utilisent ce système pour surveiller en temps réel l'état des éoliennes et des installations solaires individuelles. Si une intervention est requise, elle se fait immédiatement. Les équipes de développement et de prévision utilisent le système pour tester des algorithmes de données dans BigQuery. Toutes les actions sont directement traduites en nos bénéfices. Nous avons affaire à l'énergie éolienne / solaire - une denrée périssable. Si nous générons un surplus, nous ne pouvons pas le sauver et le vendre plus tard. Si nous générons insuffisamment, nous payons des amendes. Pour cette raison, les installations doivent être surveillées 24h / 24 et 7j / 7 afin de ne pas aller au-delà des besoins du système énergétique et des accords conclus sur l'achat d'électricité.
Qu'est-il arrivé?
Tôt le matin (28 juin 2018), j'ai reçu un avertissement du bot de disponibilité que l'ensemble du site était hors ligne. Une vague d'e-mails de Google, qui a déclaré qu'une "activité suspecte potentielle" a été détectée et tous mes systèmes ont été éteints. TOUT EST OFF. LA MACHINE NOUS AVAIT ÉTEINT SANS AVERTISSEMENT. Le site ne fonctionne pas, le moteur d'application et les bases de données ne sont pas disponibles, plusieurs messages de Firebase disent que j'ai été abaissé et donc les limites ont été dépassées.



Nuage solitaire
Le chat du support client est désactivé. Nous n'avons pas de téléphone. Un e-mail est venu avec une demande pour remplir un formulaire, télécharger une photo d'une carte de crédit et une pièce d'identité émise par le gouvernement avec une photo du titulaire de la carte. Eh bien, réveillons le directeur financier qui possède la carte.

Nous supprimerons le projet dans les trois jours ouvrables.
«Nous supprimerons votre projet si le titulaire du compte ne corrige pas la violation en remplissant le formulaire de confirmation de compte dans les trois jours ouvrables. Ce formulaire confirme votre identité et la propriété de l'instrument de paiement. Le défaut de soumettre les documents demandés peut entraîner la fermeture définitive du compte. »
Que dois-je faire si le titulaire de la carte est en vacances et n'est pas disponible pendant trois jours? Nous perdrions tout - des années de travail - des millions de dollars de revenus.Je remplis le formulaire avec les détails et, heureusement, en 20 minutes tous les services ont commencé à reprendre vie. Lorsque cela s'est produit pour la première fois, le temps d'arrêt a duré plusieurs heures. En général, nous avons perdu l'accès à toutes les informations pendant environ une heure. Une lettre automatique est accompagnée d'excuses pour la
gêne occasionnée . Malheureusement, la voiture n'a aucune idée du
nombre de "désagréments".

Vous ne pouvez pas tout désactiver et demander une explication.
Je comprends que Google doit suivre et empêcher les activités suspectes. Mais
il est important de savoir exactement ce que vous faites après avoir détecté une activité suspecte. La participation humaine est nécessaire ici - quelque chose qui n'est remplacé par aucune quantité de code ou un système d'IA. Vous ne pouvez pas tout désactiver et demander une explication. Vous devez faire le contraire.
Il s'agit du premier projet que nous avons entièrement construit sur Google Cloud. Tous les précédents ont travaillé sur AWS. D'après notre expérience, AWS est beaucoup plus humain dans le traitement des problèmes de facturation. Ils vous avertissent d'une activité suspecte et vous donnent le temps de l'expliquer et de le comprendre. Ils ne vous frappent pas des escaliers.
J'espère que l'équipe GCP écoute et fait la différence. D'ici là, je ne publierai jamais de projets sur GCP.