
Das Internet ist eine große und dynamische Umgebung, in der alles auf die eine oder andere Weise miteinander verbunden ist und sich gegenseitig beeinflussen kann. Eine solche Beziehung wird im Volksmund als „Schmetterlingseffekt“ bezeichnet, wenn eine kleine Änderung in einem Teil des Systems zu einer vollständigen Änderung in einem anderen Teil führen kann. Der Effekt zeigt perfekt, wie ein „gut platzierter Stiefel auf der Konsole“ einen wichtigen Dienst und gleichzeitig ein paar Fremde zum Erliegen bringen kann ... Wir werden darüber sprechen.
Vor fünf Jahren, als Wi-Fi in der U-Bahn gerade erschien ...
... es war ein Phänomen, das das Leben der Moskauer in "vorher" und "nachher" unterteilt hat. Zu dieser Zeit war das Projekt das einzige auf der Welt, und alles darin war ebenso einzigartig: Netzwerkstruktur, Monetarisierungsmodell, Benutzerdienste, Ansätze für Bau und Betrieb.
Fast seit dem Start des ersten Wi-Fi-Segments in der U-Bahn erhielten wir eine Genehmigung und ein eigenes Medienportal. Wir haben großzügig mit dem Portal im Hinblick auf die Integration mit Diensten von Drittanbietern experimentiert und dabei die Möglichkeiten unseres Geschäftsmodells untersucht ("Was ist, wenn wir Kaffee in der U-Bahn verkaufen und von der Lobby zum Eingang liefern ?!").
Zunächst haben wir Partner aus verschiedenen Bereichen aktiv in unsere Arbeit einbezogen. Fast jede Veröffentlichung eines neuen Affiliate-Dienstes führte jedoch dazu, dass dieser unter Last fiel und ein Notfall-Rollback von Änderungen erforderlich wurde. Nur wenige Menschen können Tausende neuer Anforderungen pro Minute überleben, und einige sind aufgrund der nicht skalierbaren Architektur im Prinzip nicht dazu in der Lage. Das Vorhandensein eines solchen Problems hat uns veranlasst, die Leistung von Affiliate-Diensten zu überwachen, von denen die Benutzererfahrung direkt abhängt. Und entwickeln Sie auch Mechanismen, um diese Abhängigkeit zu verringern (Proxy, Cache).
Einst ein lauter Schrei im Büro von "Five Hundred" hat das ganze Unternehmen in Bewegung gesetzt - jetzt treten solche Situationen praktisch nicht mehr auf. Auf dem Bildschirm ab Juli 2015 das Ergebnis des Starts eines Blumenverkaufsservices mit Lieferung auf unserer Subdomain.Aber die Evolution geht nie schnell. Bevor wir das aktuelle System bauten, mussten wir „Kegel füllen“ und aus eigener Erfahrung eine ganze Reihe von Unfällen erleben. Darüber hinaus hört der Prozess nicht auf: Je tiefer wir uns mit den Themen befassen, desto mehr identifizieren wir die unerwartetsten Abhängigkeiten. Rückblickend verstehen wir, wie wichtig es manchmal ist, ein Beispiel dafür zu haben, wie es passiert. Das wollen wir teilen.
Das neue iOS hat den Datenverkehr um 20% gesenkt
MaximaTelecom ist spezialisiert auf den Aufbau von Verkehrsnetzen. Die überwiegende Mehrheit der Teilnehmergeräte, die unser Netzwerk nutzen, sind Mobiltelefone, Smartphones und Tablets, die auf Android und iOS basieren. Beide Anbieter, Google und Apple, haben Roadmaps für die Veröffentlichung von Updates für ihre Betriebssysteme. In neuen Versionen ändern sich häufig die Module, die für die Verbindung mit Wi-Fi verantwortlich sind. Im besten Fall wächst am Tag der Veröffentlichung des Updates der Datenverkehr, da Geräte das Update über WLAN herunterladen. Aber es gibt katastrophale Fälle.
Erst letztes Jahr veröffentlichte Apple eine neue Version von iOS 10.3.1, nach der der Netzwerkverkehr um fast 20% abstürzte. Es stellte sich heraus, dass Apple in der neuen Version den Verbindungsprozess zum Netzwerk "unterbrochen" hat: Die Autorisierungsmechanik in Captive funktionierte nicht mehr und die Geräte konnten sich nicht bei MT_FREE anmelden. Ich musste im Notfallmodus einen Fix veröffentlichen und die Situation korrigieren. Das Problem wurde nach drei kleineren Updates behoben, nachdem wir einen Fall im Apple Bugtracker geöffnet hatten.

Die Anzahl der Aufrufe der Autorisierungsseite auth.wi-fi.ru pro Minute. Die Grafik zeigt deutlich eine signifikante Verzögerung gegenüber den Indikatoren für die Vorperiode.Die Situation wird durch die Tatsache verschärft, dass Wi-Fi eine ziemlich alte und äußerst weit verbreitete Technologie ist, deren Entwicklung nicht in einem solchen Umfang wie in der Moskauer Metro verwendet werden sollte. Wir müssen uns also mit einem ganzen "Salat" verschiedener Geräte befassen, von denen sich jedes im Netzwerk auf seine eigene Weise verhält. Flache Metriken für die Anzahl der abstrakten Megabyte oder "sphärische Teilnehmer im Netzwerk" gelten für uns nicht. Jeder Dienst, sei es ein einfacher Zugriff auf das Internet, ein Medienportal oder eine mobile Anwendung, sollte im Kontext bestimmter Geräte und / oder Betriebssysteme betrachtet werden, da das Problem eine bestimmte und ziemlich enge Gruppe betreffen kann.
... und ein paar Dutzend der exotischsten Optionen.Dies ist kein DDOS: Der Unfall eines Mobilfunkbetreibers führte zu einem Verkehrssprung um fast ein Drittel
Vor zwei Jahren hatte einer der Mobilfunkbetreiber einen schweren Unfall. In solchen Fällen suchen Benutzer nach einer Alternative zum Kommunikationsdienst. Wenn wir über die U-Bahn sprechen, gab es überhaupt keine alternativen Kommunikationswege in Zügen.
KlarstellungUnd jetzt bieten nur noch wenige Betreiber Dienstleistungen in Bereichen an, die mit einem Strahlungskabel ausgestattet sind. Diese Technologie ist jedoch in ihrer Kapazität sehr begrenzt und kann für einen erheblichen Teil der Benutzer kein vergleichbares Serviceniveau bieten. Ganz zu schweigen von den Verkehrskosten in den Grenztarifplänen.
Aber an den Stationen hat sich die Mobilfunkkommunikation ziemlich stark entwickelt, ganz zu schweigen von den terrestrischen Segmenten, in denen Wi-Fi direkt mit ihr konkurriert.
Wir haben von unserem Dispatcher-Service, der bekannt gab, dass sie uns angreifen, von dem Unfall im Mobilfunknetz erfahren. Das Wachstum der Anzahl der Benutzer und des Datenverkehrs war derart, dass wir zunächst dachten, wir seien DDOS-basiert. Wir haben später die wahren Gründe für die Zunahme des Verkehrs erfahren und festgestellt, dass ein Drittel der Mitarbeiter keine Handys hat.
So sah es für unsere Wi-Fi-Benutzer über dem Boden aus.Die Besonderheit unserer Situation besteht insbesondere darin, dass wir über Wi-Fi-Netzwerke verfügen. Dies bedeutet, dass es für uns keine Rolle spielt, welche SIM-Karte von welchem Telekommunikationsbetreiber auf dem Benutzergerät installiert ist.
Erwähnenswert ist, dass der Unfall unseren Service teilweise und negativ beeinflusst hat. Einige Segmente des MT_FREE-Netzwerks, insbesondere das Netzwerk in Stadtbussen und Nahverkehrszügen, verwenden die Mobilfunkkommunikation als Backbone-Netzwerk, was bedeutet, dass ein Unfall in Mobilfunknetzen zu einer Verschlechterung des Dienstes in diesen Segmenten führt.
WLAN in der U-Bahn ohne Werbung? Ja!
Werbung ist die Grundlage für den freien Zugang zum MT_FREE-Netzwerk, da der Service dank ihm existiert und sich auszahlt. Als Basis-AdServer verwenden wir AdFox seit vielen Jahren. Es ist interessant, dass AdServer selbst während der gesamten Zeit, in der wir damit gearbeitet haben, keine wesentlichen Änderungen erfahren hat. Eine seiner Besonderheiten ist das System zur Erfassung von Statistiken über Impressionen, das in stündlichen Intervallen gebildet wird. Dies führt zu rhythmischen Spitzen in der Antwortzeit des Dienstes (jede Stunde, genau am Stundenrand, beginnt der „Twist“, „Streiche zu spielen“ und über jede Antwort nachzudenken). Wir haben diese Nuance nicht sofort erkannt!
AdFox-Antwortzeitleiste für eine Anzeigenanforderung. Ausbrüche und Einbrüche am Rand der Stunde sind deutlich sichtbar.Tatsächlich haben wir die gleichen charakteristischen stündlichen „Peaks“ in der Anzahl der Impressionen für andere Überwachungswerkzeuge für dieselbe Metrik beobachtet. Aber ich möchte über eine extremere Situation sprechen. Im vergangenen Winter erlitt AdFox einen schweren Unfall: Der Dienst reagierte lange Zeit nicht. Bei unseren Metriken äußerte sich dies in einem Mangel an Benutzerberechtigung und einem starken Rückgang der Portalleistung. Gleichzeitig war die AdFox-Verwaltungsoberfläche mit einem Zertifikatfehler nicht verfügbar.
Abbildung des Zertifikatsfehlers adfox.ru.Nachdem wir einige Tests durchgeführt und AdFox selbst angerufen hatten, erfuhren wir von dem Unfall und hatten keine andere Wahl, als alle identifizierten Benutzer ohne Werbung in das Netzwerk zu lassen.
Und hier ist der Unfall mit Yandex-Metriken auf unserem Portal.Schnellere Downloads führen manchmal zu unerwarteten Ergebnissen
Die wahrgenommene Qualität unseres Dienstes hängt nicht nur von der Arbeit der Infrastruktur anderer Personen, Betriebssystemaktualisierungen und Abstürzen bei Massenressourcen ab, sondern auch vom Verhalten bestimmter Browser auf bestimmten Geräten. In dieser Hinsicht haben wir viel mehr Einflussmöglichkeiten und arbeiten ständig an der Verbesserung der Produkte. Im Durchschnitt veröffentlichen wir ein Update pro Tag. Aber manchmal führt ein scheinbar einfaches Update, das zu einer Verbesserung der Benutzererfahrung führen sollte, zu unvorhersehbaren Konsequenzen.
Da wir die Möglichkeit haben, den Betrieb von Diensten auf Netzwerkebene zu beeinflussen (z. B. indem wir die Priorität eines Verkehrstyps relativ zu einem anderen ändern), entstand die Idee, die Autorisierung durch Priorisierung des Verkehrs zu beschleunigen. Wir veröffentlichten die entsprechenden Änderungen und stellten erstaunt zahlreiche Fehler und einen Rückgang der Werbeeinnahmen um 20% fest. Technische Tests haben gezeigt, dass die Schaltung aus Netzwerksicht absolut korrekt funktioniert. Das Zurücksetzen von Änderungen bestätigte jedoch, dass der Grund genau in den neuen Einstellungen lag.
Als Ergebnis haben wir festgestellt, dass wir durch Erhöhen der Priorität einiger Skripte gegenüber anderen die Reihenfolge der Ausführung von Funktionen auf der Ladeebene der Autorisierungsseite selbst im Browser geändert haben. Dies hat die Benutzererfahrung erheblich beeinträchtigt. Tatsächlich wurden Autorisierungsskripte schneller geladen und ausgeführt als Anzeigenskripte. Aufgrund der bestehenden Beziehung zwischen ihnen kam es zu Situationen, in denen eine Funktion auf das Ergebnis einer anderen wartet, deren Datei noch nicht einmal auf das Gerät heruntergeladen wurde.
Soziale Netzwerke gegen Medien
Das Verhalten der Benutzer im Internet entspricht Standardmustern. Menschen sind es gewohnt, über Messenger zu kommunizieren, auf Medienportalen nach Inhalten zu suchen, Nachrichten über soziale Netzwerke und Nachrichtenaggregatoren zu lesen. Ziemlich offensichtlich, konzentriert sich aber immer noch auf die Tatsache, dass soziale Netzwerke eine Alternative zu Nachrichten sind und umgekehrt. Wenn plötzlich etwas mit einer der Informationsquellen passiert, wird die Aufmerksamkeit der Benutzer auf die verbleibenden, normalerweise am besten zugänglichen, umverteilt. 2017 gab es also einen globalen Fehler bei VKontakte. Für unseren Teil sah diese Veranstaltung nach einer starken Zunahme von Benutzern und Zeit auf unserem Nachrichtenportal wi-fi.ru aus. Als die Benutzer erkannten, dass ihr bevorzugtes soziales Netzwerk nicht funktioniert, lasen sie uns die Nachrichten vor.
Der Moment des Zusammenbruchs von VK war durch eine 30% ige Erhöhung der Belastung des Portals wi-fi.ru gekennzeichnet.Dieser Fall zeigt, wie wichtig es für Massendienste ist, einen Sicherheitsspielraum zu haben, um die Folgen eines informativen "Nachbar" -Unfalls zu "verdauen".
Grün - keine Unfälle
Die beschriebenen Situationen ermutigen uns ständig, die Überwachung von Diensten Dritter in MT_FREE zu verbessern. So sieht das Dashboard für den Betrieb unseres Netzwerks aus.
Dashboard-Netzwerkbetrieb in St. Petersburg.Ein Dashboard besteht aus vielen Anzeigen vom Typ „Ampel“: grüner Zustand - alles ist normal, rote Farbe - Alarm. Die Farbe der Indikatoren variiert mit der Zeit. Dies kann entweder ein normales Verhalten oder ein Zeichen einer Anomalie sein. Wenn Sie jedoch alle Indikatoren mit einer Linie „ziehen“ und jeden Messschritt so auf die Tafel setzen, erhalten Sie ein zweidimensionales, stetig wachsendes Bild, das die Entwicklung des gesamten Netzwerks beschreibt. Dieses Bild kann leicht mit Standardalgorithmen für maschinelles Lernen „eingezogen“ werden, die zur Erkennung grafischer Muster entwickelt wurden (eine Art FindFace, nur für Sensormuster).
Die zeitbasierte Farbkarte der Indikatoren ist nichts anderes als ein Bild, das die Entwicklung des Netzwerks beschreibt.Als nächstes werden selbstlernende Algorithmen (wie z. B. KI) hinzugefügt, mit denen Muster automatisch klassifiziert und Ursachen für Abweichungen oder unvollständige Daten identifiziert werden können. Alles sieht einfach aus, aber was denken Sie, wie viele Telekommunikationsbetreiber nutzen es wirklich?
Nur wenige, und wir sind nicht unter ihnen
Fairerweise befindet sich die Anwendung dieser Technologie im Rahmen von MaximTelecom selbst in einem relativ frühen Stadium, vor allem weil nicht klar ist, wo die Grenze zwischen dem, was von außerhalb des Netzwerks empfangen werden muss, und dem, was von innen erhalten werden kann, liegt. Unser Vorteil dabei ist, dass wir von Anfang an damit begonnen haben, die notwendige algorithmische Basis als Teil unserer Plattform für die Monetarisierung von Werbenetzwerken zu entwickeln.
Maxima ist in erster Linie der Betreiber des kostenlosen Wi-Fi-Zugangsdienstes. Darüber hinaus sind wir im Gegensatz zu einer ausreichend großen Anzahl von „sozialen“ Wi-Fi-Anbietern ein vollwertiger kommerzieller Kommunikationsbetreiber. Tatsächlich ist dies unsere Unternehmensidee: Wir bemühen uns, die Kommunikation gleichzeitig frei und rentabel zu gestalten, und wir haben bereits bewiesen, dass dies möglich ist. Fast kein Telekommunikationsbetreiber auf der Welt kann (oder will) dies und entwickelt daher keine Technologie dafür. Dies gibt Hoffnung, dass wir unsere Technologien in Zukunft so weit bringen können, dass sich die Benutzererfahrung von MT_FREE nicht von der herkömmlicher bezahlter Anbieter unterscheidet. Gleichzeitig wird die Zuverlässigkeit aufgrund eines weiterentwickelten intelligenten Steuerungs- und Betriebssystems höher sein.
Leider können nicht alle Probleme innerhalb der Fähigkeiten eines Unternehmens gelöst werden, schon allein deshalb, weil es viele Hersteller von Teilnehmer- und Netzwerk-Wi-Fi-Geräten gibt und der Vereinigungsgrad dem in Mobilfunknetzen erheblich unterlegen ist. Wir lösen Probleme mit verschiedenen Geräten, wenn wir ab dem Start eine Verbindung zum Netzwerk herstellen. Die „Wurzel des Bösen“ liegt hier in der Abwesenheit eines Standards, und infolgedessen kreiert jeder Hersteller etwas für sich.
Um solche Industrieprobleme zu lösen, gibt es internationale Verbände. Zum Beispiel leiten wir jetzt das Projekt zur Standardisierung der Benutzererfahrung bei der Verbindung mit Wi-Fi-Netzwerken mithilfe der Monetarisierung von Werbung. Dies ist jedoch ein Thema für einen anderen Artikel.
Übrigens erweitern wir ständig das Entwicklungspersonal, relevante Stellen finden Sie auf unserer
Karriereseite .