Normalisierung der Abweichung. Wie falsche Praktiken in unserer Branche zur Norm werden

Hast du jemals etwas ganz Normales für dich gesagt, aber alle anderen sind sehr überrascht? Das passiert mir ständig, wenn ich beschreibe, was in dem Unternehmen, in dem ich gearbeitet habe, als normal galt. Aus irgendeinem Grund verwandelt sich das Gesicht des Gesprächspartners allmählich von einem angenehmen Lächeln in eine Grimasse extremen Erstaunens. Hier sind einige typische Beispiele.

Es gibt eine sehr gute Firma, einen der angenehmsten Orte, an denen ich je gearbeitet habe, eine Kombination aller Leckerbissen von Valve und Netflix. Die Leute hier sind großartig und geben Ihnen fast die völlige Freiheit, alles zu tun, was Sie wollen. Als Nebeneffekt einer solchen Kultur verlassen ungefähr 50% der neuen Mitarbeiter diese im ersten Jahr, einige freiwillig und andere nicht. Absolut normal, oder?

Es gibt ein Unternehmen, das seine Infrastruktur unglaublich geheim hält. Zum Beispiel hat es Angst, Fehler an den Ausrüstungslieferanten zu melden, da dann die Fehler behoben werden und die Konkurrenten die Korrekturen verwenden können. Dies kann nicht erlaubt werden. Lösung: Firmware anfordern und Fehler selbst beheben! Ok

Zuletzt traf ich Spezialisten, die versuchten, den im Artikel dieser Firma veröffentlichten Algorithmus zu reproduzieren. Sie konnten das Ergebnis nicht reproduzieren. Darüber hinaus führte der Algorithmus aus dem Artikel zu einer ungewöhnlich hohen Instabilität. Als einer der Autoren danach gefragt wurde, antwortete er: „Nun ja, es gibt einige Tricks, die im Artikel nicht auftauchen“ und weigerte sich, diese Tricks zu teilen. Das heißt, das Unternehmen hat absichtlich ein unproduktives Ergebnis veröffentlicht, um keine Details preiszugeben, wie es normalerweise bei Fehlern der Fall war.

Das Unternehmen droht, jeden Mitarbeiter, der Informationen verliert, sofort zu entlassen. Dies wird jedem Neuankömmling anhand von Beispielen von Personen mitgeteilt, die wegen des Lecks gefeuert wurden (zum Beispiel hat ein Mann die Information durchgesickert, dass das Konzert in einem bestimmten Büro stattfinden wird). Jede solche Entlassung wird laut gemeldet und allen Mitarbeitern mitgeteilt. Infolge dieser Richtlinie haben viele Angst, E-Mails auch mit unschuldigen Informationen wie der Aktualisierung von Versicherungsdaten weiterzuleiten. Stattdessen drucken sie einen Brief von einem anderen Computer aus - und übermitteln ihn in Papierform. Oder fotografieren Sie am Telefon. Ok

In einem Büro habe ich einmal gefragt, warum sich zwei bestimmte Mitarbeiter zu meiden scheinen. Mir wurde gesagt, dass ihre Feindschaft seit zehn Jahren andauert. Tatsächlich hat sich die Situation in letzter Zeit verbessert. Viele Jahre lang konnten sie buchstäblich nicht im selben Raum sein, sonst würde einer von ihnen zu wütend werden und etwas Unglückliches tun. Aber jetzt haben sich die Jungs abgekühlt, sodass sie manchmal im selben Flügel des Büros oder sogar im selben Raum zu finden sind. Und das sind nicht nur zufällige Menschen. Dies sind die Manager der beiden einzigen Teams in diesem Unternehmen. OK!

Es gibt eine Firma mit einer so seltsamen Kultur, dass man ein kleines Buch darüber schreiben kann. Tatsächlich habe ich kürzlich angefangen, einen Beitrag über dieses Unternehmen zu schreiben, und bereits mehr als 100.000 Wörter geschrieben - mehr als alle Beiträge in meinem Blog zusammen.

Diese Firma hat mir erklärt, dass es viel besser ist, Entscheidungen nicht auf der Grundlage von Daten zu treffen, sondern auf der Grundlage von politischen Beziehungen, und dass die Idee, Entscheidungen auf der Grundlage von Daten zu treffen, auf jeden Fall ein Mythos ist - niemand tut es.

In dieser Firma gab es vier Gründe, mit ihnen zu arbeiten. Alle vier erwiesen sich als Lüge. Infolgedessen beschränkte sich meine Arbeit auf die Tatsache, dass ich bei meiner Einstellung zugestimmt hatte, nichts zu tun.

Als ich zu dieser Firma kam, hat mein Team mehrere Monate lang das Versionskontrollsystem nicht berührt. Ich musste kämpfen, um alle dazu zu bringen, es zu benutzen. Ich habe diese Schlacht gewonnen. Aber er konnte die Mitarbeiter nicht davon überzeugen, zuerst Tests durchzuführen. Die Montage wird daher mehrmals täglich unterbrochen.

In einem Gespräch mit der Geschäftsleitung habe ich angedeutet, dass ich dies als Problem der Produktivität unserer Abteilung betrachte. Mir wurde gesagt, dass dies normal ist. Dies ist die Situation für alle Mitarbeiter, sodass alle gleichberechtigt sind. Meine Aufgabe ist es, sie zu klassifizieren. Wenn das Problem alle gleichermaßen betrifft, gibt es keinen Grund zur Sorge.

Ein anderes Unternehmen startete viele groß angelegte Initiativen, um Entwicklerinnen anzulocken, aber Frauen werden immer noch auf Interviews mit Fragen wie „Hatten Sie Erfahrung mit Algorithmen oder nur Codierung?“ Überprüft. Ich dachte, mein Kandidat mit einer sehr guten Empfehlung würde diese Barriere überwinden vergaß aber wie normal die firma war.

In einer anderen Firma habe ich in einem Team von vier Personen an einem Projekt mit einem Budget von mehreren hundert Millionen Dollar und einem jährlichen Effekt von einer Milliarde Dollar gearbeitet. Gleichzeitig wurden Anfragen nach Dingen im Wert von Hunderten von Dollar monatelang geprüft oder abgelehnt.

Es mag Ihnen so vorkommen, als hätte ich nur in ungewöhnlich schlechten Unternehmen gearbeitet. Aber nein, sie haben einen guten Ruf und zwei von ihnen gelten als eines der besten Unternehmen für Beschäftigung. Und ich habe ähnliche Geschichten von Mitarbeitern anderer Unternehmen gehört, auch mit einem ausgezeichneten technischen Ruf. Der einzige Unterschied ist, dass ich jetzt unter Schock war und der Gesprächspartner glaubte, dass alles in Ordnung war.

Viele Unternehmen verwenden die Flaky- Bibliothek, mit der unzuverlässigen Tests, die bestanden wurden oder nicht bestanden wurden, Python-Anmerkungen hinzugefügt werden. Ich habe Mitarbeiter von drei verschiedenen Firmen gefragt, was Flaky macht. Sie alle schlugen vor, dass sie den Test wiederholt durchführt und im Fehlerfall meldet. Nah, aber nicht ganz. Technisch kann es trotzdem verwendet werden, aber in der Praxis wird der Test wiederholt neu gestartet und ein erfolgreicher Abschluss gemeldet. Flaky wurde von einem Unternehmen entwickelt, das sich mit der Datenspeicherinfrastruktur befasst, während die Bibliothek ihren größten Konkurrenten aktiv nutzt. Das Markieren als bestandene Tests mit potenziellen Fehlern ist völlig normal .

Es gibt ein Unternehmen, das für gute Ingenieurspraktiken bekannt ist. Als ich das letzte Mal nachgesehen habe, hatte sie eine Betriebszeit von 99,99%, was durch die dort angewendeten technischen Praktiken vollständig erklärt wird. Wenn ein Startup wie Twitter oder Reddit aussieht, ist nur eine Neun ausreichend, aber es handelt sich um eine Infrastrukturplattform, die wirklich zwei benötigt. Viele Unternehmen, die die Infrastruktur für zwei Neunen aufbauen, betrachten ihre Praktiken, die zu einer solchen Zuverlässigkeit führen, als völlig normal.

Soweit ich das beurteilen kann, haben viele dieser Unternehmen einen langen Weg zurückgelegt. Zunächst konzentrierten sie sich nur auf das Produktwachstum. Dies ist absolut zumutbar, da der Wert des Unternehmens zunächst ungefähr Null ist. Sie implementiert keine kompetente Systemadministration oder echte Sicherheit, weil sie nichts zu verlieren hat. Mit Ausnahme der Benutzerdaten passiert dies die ganze Zeit, wenn diese unweigerlich gehackt werden und wenn Sie mit Sicherheitsbeamten großer privater Startups (diese werden als "Einhörner" bezeichnet) sprechen.

Das Ergebnis ist eine Kultur, die übermäßig auf Wachstum ohne Risiko ausgerichtet ist. Diese Kultur bleibt oft auch dann erhalten, wenn das Unternehmen auf eine Milliarde Dollar angewachsen ist und bereits etwas zu verlieren hat. Wenn eine Person früher für Google, Amazon oder ein anderes Unternehmen mit soliden Verfahren gearbeitet hat, wird ihn die Situation schockieren. Oft versucht er etwas zu reparieren, kann aber nichts und tritt zurück.

Wahrscheinlich verfügt Google heute über die besten Betriebsmethoden und Sicherheitsmethoden aller IT-Unternehmen der Welt. Es ist leicht zu sagen, dass wir ein Beispiel daraus nehmen sollten. Aber es ist aufschlussreich zu sehen, wie sie dies erreicht haben. Und was ist vorher passiert? Wenn Sie sich die Codebasis ansehen, sehen Sie viele Dienste, deren Namen mit z enden, sowie eine überraschend große Anzahl von Variablen. Einer der alten Angestellten sagte, dass einmal jemand Überwachung hinzufügen wollte. Es war nicht sehr sicher, google.com/somename für die Überwachung google.com/somenamez . Aus Sicherheitsgründen wurde z ( google.com/somenamez hinzugefügt. Dies ist in der Firma, die jetzt als die weltweit beste in Sachen Sicherheit gilt.

Jetzt ist sie in Sicherheit so weit gegangen, dass neue Mitarbeiter in der Vergangenheit solche Praktiken vehement ablehnen. Gleichzeitig werden Gründe genannt, die nicht wirklich sinnvoll sind (zum Beispiel um Namenskollisionen zu vermeiden).

Der enorme Sicherheitsfortschritt von Google - vom Hinzufügen des Buchstabens z zu den besten IB-Praktiken der Welt - ist nicht geschehen, weil jemand einen aufmunternden Vortrag gehalten oder einen überzeugenden Aufsatz geschrieben hat. Es begann nach mehreren "Fakap". Erst dann erhielten die Sicherheitskräfte die Befugnis, grundlegende Probleme zu lösen. Für gute und richtige Unternehmen beginnen Reformen fast immer auf diese Weise. Microsoft wurde viele Jahre ausgelacht, aber dann zwangen sie mehrere katastrophale Exploits, ihre Einstellung zur Sicherheit zu ändern. Es klingt einfach. Aber Augenzeugen sagen, die Veränderung sei grausam gewesen. Obwohl von oben angedeutet, blieb die Trägheit sehr stark. Warum ändern, was funktioniert hat? Daher gab es sehr starken Druck von Menschen, die es gewohnt waren, alles auf die alte Art und Weise zu tun.

Solche Dinge können in jeder Branche gesehen werden. Ein klassisches Beispiel, das von Technikern häufig genannt wird, ist das Händewaschen durch Ärzte und Krankenschwestern. Es ist bekannt, dass es Mikroben gibt und Händewaschen mit Seife die Wahrscheinlichkeit einer mikrobiellen Übertragung erheblich verringert und dadurch die Sterblichkeitsrate in Krankenhäusern erheblich verringert. Trotzdem tun es selbst erfahrene Ärzte und Krankenschwestern oft nicht. Intervention erforderlich. Zeichen, die an Händewaschen erinnern, retten Leben. Und noch besser, dass lebende Menschen standen und sich die Hände waschen mussten: So werden noch mehr Leben gerettet. Die Leute können die Zeichen ignorieren, aber sie können nicht an der verantwortlichen Person vorbeigehen.

So etwas versuchen IT-Unternehmen, Best Practices umzusetzen. Wenn Sie den Mitarbeitern sagen, was sie tun sollen, hilft dies ein wenig. Wenn Sie die Codeüberprüfung implementieren, wird der Effekt sofort sichtbar.

Statistiken zeigen deutlich, dass Menschen Routinegewohnheiten, die keinen sichtbaren Effekt haben, aber das Risiko seltener, aber katastrophaler Ereignisse irreversibel verringern, nur sehr schlecht beherrschen. Es scheint einer Person, dass das Schneiden eines Pfades der richtige, vernünftige Weg ist. Dafür gibt es einen speziellen Begriff: "Normalisierung der Abweichung". Es wurde in einer Reihe anderer Kontexte, einschließlich Gesundheitswesen, Luftfahrt, Ingenieurwesen, Luft- und Raumfahrttechnik und Bauingenieurwesen, eingehend untersucht, jedoch noch nicht im Softwarekontext erörtert.

Kann man aus den Fehlern anderer lernen und nicht aus Ihren eigenen? Der Zustand der Industrie gibt keinen Grund, sich darauf zu verlassen, aber versuchen wir es. John Banya hat einen kurzen Bericht über die Normalisierung von Abweichungen im Gesundheitswesen verfasst , dessen Ergebnisse auf die Softwareentwicklung übertragen werden können. Es ist anzumerken, dass die Behandlung von Patienten mit den Handlungen von Devops verglichen werden kann. Die Normalisierung der Abweichung findet jedoch auch in einem kulturellen Kontext statt, in dem die Analogie nicht so offensichtlich ist.

Der erste Abschnitt des Artikels beschreibt im Detail eine Reihe katastrophaler Situationen, sowohl im Gesundheitswesen als auch in anderen Bereichen. Hier ist ein typisches Beispiel:

Der Fall der katastrophalen Fahrlässigkeit, den der Autor als Sachverständiger beobachtete, wurde damit in Verbindung gebracht, dass der Anästhesist auf Aufforderung eines Chirurgen, der die Bauchhöhle des Patienten röntgen wollte, die künstliche Lungenbeatmung abschaltete (Banya, 2005, S. 87-101). Das Beatmungsgerät sollte sich nur für ein paar Sekunden ausschalten, aber der Anästhesist vergaß, es wieder einzuschalten, oder dachte, es sei eingeschaltet, schaltete es jedoch nicht ein. Die Patientin war lange genug sauerstofffrei, bis eine vollständige Anoxie einsetzte, die sie in einen vegetativen Zustand versetzte. Sie hat sich nie erholt. Nach 9 Tagen wurde sie von der mechanischen Beatmung getrennt und nach 2 Tagen starb sie. Später wurde festgestellt, dass die Anästhesiealarme und Überwachungsgeräte im Operationssaal absichtlich so programmiert waren, dass sie „auf unbestimmte Zeit ausgesetzt“ waren, sodass der Anästhesist keine Warnung über ein Problem mit dem Beatmungsgerät erhielt. Der Alarm selbst war vorhanden, wurde jedoch ausgeschaltet, möglicherweise weil das Bedienungspersonal das Quietschen des Geräts als störend empfand.

Benachrichtigungen deaktivieren oder ignorieren, weil zu viele vorhanden und zu nervig sind? Manuell handeln mit dem Risiko, einen Fehler zu machen? Ja, ich kann ein paar Unternehmen auf einmal nennen, bei denen die Nachbesprechung nach einer Katastrophe genau an diesen Punkten beginnt, es sei denn, am Ende stirbt niemand und nur ein paar Millionen Dollar gehen verloren. Wenn Sie viele Analysen solcher Vorfälle in der IT lesen, wird Ihnen jedes Beispiel im Artikel von Bunny bekannt vorkommen, auch wenn die Details unterschiedlich sind.

Der Abschnitt endet mit dieser Schlussfolgerung :

Diese Katastrophen erklären sich in der Regel durch „einen langen Verstoß gegen die Regeln, widersprüchliche Ereignisse, die sich unentdeckt ansammelten, und eine falsche kulturelle Vorstellung von den Gefahren. Zusammen haben diese Faktoren ein Eingreifen verhindert, das die schädlichen Auswirkungen hätte verhindern können. “ Besonders auffällig ist, wie viele Regelverstöße und Fehler zu einer Katastrophe führen.

Auch hier scheint der Text aus einem Artikel über technische Fehler zu stammen. Daher verdient der nächste Abschnitt über die Ursachen dieser Fehler besondere Aufmerksamkeit. Und die Gründe sind wie folgt.

Dumme und unwirksame Regeln


Der Artikel bietet ein Beispiel für die Verabreichung von Arzneimitteln an Neugeborene. Um das "Auslaufen von Medikamenten" zu verhindern, muss die Krankenschwester ein Passwort auf dem Computer eingeben. Sie erhält Zugang zur Medikamentenbox und nimmt die richtige Menge an Medikamenten. Um sicherzustellen, dass die erste Krankenschwester nichts gestohlen hat, sollte die zweite Krankenschwester den Prozess überwachen. Dann sollte sie ihr Passwort in den Computer eingeben, um zu bestätigen, dass sie die korrekte Vorgehensweise für den Umgang mit dem Arzneimittel beachtet hat.

Kommt mir bekannt vor. Viele Vorfallberichte beginnen mit der Tatsache, dass "jemand einige Schritte übersprungen hat, weil sie unwirksam sind". Beispiel: "Ein Programmierer hat eine fehlerhafte Konfiguration oder einen fehlerhaften Code gestartet, weil er sich dessen sicher war und keine Zeit für das Staging oder Testen aufwenden wollte." Das berüchtigte Herunterfahren von Azure im November 2014 geschah genau aus diesem Grund.

Ungefähr zur gleichen Zeit, als einer der Wettbewerber von Azure, haben Entwickler eine Regel aufgehoben, die das Pushen einer Konfiguration, bei der die Tests fehlschlagen, in den kanarischen Zweig verbietet. Die Entwickler waren sich sicher, dass die Konfiguration in Ordnung war. Als Canary zu scheitern begann, wurde die Regel, die die Bereitstellung von Canary auf Staging verbietet, mit einem Fehler aufgehoben. Sie waren sich sicher, dass die Konfiguration in Ordnung war und dass der Fehler durch etwas anderes verursacht wurde. Die anschließende Analyse ergab, dass die Konfiguration technisch korrekt war, jedoch trat ein Fehler in der Hauptsoftware auf. Es ist ein reines Glück, dass der durch die Konfiguration aufgedeckte versteckte Fehler nicht so schwerwiegend war wie der Azure-Fehler.

Die Menschen haben ein schlechtes Verständnis dafür, wie sich Fehler überschneiden. Daher akzeptieren wir die Regeln für eine sichere Bereitstellung. Aber aus dem gleichen Grund, aus dem die Leute ein schlechtes Verständnis dafür haben, wie sich Fehler überschneiden, scheinen diese Regeln albern und ineffektiv zu sein!

Wissen ist unvollkommen und ungleichmäßig


Der Begriff einer Norm ist nicht angeboren. Wenn neue Leute ins Unternehmen kommen, nehmen sie die abweichenden Prozesse, die zur Norm geworden sind, leicht auf.

Julia Evans hat mir beschrieben, wie das passiert:

Neuling kommt
Neuling : WTF WTF WTF WTF WTF
Veteran : Ja, wir wissen, wir machen das.
Neuling : WTF WTF wTF wtf wtf w ...
Neuling wird verwendet
Der zweite Anfänger kommt
Anfänger Nr. 2 : WTF WTF WTF WTF
Anfänger : Ja, wir wissen, wir machen das.

Am heimtückischsten ist, dass die Leute die Idee von WTF wirklich akzeptieren und sie dann an anderen Orten während ihrer Karriere verbreiten können. Einmal habe ich mit einem Open-Source-Projekt gearbeitet, das regelmäßig abgestürzt ist. Mir wurde gesagt, dass dies normal ist und das Produkt überdurchschnittlich gut ist. Ich überprüfte und stellte fest, dass er in fast jeder Hinsicht der schlechteste in seiner Klasse war. Und er entwarf die Idee , Builds mit relativ geringem Aufwand freizugeben, die fast immer Tests bestehen. Die häufigste Antwort war: „Wow, dieser Typ muss mit Superstar-Programmierern zusammenarbeiten. Aber wir werden realistisch sein. Mindestens mehrmals in der Woche findet eine Montagepause für alle statt. " Als ob das Ausführen von Tests (oder sogar der Versuch, den Code zu kompilieren) vor dem Überprüfen übermenschliche Anstrengungen erfordern würde. Aber sobald die Leute glauben, dass eine Abweichung normal ist, nehmen sie die Idee oft wirklich auf.

Ich verstoße gegen die Regel zum Wohle des Patienten


Der Artikel enthält ein Beispiel für einen Arzt, der gegen die Regel verstößt, dass bei der Suche nach einer Vene Handschuhe getragen werden müssen. Er glaubt, dass das Tragen von Handschuhen das Auffinden einer Vene erschwert und er deshalb ein Kind mehrmals mit einer Nadel stechen muss. Es ist schwer damit zu streiten. Niemand will ein Kind verletzen!

Das zweitgrößte Versagen von allem, was ich in meinem Leben gesehen habe, geschah aus diesem Grund. Jemand bemerkte eine Verlangsamung der Datenbank. Sie haben schnell einen Patch geschrieben und die Regel einer langsamen, schrittweisen Bereitstellung ignoriert, um zu verhindern, dass sich die Verschlechterung weiter ausbreitet. Stattdessen haben sie den Patch auf alle Maschinen übertragen. Es ist schwer damit zu streiten. Niemand möchte, dass Kunden eine Verschlechterung des Service erfahren! Leider hat der Patch einen Fehler festgestellt, der zu einem globalen Herunterfahren des Dienstes geführt hat.

Die Regeln gelten nicht für mich / Sie können mir vertrauen


Die meisten Menschen empfinden sich als gut und anständig, daher können sie ihre Regelverletzung als eine völlig rationale und ethisch vertretbare Reaktion auf Problemsituationen betrachten. Sie sind sich sicher, dass sie nichts falsch machen, empört sind und sich oft heftig verteidigen, wenn sie mit gegenteiligen Beweisen konfrontiert werden.

Mit dem Wachstum des Unternehmens muss ein Sicherheitssystem eingeführt werden, mit dem nicht jeder Mitarbeiter auf fast alles zugreifen kann. Und wenn dies passiert, sind in den meisten Unternehmen einige Mitarbeiter wirklich verärgert: „Vertraust du mir nicht? Wenn Sie vertrauen, warum verweigern Sie dann den Zugriff auf X, Y und Z? “

Es ist bekannt, dass Facebook Mitarbeitern seit langem Zugriff auf das Profil eines beliebigen Benutzers gewährt. Einige Personalvermittler erwähnten dies sogar als einen Vorteil der Arbeit an Facebook. Und ich kenne mehr als ein angesehenes Startup, bei dem nach wie vor jeder Mitarbeiter Zugriff auf fast alle Informationen hat, auch nach ein oder zwei Informationslecks. Ein gewisser politischer Wille ist erforderlich, um den Zugang der Menschen zu dem zu beschränken, was sie für notwendig oder gesetzlich gewohnt halten. Viele angesagte Startups haben die Grundwerte „Vertrauen“ und „Transparenz“ deklariert, die es schwierig machen, Zugangsbeschränkungen zu rechtfertigen.

Arbeiter haben Angst, etwas zu leisten


Ich möchte einigen Leuten meine Meinung nicht mitteilen, da sie ihm feindselig begegnen und die gesprochenen Worte nicht zurückgeben können. In dem erwähnten wissenschaftlichen Artikel gibt der Autor ein Beispiel für einen Arzt mit schlechter Handschrift. Er wird wütend, wenn jemand nach seinem Text fragt. Infolgedessen wundern sich die Leute, nicht fragen.

Die meisten Unternehmen haben eine Kultur entwickelt, in der Feedback schwierig ist. Viele Projekte verzögerten sich um mehrere Monate und wurden dann eingestellt, weil jeder Mitarbeiter von Anfang an Angst hatte, seine Meinung zu äußern, aus Angst vor Kritik. Das Problem besteht sogar in Kulturen, die Höflichkeit fördern: Es ist auch schwierig, dort aufrichtige Kritik zu üben. Es stellt sich heraus, dass in einigen Unternehmen Menschen Angst haben zu sprechen, weil sie von jemandem angegriffen werden, der böse ist. Bei anderen haben sie Angst zu sprechen, weil sie selbst als böse gebrandmarkt werden. Schwieriges Problem.

Manuell versteckt Problem


Ein wissenschaftlicher Artikel sagt, wie Informationen über ein Problem weggespült werden, wenn es die Kette hochgereicht wird. Ein Beispiel ist, wie ein Manager nicht optimale Maßnahmen ergreift, um vor seinen Vorgesetzten nicht schlecht auszusehen.

Ich war schockiert, als ich das zum ersten Mal sah. Die Leute verstehen, dass sie eindeutig etwas falsch machen. Wenn Sie jedoch optimieren, ist die Wahrscheinlichkeit eines Ausfalls ungleich Null und es wird sehr peinlich. Daher ist es einfacher, es so zu belassen, wie es ist. Mit jahrelanger Berufserfahrung verstehe ich besser, wie und warum die Leute dieses Spiel spielen, finde es aber dennoch absurd.

Lösungen


Angenommen, Ihr Unternehmen hat ein typisches Problem: Menschen werden für Heldentum beim Löschen von Bränden belohnt und nicht für ihre Verhinderung. Und die Leute werden befördert, weil sie neue Funktionen veröffentlicht haben, nicht weil sie wichtige Wartungs- und Fehlerbehebungsarbeiten durchgeführt haben. Wie kann man das ändern?

Die einfachste Möglichkeit ist, einfach das Richtige selbst zu tun und zu ignorieren, was um Sie herum passiert. Sie werden einen gewissen Nutzen bringen, aber das Ausmaß Ihres Einflusses ist begrenzt. Als nächstes können Sie Ihr Team davon überzeugen, das Richtige zu tun: Ich habe dies mehrmals getan, um Praktiken umzusetzen, die ich für wirklich wichtig halte.

Aber wenn sich Anreize gegen Sie richten, sind ständige und unregelmäßige Anstrengungen erforderlich, um die Menschen dazu zu bringen, das Richtige zu tun. In diesem Fall besteht das Problem darin, jemanden zu überreden, die Anreize zu ändern, und dann sicherzustellen, dass die Änderungen wie erwartet funktionieren. Wie Sie das Management davon überzeugen können, Anreize zu ändern, lesen Sie in einem separaten Artikel. In Bezug auf die Umsetzung der Änderungen habe ich viele „offensichtliche“ Fehler gesehen, die sich in verschiedenen Unternehmen wiederholen.

Kleine Unternehmen finden das einfach. Als ich für ein Unternehmen mit 100 Mitarbeitern arbeitete, gab es eine einfache Hierarchie: Einzelner Teilnehmer (IC) -> Teamleiter (TL) -> Generaldirektor (CEO). Das ist alles.Der Regisseur griff nicht besonders ein, aber wenn er etwas sagte, wurde es implizit ausgeführt. Es ist wichtig, dass er weiß, was jeder Mitarbeiter tut und dass er die Vergütung im Allgemeinen in Echtzeit regeln kann. Wenn Sie etwas Gutes für das Unternehmen getan haben, können Sie mit einer Gehaltserhöhung rechnen. Keine neun Monate später, als der nächste Zyklus der Personaleffizienzanalyse anstand, aber fast sofort. Nicht für alle kleinen Unternehmen funktioniert dies effektiv, aber mit der richtigen Führung ist dies möglich. In großen Unternehmen nichts.

Ein großes Unternehmen hatte ein solches Problem. Die Geschäftsführung hat angeordnet, die Mitarbeiter für ihre kritische, aber unauffällige Arbeit zu belohnen. Es gab zu viele Mitarbeiter, um Boni sofort zu verteilen, aber der Manager konnte Berichte analysieren, Entscheidungen über Stichprobenkontrollen treffen und Boni vergeben, damit im Laufe der Zeit die richtigen Anreize Teil der Kultur werden. Meiner persönlichen Meinung nach hat das Unternehmen keine Übereinstimmung zwischen langweiligen Wartungsarbeiten und brillanten neuen Projekten erreicht. Aber die Leute haben zumindest angefangen, an der Infrastruktur zu arbeiten und Fehler zu beheben, ohne ihre Karriere zu beeinträchtigen.

In einem anderen großen Unternehmen waren sich die einfachen Mitarbeiter einig, dass es falsch ist, für die Schaffung neuer Funktionen großzügiger zu belohnen als für die Ausführung kritischer Arbeiten. Wenn ich mit Managern sprach, waren sie sich auch oft einig. Der Anstieg wurde jedoch hauptsächlich von Entwicklern brillanter neuer Dinge erhalten. Das Management hat versucht, kulturelle und technologische Veränderungen herbeizuführen. Grundsätzlich in Form von inspirierenden Statements von Menschen mit ausgefallenen Beiträgen. Für wirklich wichtige Dinge musste man sich das Video ansehen und nach dem Ansehen des Videos den erforderlichen Test mit mehreren Antwortoptionen bestehen. Das einzige Ergebnis dieser Kampagne war die allgemeine Meinung, dass das Management sehr weit vom Leben gewöhnlicher Mitarbeiter entfernt ist.

Es ist ein bisschen komisch, dass am Ende alles auf das Problem der Anreize hinausläuft. Wir in der Branche denken viel darüber nach, wie wir die Verbraucher dazu ermutigen können, das zu tun, was wir wollen. Aber innerhalb des Unternehmens schaffen wir ein System von Anreizen, das uns zu den falschen Dingen treibt. Eine Art Mischung aus verwöhntem Telefon und Ladungskult. Früher war Microsoft ein Vorbild - wir haben ihre Methoden kopiert und Interview-Rätsel gestellt. Jetzt ist Google ein Vorbild geworden - und wir stellen Fragen zu Algorithmen. Wenn Sie sich Modefirmen ansehen, die jünger als Google sind, kopieren die meisten von ihnen im Grunde genommen das Google-Post-System mit einigen geringfügigen Änderungen. Die gute Nachricht ist, dass Google die meisten Prozesse gut durchdacht hat und Entscheidungen auf der Grundlage von Daten getroffen werden. Die schlechte Nachricht ist, dass Google in vielerlei Hinsicht ein einzigartiges Unternehmen ist. Ihre Praktiken funktionieren oft nicht für den Rest, deshalb praktizieren die Leute nur den Frachtkult. Und das schon lange, nachdem Google diese Praxis aufgegeben hat .

Eine solche Diffusion tritt auch in technischen Lösungen auf. Stripe hat eine robuste Nachrichtenwarteschlange über Mongo erstellt , daher werden wir auch robuste Nachrichtenwarteschlangen über Mongo 1 erstellen .Frachtkult geht die Kette runter 2 .

Der medizinische Artikel enthält spezielle Abschnitte zur Verhinderung der Normalisierung von Abweichungen.

  • Achten Sie auf schwache Signale.
  • Widerstehen Sie dem Wunsch, übermäßig optimistisch zu sein.
  • Bringen Sie den Mitarbeitern bei, wie sie emotional unangenehme Gespräche führen können.
  • Systembetreiber sollten sich sicher fühlen, wenn sie eine Meinung äußern.
  • Erkenne, dass Überwachung und Kontrolle niemals aufhören.

Mal sehen, wie das erste Prinzip funktioniert, wenn ein Neuling zum Unternehmen kommt und „WTF WTF WTF“ schreit.

Wenn ein Vizepräsident seine Meinung äußert, wird er normalerweise angehört. Dies ist ein starkes Signal. Wenn nicht, weiß der Vizepräsident immer noch, wie er seine Entscheidung umsetzen soll. Der Anfänger weiß nicht, welchen Hebel er ziehen soll, mit wem er sprechen soll. Sie erzeugen schwache Signale, die leicht zu ignorieren sind. Als er das System so weit studiert hat, dass starke Signale abgegeben werden, akklimatisiert er sich bereits.

„Auf schwache Signale achten“ hört sich gut an, aber wie geht das? Starke Signale sind selten und daher leicht zu beachten. Es gibt zu viele schwache Signale. Wie kann ich Rauschen herausfiltern? Und wie lässt sich das gesamte Team oder die gesamte Organisation in die Realität umsetzen? Auf solche Fragen gibt es keine einfache Antwort, dem muss besondere Aufmerksamkeit geschenkt werden.

Leider tun Unternehmen dies selten. Startups denken viel über Wachstum nach. Obwohl alle sagen, dass sie sehr besorgt über die Ingenieurkultur sind, ist dies in der Praxis nicht so. Mit einigen Ausnahmen unterscheiden sich große Unternehmen nicht wesentlich. In einem dieser Unternehmen habe ich Folien mit Wettbewerbsanalysen gesehen, und sie sind erstaunlich. Die kleinsten Details werden in Hunderten von Produkten untersucht, um sicherzustellen, dass die Benutzer in jeder Hinsicht perfekte Qualität erhalten, von der Implementierung bis zur Interaktion mit konkurrierenden Produkten. Wenn sogar ein Parameter komplizierter oder verwirrender ist als der eines Mitbewerbers, sind die Leute verärgert und versuchen, die Situation zu beheben. Das ist sehr beeindruckend.

Dann nimmt das Unternehmen neue Mitarbeiter auf, und jeder Dritte hat kein Konto im System, keinen Platz im Büro oder keinen Computer - und dieser Zustand kann Wochen oder Monate anhalten. Folien zur Wettbewerbsanalyse geben an, dass Sie nur eine Chance haben, einen ersten Eindruck zu hinterlassen, und dann haben die Mitarbeiter den Eindruck, dass das Unternehmen nicht in der Lage ist, sich um sie zu kümmern. Und dass Arbeitsabläufe ständig gestört werden, ist normal.

Das Unternehmen kann nicht einmal die Grundlagen des Onboarding verstehen, von wirklich komplexen Dingen wie der Akkulturation ganz zu schweigen. Die Gründe liegen auf der Hand. Externe Indikatoren wie das Wachstum oder der Rückgang des Publikums sind im Gegensatz zur Akkulturation von Neuankömmlingen messbar, damit sie schwache Signale nicht ignorieren. Dies bedeutet jedoch nicht, dass Letzteres weniger wichtig ist. Viele sagen, wie neue Sprachen oder Methoden wie TDD oder Agile die Produktivität steigern, aber eine starke Ingenieurkultur ist ein viel leistungsfähigerer Animator.



1. Die Leute scheinen zu denken, ich mache Witze. Und versuchen Sie es zu googeln mongodb message queue. Sie werden Anweisungen wie "Replikatsätze in MongoDB bieten sehr gute Redundanz und automatisches Failover" finden. Fast alle mir bekannten Unternehmen, die es im großen Stil versucht haben, fanden das System, gelinde gesagt, suboptimal. Aber Sie werden nichts darüber finden. Nur Artikel und Präsentationen von Firmen, die dieses DBMS ausprobiert und fasziniert haben. Dies ist vielen Technologien gemeinsam. In der Öffentlichkeit gibt es hervorragende Empfehlungen, und im privaten Bereich werden Sie über alle Probleme informiert. Wenn Sie heute eine solche Suchanfrage ausführen, werden Sie eine Menge bewundernder Artikel darüber finden, wie cool es ist, eine Nachrichtenwarteschlange über Mongo zu erstellen. Sie finden diesen Artikel und möglicherweise mehrere Artikel in Kyle Kingsburys Blog, abhängig von der spezifischen Suchphrase.[]

Wenn eine schwerwiegende Störung auftritt, sehen Sie eine Nachbesprechung mit einer technischen Beschreibung. Wir machen diese Analyse jedoch gerne bei Unfällen wie "Die Website war 30 Sekunden lang nicht erreichbar". In den seltensten Fällen analysieren wir Situationen wie "Zehnmal mehr Aufwand als die Alternative, und dies ist der Tod durch tausend Schnitte" oder "Wir haben das System schlecht entworfen." Jetzt ist es sehr schwierig, Änderungen vorzunehmen, die trivial sein sollten. "oder" Unser Konkurrent hat das Gleiche getan und eine Größenordnung weniger Aufwand aufgewendet. " Manchmal führe ich eine informelle Nachbesprechung durch und stelle allen Beteiligten wichtige Fragen, aber das ist mehr für mich, weil ich nicht sicher bin, ob die Leute wirklich die Wahrheit hören wollen. Vor allem, wenn mehrere Mitarbeiter eine Förderung für die Entwicklung dieses Projekts erhalten haben. Je mehr Schaden das Projekt angerichtet hat, desto häufiger wird es vergeben. Je größer das Projekt,je auffälliger es ist und je mehr Prämien, auch wenn es mit viel weniger Aufwand möglich wäre.

2. Ich habe diese Frage in erfolgreichen Unternehmen und in anderen Unternehmen, in denen alles schlecht ist, oft gestellt. Wo alles schlecht ist, hat jeder Ideen. Aber wo alles gut ist, hat niemand eine Idee, warum alles funktioniert, wie in der erwähnten kleinen Firma mit einem Direktor, der sich nicht besonders in Sachen einmischt. Erstaunlich Die Leute sagen wörtlich, dass alles wie in einer anderen Firma aussieht, in der sie gearbeitet haben, außer dass dort alles schlecht war, aber hier ist es magisch gut. Aus Gründen, die sie nicht verstehen. Das ist aber keine Zauberei. Dies ist harte Arbeit, die nur wenigen bewusst ist. Oft sah ich, wie der Vizepräsident ging, und es wurde für das Unternehmen unangenehm, zu arbeiten. Nach und nach kommt es auf die Menschen an: Der Vizepräsident sorgte dafür, dass alle Mitarbeiter an ihren Arbeitsplätzen zufrieden waren. Es ist schwer zu verstehen, bis sich die Situation verschlechtert. Wenn Sie nichts klar falsch sehen,Entweder passt du nicht auf, oder jemand hat große Anstrengungen unternommen, damit alles reibungslos verlief.[]

Source: https://habr.com/ru/post/de486120/


All Articles