
Wenn Sie den ganzen Tag auf technische Interviews hören, bemerken Sie Muster. Eher in unserem Fall ihre Abwesenheit. Ich habe nur zwei Dinge gefunden, die unverändert geblieben sind. Ich habe mir sogar ein alkoholisches Spiel ausgedacht, das auf ihnen basiert: Jedes Mal, wenn jemand entscheidet, dass die Antwort auf die Frage eine Hash-Tabelle ist, trinken wir einen Stapel. Wenn die richtige Antwort eine Hash-Tabelle ist, trinken wir zwei. Aber ich rate nicht, es zu spielen, ich bin fast gestorben.
Warum höre ich den ganzen Tag Interviews? Denn vor einigen Jahren wurde ich einer der Schöpfer des
Interviewing.io- Dienstes, einer
Interviewplattform , auf der Menschen aus dem IT-Bereich Kommunikationsfähigkeiten mit dem Arbeitgeber entwickeln und einen Job zwischen den Jobs finden können.
Dadurch habe ich Zugriff auf eine große Datenmenge darüber, wie sich derselbe Benutzer bei verschiedenen Interviews zeigt. Und sie erweisen sich als so unvorhersehbar, dass Sie unweigerlich darüber nachdenken werden, wie aussagekräftig die Ergebnisse eines einzelnen Meetings sind.
Wie bekommen wir die Daten?
Wenn sich der Benutzer, der das Interview führt, und der Benutzer, der Arbeit sucht, finden, treffen sie sich in einem gemeinsamen Code-Editor. Dort ist die Fähigkeit zur Kommunikation in Sprache und über Textnachrichten verbunden, es gibt ein Analogon einer Markierungstafel zur Aufzeichnung von Entscheidungen - Sie können sofort mit technischen Problemen beginnen.
Die Fragen bei unseren Interviews stammen normalerweise aus der Kategorie derjenigen, die während des Telefoninterviews an Bewerber für die Position eines Backend-Softwareentwicklers gestellt wurden. Benutzer, die Interviews durchführen, sind in der Regel Mitarbeiter großer Unternehmen (Google, Facebook, Yelp) oder Vertreter von Startups mit starker technischer Ausrichtung (Asana, Mattermark, KeepSafe und andere). Am Ende jeder Sitzung bewerten die Arbeitgeber die Bewerber nach mehreren Kriterien, von denen eines die Programmierkenntnisse sind. Die Bewertungen werden auf einer Skala von eins ("so lala") bis vier ("großartig!") Festgelegt. Auf unserer Plattform bedeuten Noten ab drei in den meisten Fällen, dass der Kandidat stark genug ist, um zur nächsten Stufe überzugehen.

Hier kann man sagen: „Das ist alles wunderbar, aber was ist hier besonders? Viele Unternehmen sammeln solche Statistiken im Auswahlverfahren. “ Unsere Daten unterscheiden sich in einer Hinsicht von diesen Statistiken: Derselbe Benutzer kann an mehreren Interviews teilnehmen, von denen jedes mit einem neuen Mitarbeiter des neuen Unternehmens durchgeführt wird. Dies eröffnet Möglichkeiten für eine sehr interessante vergleichende Analyse in einem mehr oder weniger stabilen Umfeld.
Schlussfolgerung Nr. 1: Die Ergebnisse variieren stark von Interview zu Interview
Beginnen wir mit ein paar Bildern. In der folgenden Grafik zeigt jedes Symbol in Form eines kleinen Mannes die durchschnittliche individuelle Bewertung eines der Benutzer, die an zwei oder mehr Interviews teilgenommen haben. Einer der Parameter, der in diesem Diagramm nicht angezeigt wird, ist der Zeitraum.
Hier können Sie sehen, wie sich die Erfolge der Menschen im Laufe der Zeit ändern. Es gibt etwas im Geiste des primitiven Chaos.

Die Y-Achse zeigt eine typische Abweichung von den Durchschnittswerten - je höher wir steigen, desto unvorhersehbarer sind die Ergebnisse der Interviews. Wie Sie sehen können, werden etwa 25% der Teilnehmer stabil auf dem gleichen Niveau gehalten, während der Rest von allen auf und ab springt.
Wenn Sie diesen Zeitplan sorgfältig studiert haben, können Sie trotz eines Datenstapels wahrscheinlich grob herausfinden, welchen der Benutzer Sie zu einem Interview einladen möchten. Aber hier ist es wichtig zu bedenken: Wir haben Durchschnittswerte genommen. Stellen Sie sich nun vor, Sie müssen eine Entscheidung treffen, die auf einer einzigen Bewertung basiert, die zur Berechnung verwendet wurde. Hier beginnen die Probleme.
Zur besseren Übersicht können Sie eine
Drop-Dead-interaktive Version des Diagramms öffnen. Dort wird jedes Symbol geöffnet, wenn Sie mit der Maus darüber fahren, und Sie können sehen, welche Note der Benutzer bei jedem der Interviews erhalten hat. Die Ergebnisse können Sie sehr überraschen! Nun, zum Beispiel:
- Der Löwenanteil derjenigen, die mindestens eine Vier haben, hat sich mindestens einmal im „Doppel“ wiedergefunden.
- Selbst wenn Sie nur die stärksten Kandidaten auswählen (die durchschnittliche Punktzahl liegt bei 3,3 und höher), schwanken die Ergebnisse immer noch erheblich
- Der "Durchschnitt" (durchschnittliche Punktzahl - von 2,6 bis 3,3), die Ergebnisse sind besonders widersprüchlich
Wir fragten uns, ob es einen Zusammenhang zwischen dem Niveau des Kandidaten und der Amplitude der Schwingungen gibt. Mit anderen Worten, vielleicht gibt es für die Schwächeren charakteristische scharfe Sprünge, während starke Programmierer stabil sind? Wie sich herausstellt, nein. Wenn wir eine Regressionsanalyse einer typischen Abweichung in Bezug auf die durchschnittliche Schätzung durchführten, konnten wir keine signifikante Beziehung feststellen (das R-Quadrat betrug etwa 0,03). Und das bedeutet, dass Menschen unabhängig von ihrem allgemeinen Niveau unterschiedliche Noten erhalten.
Ich würde Folgendes sagen: Wenn Sie sich all diese Daten ansehen und sich dann vorstellen, dass Sie eine Person anhand der Ergebnisse eines Interviews auswählen müssen, fühlt es sich an, als würden Sie einen schönen, luxuriös eingerichteten Raum durch ein Schlüsselloch betrachten. In einem Fall haben Sie das Glück, ein Bild an der Wand zu sehen, in einem anderen - einer Sammlung von Weinen - und im dritten Fall begraben Sie sich in der Rückwand des Sofas.
In realen Situationen, wenn wir versuchen zu entscheiden, ob wir einen Bewerber für ein Vorstellungsgespräch im Büro anrufen sollen, versuchen wir normalerweise, Fehler der ersten Art (dh wählen Sie nicht zufällig diejenigen aus, die nicht an der Messlatte liegen) und Fehler der zweiten Art (dh diejenigen, die diese nicht ablehnen) zu vermeiden Es wäre eine Einladung wert). Marktführer entwickeln normalerweise eine Strategie, die auf der Tatsache basiert, dass Fehler der zweiten Art weniger schaden. Es scheint logisch, oder? Wenn genügend Ressourcen vorhanden sind und die Anzahl der Bewerber trotz einer großen Anzahl von Fehlern der zweiten Art groß ist, gibt es immer noch jemanden, der geeignet ist.
Diese Strategie, Fehler der zweiten Art zu machen, hat jedoch eine Schattenseite, und jetzt macht sie sich bemerkbar und wirkt sich auf die aktuelle Einstellungskrise im IT-Bereich aus. Bieten Einzelinterviews in ihrer aktuellen Form genügend Informationen? Lehnen wir trotz der gestiegenen Nachfrage nach talentierten Entwicklern kompetente Mitarbeiter ab, nur weil wir versuchen, einen umfangreichen Zeitplan mit starken Unterschieden durch ein winziges Guckloch in Betracht zu ziehen?
Wenn wir also Metaphern und moralisches Lesen ignorieren: Wie hoch ist die Wahrscheinlichkeit, dass ein starker Kandidat in einem Telefoninterview scheitert, da die Ergebnisse der Interviews so unvorhersehbar sind?
Schlussfolgerung Nr. 2: Die Wahrscheinlichkeit eines Scheiterns beim Interview basierend auf den Ergebnissen früherer Versuche
Nachfolgend finden Sie die prozentuale Verteilung der gesamten Basis unserer Benutzer nach durchschnittlichen Schätzungen.

Um die Wahrscheinlichkeit zu verstehen, dass sich ein Kandidat mit einem bestimmten Durchschnittsergebnis in einem Interview nicht gut zeigt, mussten wir Statistiken erstellen.
Zunächst haben wir die Befragten anhand der Durchschnittsbewertungen in Gruppen eingeteilt (während die Werte auf 0,25 aufgerundet wurden). Dann wurde für jede Gruppe die Ausfallwahrscheinlichkeit berechnet, dh eine Punktzahl von 2 oder weniger erhalten. Um die bescheidene Datenmenge zu kompensieren, haben wir
erneut eine Stichprobe erstellt .
Bei der Zusammenstellung der erneuten Stichprobe haben wir das Ergebnis eines zukünftigen Interviews als eine Multi-Nominal-Verteilung betrachtet. Mit anderen Worten, wir haben präsentiert, dass seine Ergebnisse durch das Würfeln mit vier Flächen bestimmt werden und für jede Gruppe der Schwerpunkt des Würfels auf eine bestimmte Weise verschoben wird.
Dann haben wir diese Würfel geworfen, bis wir für jede Gruppe einen neuen Satz simulierter Daten erstellt haben. Basierend auf diesen Daten wurden neue Ausfallwahrscheinlichkeiten für Benutzer mit unterschiedlichen Schätzungen berechnet. Unten sehen Sie die Grafik, die wir nach 10.000 solcher Würfe erhalten haben.

Wie Sie sehen können, gibt es viele Kreuzungen. Dies ist wichtig: Die Tatsache der Überlappung zeigt, dass es möglicherweise keine statistisch signifikanten Unterschiede zwischen einigen der Gruppen gibt (z. B. 2,75 und 3).
Wenn wir mehr Daten haben (viel mehr), werden die Grenzen zwischen den Gruppen natürlich klarer. Andererseits kann die Tatsache, dass eine große Stichprobe benötigt wird, um den Unterschied zwischen den Ausfallratenindikatoren zu ermitteln, auf eine anfänglich hohe Variabilität der Ergebnisse für den durchschnittlichen Benutzer hinweisen.
Am Ende können wir mit Zuversicht Folgendes sagen: Der Unterschied zwischen den Extrempunkten der Skala (2,25 und 3,75) ist signifikant, aber alles dazwischen ist bereits viel weniger eindeutig.
Basierend auf dieser Verteilung haben wir dennoch versucht, die prozentuale Wahrscheinlichkeit zu berechnen, mit der ein Kandidat mit der einen oder anderen Durchschnittsbewertung in einem einzelnen Interview ein schlechtes Ergebnis zeigt:

Die Tatsache, dass Personen mit einem guten allgemeinen Niveau (d. H. Einer durchschnittlichen Bewertung von etwa 3) mit einer Wahrscheinlichkeit von 22% scheitern können, zeigt, dass die Auswahlschemata, die wir jetzt verwenden, verbessert werden können und sollten. Nebelige Ergebnisse für den "Durchschnitt" bestätigen nur diese Schlussfolgerung.
Sind Interviews zum Scheitern verurteilt?
Im Allgemeinen ruft das Wort „Interviews“ in unseren Köpfen ein Bild von etwas Informativem hervor und liefert reproduzierbare Ergebnisse. Die von uns gesammelten Daten sprechen jedoch für etwas völlig anderes. Und dies hat noch etwas mit meiner persönlichen Erfahrung bei der Einstellung von Mitarbeitern und mit den Meinungen zu tun, die ich in der Gemeinde oft höre.
Zack Holmans Artikel
Startup Interviewing is F ***** verdeutlicht diese Diskrepanz zwischen den Gründen für die Auswahl der Kandidaten und der Arbeit, die sie zu erledigen haben. Die ehrenwerten Herren von TripleByte
kamen zu ähnlichen Ergebnissen , nachdem sie ihre eigenen Daten verarbeitet hatten. Die Plattform "used.us" lieferte kürzlich anschauliche Beweise für Inkonsistenzen im Interviewprozess.
Es kann argumentiert werden, dass viele, die nach einem Telefoninterview mit Unternehmen A gescreent wurden, bei einem anderen Interview das beste Ergebnis zeigten, in einigen Unternehmen als anständig eingestuft wurden - und jetzt, sechs Monate später, Angebote erhalten, von Personalvermittlern von Unternehmen A zu sprechen. Und trotz aller Bemühungen beider Parteien setzt sich dieser Prozess der verschwommenen, unvorhersehbaren und letztendlich zufälligen Auswahl von Kandidaten wie in einem magischen Kreis fort.
Ja, natürlich ist eine der Schlussfolgerungen, die gezogen werden können, dass technische Interviews in einer Sackgasse sind und nicht genügend verlässliche Informationen liefern, um das Ergebnis eines einzelnen Interviews vorherzusagen. Interviews mit algorithmischen Problemen sind ein sehr heißes Thema in der Community, und wir möchten es in Zukunft detailliert analysieren.
Es wird besonders interessant sein, die Beziehung zwischen dem Erfolg der Kandidaten und der Art des Interviews zu verfolgen - wir haben immer mehr Ansätze und Variationen auf unserer Plattform. Tatsächlich ist dies eines unserer langfristigen Ziele: Wie können wir in die gesammelten Daten eintauchen, die Bandbreite der aktuellen Strategien zur Auswahl von Kandidaten untersuchen und ernsthafte, datengestützte Schlussfolgerungen darüber ziehen, welche Interviewformate die nützlichsten Informationen liefern?
In der Zwischenzeit neige ich zu der Idee, dass es besser ist, eine allgemeine Ebene zu betrachten, als sich bei einer wichtigen Entscheidung von den willkürlichen Ergebnissen einer einzelnen Sitzung leiten zu lassen. Die verallgemeinerten Daten ermöglichen es uns, eine Korrektur nicht nur für diejenigen vorzunehmen, die in einem Einzelfall ungewöhnlich schwach geantwortet haben, sondern auch für diejenigen, die einen guten Eindruck nur aus Glück hinterlassen oder schließlich vor diesem Monster den Kopf gesenkt und Cracking the Coding Interview auswendig gelernt haben.
Ich verstehe, dass es für ein Unternehmen nicht immer praktisch oder sogar möglich ist, irgendwo in der Natur andere Beweise für die Fähigkeiten von Kandidaten zu sammeln. Wenn sich beispielsweise ein Grenzfall oder eine Person überhaupt nicht wie erwartet zeigt, ist es wahrscheinlich sinnvoll, erneut mit ihnen zu sprechen und zu einem anderen Material zu wechseln, bevor Sie eine endgültige Entscheidung treffen.