🤶🏻 🤟🏽 🚩 Versteh mich, wenn du kannst 🍯 👆🏿 🦍

Letzte Woche haben wir einen Brief von einem Kandidaten erhalten, der kein Interview auf Englisch bestanden hat. Es stellte sich heraus, dass unsere Kollegen Teilnehmer an einem technischen Experiment wurden, das parallel zum Interview stattfand. Wir stellen einen Brief mit minimalen Änderungen zur Verfügung und danken dem Autor für eine interessante Idee und den Mut bei der Umsetzung.

„Ich bin wohl nicht für dich geeignet, weil ich den Englischtest leider nicht bestanden habe. Ja, ich kann nicht gut Englisch sprechen, aber das stört mich nicht daran, Datenblätter zu lesen und mit dem ausländischen Support per Post zu kommunizieren. Eigentlich geht es jetzt nicht darum, da ich im Voraus weiß, dass ich den Sprachtest nicht bestehen werde, konnte ich nicht anders, als die Chance zu nutzen, einen technischen Ansatz für dieses Problem zu finden. Obwohl ich nicht die Möglichkeit hatte, meine Methode im Voraus live zu testen, insbesondere im Umgang mit einer Person, die fließend Englisch spricht und die Aussprachemerkmale kennt, habe ich mich entschlossen, es zu versuchen.

Ich muss mich für das Experiment bei dem Mitarbeiter entschuldigen, der den Test durchgeführt hat, und für die nicht so gute Klangqualität, die mit den technischen Merkmalen "meines" Komplexes verbunden ist.

Als Entschädigung für die Teilnahme an dem Experiment werde ich seine Idee erzählen. Obwohl es nicht neu ist, denke ich, dass es für Ihre technischen Spezialisten interessant sein wird. Mit der richtigen Ausbildung und dem richtigen Teamansatz kann es verwendet werden, um ein interessantes Ergebnis und sogar ein kommerzielles Produkt zu erzielen.

Ich werde das Wesentliche beschreiben: Ich habe zwei Computer verwendet, die mit dem Internet verbunden sind, und Google Translate mit Spracherkennung und einem Synthesizer. Dazu habe ich den analogen Pfad meines Mobiltelefons mit den Audiokarten zweier Systemeinheiten verbunden.

Eine Systemeinheit ist so konfiguriert, dass sie vom Englischen ins Russische übersetzt. Der Audioausgang des Telefons wurde mit dem Leitungseingang der Audiokarte verbunden. In den Soundkarteneinstellungen wurde der Modus der Signalverdoppelung vom Leitungseingang zum Kopfhörerausgang meines Headsets eingestellt, sodass ich die ursprüngliche Sprache hörte und die Richtigkeit der Spracherkennung von Google Translate erkannte.

Die zweite Systemeinheit ist für die Übersetzung vom Russischen ins Englische konfiguriert. Der Mikrofoneingang wurde mit dem Headset-Mikrofon verbunden, das sich bei mir befand. Ich habe den Audioausgang der Systemeinheit mit dem analogen Pfad des Telefons verbunden.

So sah ich den englischen Text und hörte das Original, sah die Übersetzung und als ich die Antwort auf den zweiten Computer sagte, synthetisierte ich sie in Sprache. Da Google mit weiblicher Stimme spricht, habe ich digitale Filter von Fruity Loops verwendet, um einen maskulinen tiefen Ton zu erzeugen, und bereits verarbeiteten Ton an den analogen Pfad des Telefons gesendet.

Obwohl ich den Englischtest nicht bestanden habe, lag der Grund nicht in der falschen Erkennung. Ich wurde von dem schmalen Hals des Systems enttäuscht, nämlich der 3G-Internetverbindung - leider habe ich keine andere Geschwindigkeitslinie. Nach meinem Verständnis war die Basisstation am Morgen weniger ausgelastet und ich hatte genügend Bandbreite. Aber nach dem Mittagessen sank das Netzwerk im ungünstigsten Moment.

Das Ergebnis des Experiments war, dass ich die ersten paar Sätze durchhalten konnte, dann die Geschwindigkeit der Sprachsynthese nicht mehr ausreichte, ich zu unabhängigen Antworten wechselte und scheiterte. Obwohl ich die richtige Übersetzung gesehen habe, kann ich nicht schnell Sätze bilden. Es ist lustig, dass der Gesprächspartner den Wechsel vom Roboter zu einer Person nicht bemerkt hat und nur das Herunterfahren des Komfortgeräuschgenerators hervorgehoben hat, weshalb mein Gesprächspartner in Pausen dachte, dass die Verbindung fest unterbrochen wurde.

Das System muss verbessert werden - um das Signal vom Mikrofon vorzuverarbeiten und das für Google wichtige Rauschen zu unterdrücken, das nicht den Effekt der Stille erzeugt hat. Dann kann er die Verarbeitung unterbrechen und eine Sprachkomponente zuweisen, die den ausgehenden Verkehr reduziert, die Verbindungsgeschwindigkeit erhöht und keine UDP-Pakete verliert. In diesem Fall ist das System ziemlich kämpferisch. Wir übertragen dies auf zwei Raspberry PI und erhalten in Echtzeit einen Übersetzer.

Ich selbst kann diese Idee nicht verwirklichen - ich benötige DSP für die Vorverarbeitung, ich muss Schaltkreise erstellen, die Leiterplattentopologie züchten, einen Verarbeitungsalgorithmus für DSP schreiben (obwohl diese gemeinfrei sind) und dann ein Programm für Raspberry PI mit praktischer Funktionalität und ordnungsgemäßer Interaktion mit der API schreiben Google Diese Aufgabe liegt in meiner Macht, ist aber besser für das Entwicklungsteam geeignet. Trotzdem hat es zu viele Unteraufgaben.

Ich denke, die Idee ist interessant und wird einen Käufer finden, das Unternehmen wird leicht zu realisieren sein und ich werde keinen Staub in den Regalen seiner eigenen Begeisterung sammeln.

Vielen Dank, dass Sie über meine Kandidatur nachgedacht haben! “

Versteh mich, wenn du kannst

More articles: