Wie die Crowdsourcing-Plattform von Yandex Alice trainiert und Geld spart

Wir sprechen weiterhin darüber, wie Crowdsourcing in Yandex und anderen großen Unternehmen eingesetzt wird. In einem früheren Beitrag haben wir über Drohnen und die Qualität der Produktsuche gesprochen.

Heute erfahren Sie mehr über die Anwendung von Toloka für Alices Training, das Aktualisieren des Verzeichnisses und das Moderieren von Kommentaren. Alle Unterüberschriften sind anklickbar und führen zur Aufzeichnung von Berichten. Lass uns gehen!

Bild

Arbeiten vor Ort: Sammeln und Überprüfen von Informationen für Yandex.Directory


Yandex.Directory ist eine riesige Datenbank von Organisationen mit Kontakten, Fotos, Bewertungen und anderen Daten. Um es auf dem neuesten Stand zu halten, müssen Sie große Mengen an Informationen sammeln und verarbeiten.

Toloka kommt mit diesen Aufgaben gut zurecht - durchschnittlich 50.000 pro Monat lösen 15 Millionen Aufgaben des Verzeichnisses. Darunter befinden sich Desktops, die zu Hause gelöst werden, und Felder, die auf der Straße ausgeführt werden müssen.

Auf dem Desktop Tolok werden Dutzende Arten von Markups für das Verzeichnis erstellt, z. B. das Moderieren von Benutzerfotos oder das Entschlüsseln des Menüs von Cafés und Restaurants, um nach Gerichten nach Einrichtungen zu suchen.

Nicht alle Organisationen verfügen über Telefone und Websites, um Informationen aus der Ferne zu klären. Um die Daten solcher Organisationen zu aktualisieren, gehen Toloker auf die Straße und erledigen Aufgaben mit einem Smartphone. Die Karte zeigt abgeschlossene Feldmissionen der letzten Monate, mehr als eine Million Punkte.



Wie Toloka Alice hilft, modern und witzig zu sein


Täglich sprechen mehrere Millionen Menschen mit Alice. Jeder löst seine Aufgaben: Er lernt das Wetter, erhält Informationen oder plaudert einfach. Damit Alice alle verstehen und ihnen helfen kann, muss sie lernen, Sprache zu erkennen, und dies erfordert viele Daten.

Toloka hilft beim Sammeln dieser Daten. Eine der Aufgaben besteht beispielsweise darin, die Audioaufnahme anzuhören und zu entschlüsseln. In ungefähr einer Betriebsstunde der Toloker können Sie 5 Stunden getaggte Audioaufnahmen erhalten.

Wenn Sie eine Person bitten, eine Audioaufnahme zu erkennen, beträgt ihr Fehler 5-6% der falsch erkannten Wörter. Wenn Sie mehreren Darstellern eine Aufgabe geben, können Sie die beste Option auswählen. Der Fehler in den endgültigen Daten kann auf 1-2% reduziert werden.

Zu verstehen, was der Benutzer gesagt hat, reicht nicht aus. Sie müssen immer noch richtig antworten. Alices Antworten haben verschiedene Aspekte der Qualität. Sie muss angemessen reagieren, den Benutzer nicht für "Sie" kontaktieren, nicht unhöflich sein und nicht auf männliche Weise über sich selbst sprechen. Alle diese Metriken werden in Tolok als Aufgaben dargestellt. Tolocker bestimmen, ob eine Antwort die eine oder andere der angegebenen Eigenschaften hat.

Aber nicht immer können Qualitätsaspekte formalisiert werden. Daher sollte die Sprachsynthese natürlich sein, mit der richtigen Intonation, ohne technische Mängel. Dies sind subjektive Parameter, die in Form eines Bewertungsmodells schwer vorstellbar sind. Daher ist der Darsteller in Tolok eingeladen, zwei Versionen einer Phrase anzuhören und die beste auszuwählen.

Wie man alle dazu bringt, in Yandex zu spielen. Busse gemäß den Regeln


Yandex.Buses ist ein Dienst, der sowohl Passagiere als auch Fluggesellschaften bedient. Manchmal gibt es skrupellose Fahrer, die Passagiere an Haltestellen abholen, keine Tickets für sie ausschreiben und das erhaltene Geld für sich selbst nehmen. Infolgedessen verliert die Fluggesellschaft Einnahmen, was sich auf langen Strecken sehr bemerkbar macht.

Die Organisation der Arbeit von Fluglotsen entlang der gesamten Strecke, beispielsweise von Ufa nach Moskau, ist recht teuer. Es ist ineffizient, Passagiere anzurufen und zu fragen, wie viele Personen im Bus waren, wenn der Fahrer unterwegs jemanden ausgewählt hat. Eine andere Möglichkeit besteht darin, einen Personentisch am Eingang des Busses aufzustellen. Aber auf einer langen Strecke, wo es viele Haltestellen gibt, betreten und verlassen Menschen ständig, was zu einem spürbaren Fehler führt. Jede "verlorene" Person ist ein potenzieller Verlust von 2,5-10% des Flugumsatzes. Darüber hinaus kann der Fahrer den Träger immer noch leicht täuschen, indem er den Sensor abdeckt.

Das Yandex.Bus-Team traf die Entscheidung, eine Weitwinkel-IP-Kamera an den Router im Bus anzuschließen, regelmäßig ein Foto des Fahrgastraums aufzunehmen und an den Kontrollraum zu senden. So werden für jeden Flug Fotos gesammelt, auf denen Sie sehen können, zu welchem ​​Zeitpunkt sich wie viele Passagiere in der Kabine befinden. Übrigens werden alle Gesichter der Passagiere vorab algorithmisch „ausgewaschen“. Es bleibt zu lernen, wie das Foto verarbeitet wird, dh wie viele Passagiere gezählt werden. Zu diesem Zeitpunkt trat ein Problem auf: Das Bild ist nicht immer von hoher Qualität, da die Aufnahme in Bewegung erfolgt, häufig im Dunkeln. Außerdem befindet sich nur eine Kamera im Bus, Gesichter kommen nicht immer auf das Foto. Wir konnten keine vorgefertigten Modelle finden, die die Anzahl der Personen in solchen Bildern zählen könnten, es wäre zu lang, unsere eigenen zu schreiben.

Die Entwickler wandten sich an die Toloker. Fotos des Salons werden nach Toloka geschickt, um die Anzahl der Personen zu zählen. Die Kosten für die Lösung betragen weniger als 150 US-Dollar. Um einen Flug zu berechnen, benötigen Sie 7 Rubel.

Das Experiment wurde in vier Bussen für 300 Flüge durchgeführt. Es stellte sich heraus, dass 9% des Erlöses um den Spediteur gingen. Jetzt verbinden sich immer mehr Yandex.Bus-Carrier mit diesem System.

Stellen Sie 100.500 Moderatoren ein und sparen Sie: Erfahrung in der Rambler Group


Die Rambler Group entwickelt mehr als 20 Projekte, einschließlich Newsfeeds und thematischer Websites, zu denen jeder Benutzer Kommentare hinterlässt. Dies erhöht die auf der Site verbrachte Zeit und die Tiefe der Ansichten, was für die Ressource von Vorteil ist.

Die Medaille hat aber noch eine andere Seite: Die Veröffentlichung ist für den Inhalt der Kommentare verantwortlich. Um sie zu überprüfen, benötigen Sie einen Stab von Moderatoren. Da Kommentare ständig angezeigt werden, müssen Moderatoren rund um die Uhr arbeiten, was teuer und recht schwierig ist.

Auf der Suche nach einer Lösung wandte sich die Rambler-Gruppe an Tolok. Zuerst starteten sie das Experiment: Sie wählten 24.717 Kommentare aus, die von regulären Moderatoren verarbeitet wurden, und stellten den tatsächlichen Fluss dieser Kommentare zum Toloka wieder her. Eine Aufgabe umfasste 10 Kommentare, 3 Minuten wurden für ihre Verarbeitung gegeben. Um die Qualität der Moderation zu kontrollieren, wurde drei Darstellern eine Aufgabe angeboten. Die Kosten wurden auf ein Minimum von 1 Cent festgelegt.

Ergebnisse:



Die Ressourcen der Rambler-Gruppe verfügen über ein Post-Moderationssystem: Jeder Kommentar geht sofort auf die Website. Sie müssen die falschen so schnell wie möglich entfernen. Wie sich herausstellte, verarbeiten Toloker 10 Kommentare pro Minute und regelmäßige Moderatoren - 12. Darüber hinaus zeigte das Experiment, dass die Nutzung der Dienste von Tolokern 60% rentabler ist als die Aufrechterhaltung eines Moderatorenstabs für jede Veröffentlichung.

Das Experiment wurde als erfolgreich angesehen, aber die Bedingungen änderten sich ein wenig. Eine Aufgabe wird nun zwei Darstellern angeboten. Wenn ihre Meinung abweicht, verbinden sie eine dritte. Die Anzahl der Kommentare in der Aufgabe wurde von 10 auf 15 erhöht. Dadurch konnten die Kosten um weitere 35% gesenkt werden.

Über die API werden Kommentare automatisch an Toloka gesendet, moderiert und mit einem Urteil zurückgegeben. Jetzt werden Kommentare zu allen Projekten der Rambler Group über Toloka moderiert.

Source: https://habr.com/ru/post/de430034/


All Articles