Cómo la plataforma de crowdsourcing de Yandex ayuda a entrenar a Alice y ahorrar dinero

Continuamos hablando sobre cómo se utiliza el crowdsourcing en Yandex y otras grandes empresas. En una publicación anterior , hablamos sobre drones y la calidad de las búsquedas de productos.

Hoy aprenderá sobre la aplicación de Toloka para el entrenamiento de Alice, la actualización del Directorio y la moderación de comentarios. Todos los subtítulos son clicables y conducen a la grabación de informes. Vamos!

imagen

Trabajo en el campo: recopilación y verificación de información para Yandex.Directory


Yandex.Directory es una enorme base de datos de organizaciones con contactos, fotos, reseñas y otros datos. Para mantenerlo actualizado, debe recopilar y procesar grandes cantidades de información.

Toloka se adapta bien a estas tareas: un promedio de 50 mil por mes resuelve 15 millones de tareas del Directorio. Entre ellos están el escritorio, que se resuelve en casa, y el campo, que requieren ejecución en la calle.

En el escritorio Tolok, se realizan docenas de tipos de marcas para el Directorio, como moderar fotos de usuarios o descifrar el menú de cafeterías y restaurantes para buscar establecimientos por plato.

No todas las organizaciones tienen teléfonos y sitios para aclarar la información de forma remota. Para actualizar los datos de tales organizaciones, los que salen a la calle salen a la calle y realizan tareas con un teléfono inteligente. El mapa muestra misiones de campo completadas en los últimos meses, más de un millón de puntos.



Cómo Toloka ayuda a Alice a ser moderna e ingeniosa


Varios millones de personas hablan con Alice todos los días. Todos resuelven sus tareas: aprende el clima, recibe información o solo chatea. Para que Alice entienda y ayude a todos, necesita aprender a reconocer el habla, y esto requiere muchos datos.

Toloka ayuda a recopilar estos datos. Por ejemplo, una de las tareas es escuchar la grabación de audio y descifrarla. En aproximadamente una hora de funcionamiento de los tolokers, puede obtener 5 horas de grabaciones de audio etiquetadas.

Si le pide a una persona que reconozca una grabación de audio, su error será del 5-6% de las palabras reconocidas incorrectamente. Si asigna una tarea a varios artistas, es posible elegir la mejor opción. El error en los datos finales se puede reducir al 1-2%.

Comprender lo que dijo el usuario no es suficiente. Aún necesitas responder correctamente. Las respuestas de Alice tienen varios aspectos de calidad. Ella debe responder apropiadamente, no contacte al usuario por "usted", no sea grosero y no hable de sí misma de manera masculina. Todas estas métricas se representan como tareas en Tolok. Los tolockers determinan si una respuesta tiene una u otra de las propiedades indicadas.

Pero no siempre se pueden formalizar aspectos de calidad. Entonces, la síntesis del habla debe ser natural, con la entonación correcta, sin defectos técnicos. Estos son parámetros subjetivos que son difíciles de imaginar en forma de un modelo de evaluación. Por lo tanto, en Tolok, el intérprete está invitado a escuchar dos versiones de una frase y elegir la mejor.

Cómo hacer que todos jueguen en Yandex.Autobuses de acuerdo con las reglas


Yandex.Buses es un servicio que brinda servicios para pasajeros y transportistas. A veces hay conductores sin escrúpulos que recogen a los pasajeros en las paradas, no les escriben boletos y se llevan el dinero recibido. Como resultado, el transportista pierde ingresos, lo que es muy notable en rutas largas.

Organizar el trabajo de los controladores a lo largo de toda la ruta, por ejemplo, de Ufa a Moscú, es bastante costoso. Llamar a los pasajeros y preguntar cuántas personas había en el autobús, si el conductor elegía a alguien en el camino, es ineficiente. Otra forma es colocar un mostrador de personas en la entrada del autobús. Pero a una larga distancia, donde hay muchas paradas, la gente entra y sale constantemente, lo que da un error tangible. Cada persona "perdida" es una pérdida potencial del 2.5-10% de los ingresos del vuelo. Además, el conductor puede engañar fácilmente al transportista cubriendo el sensor.

El equipo de Yandex.Bus tomó la decisión de conectar una cámara IP de gran angular al enrutador del autobús, tomar periódicamente una foto del compartimento de pasajeros y enviarla a la sala de control. Entonces, para cada vuelo, se acumulan fotos, donde puede ver en qué punto cuántos pasajeros hay en la cabina. Por cierto, todas las caras de los pasajeros son preliminarmente algorítmicamente "lavadas". Queda por aprender cómo procesar la foto, es decir, contar el número de pasajeros. En esta etapa, surgió un problema: la imagen no siempre resulta ser de alta calidad, ya que el disparo se realiza en movimiento, a menudo en la oscuridad. Además, solo hay una cámara en el autobús; las caras no siempre aparecen en la foto. No fue posible encontrar modelos preparados capaces de contar el número de personas en esas imágenes; sería demasiado largo para escribir el suyo.

Los desarrolladores recurrieron a los tolokers. Se envían fotos del salón a Toloka con la tarea de contar la cantidad de personas que hay en ellas. El costo de la solución es inferior a $ 150. Para calcular un vuelo, necesitas 7 rublos.

El experimento se llevó a cabo en cuatro autobuses para 300 vuelos. Resultó que el 9% de los ingresos se destinaron al transportista. Ahora más y más operadores de Yandex.Bus se están conectando a este sistema.

Contrata a 100,500 moderadores y ahorra: experiencia del Grupo Rambler


Rambler Group desarrolla más de 20 proyectos, incluidos canales de noticias y sitios temáticos, en cada uno de los cuales los usuarios dejan comentarios. Esto aumenta el tiempo que pasa en el sitio y la profundidad de las vistas, lo que es beneficioso para el recurso.

Pero hay otra cara de la moneda: la publicación es responsable del contenido de los comentarios. Para verificarlos, necesita un equipo de moderadores. Dado que los comentarios aparecen constantemente, los moderadores deben trabajar durante todo el día, lo cual es costoso y bastante difícil.

En busca de una solución, el Grupo Rambler se volvió hacia Tolok. Primero, lanzaron el experimento: seleccionaron 24,717 comentarios procesados ​​por moderadores regulares y recrearon el flujo real de estos comentarios al Toloka. Una tarea incluyó 10 comentarios, se les dio 3 minutos para su procesamiento. Para controlar la calidad de la moderación, se ofreció una tarea a tres artistas. El costo se estableció en un mínimo: 1 centavo.

Resultados:



Los recursos del Grupo Rambler tienen un sistema de moderación posterior: cualquier comentario va inmediatamente al sitio, debe eliminar los incorrectos lo más rápido posible. Al final resultó que, los tolokers procesan 10 comentarios por minuto, y los moderadores regulares - 12. Además, el experimento demostró que usar los servicios de los tolokers es un 60% más rentable que mantener un equipo de moderadores para cada publicación.

El experimento se consideró exitoso, pero las condiciones cambiaron un poco. Ahora se ofrece una tarea a dos artistas, si su opinión difiere, conectan a un tercero. El número de comentarios en la tarea se incrementó de 10 a 15. Esto permitió reducir los costos en otro 35%.

Mediante la API, los comentarios se envían automáticamente a Toloka, se moderan y se devuelven con un veredicto. Ahora los comentarios sobre todos los proyectos del Grupo Rambler se moderan a través de Toloka.

Source: https://habr.com/ru/post/es430034/


All Articles