Como a plataforma de crowdsourcing da Yandex ajuda a treinar Alice e economizar dinheiro

Continuamos a falar sobre como o crowdsourcing é usado no Yandex e em outras grandes empresas. Em um post anterior , falamos sobre drones e a qualidade das pesquisas de produtos.

Hoje você aprenderá sobre a aplicação do Toloka no treinamento de Alice, atualizando o Diretório e moderando comentários. Todas as subposições são clicáveis ​​e levam à gravação de relatórios. Vamos lá!

imagem

Trabalho em campo: coletando e verificando informações do Yandex.Directory


O Yandex.Directory é um enorme banco de dados de organizações com contatos, fotos, revisões e outros dados. Para mantê-lo atualizado, você precisa coletar e processar grandes quantidades de informações.

Toloka lida bem com essas tarefas - uma média de 50 mil por mês resolve 15 milhões de tarefas do Diretório. Entre eles estão o desktop, resolvido em casa, e o campo, exigindo execução nas ruas.

Na área de trabalho Tolok, são feitas dezenas de tipos de marcações para o Diretório, como moderar fotos de usuários ou decifrar o menu de cafés e restaurantes para procurar estabelecimentos por prato.

Nem todas as organizações têm telefones e sites para esclarecer informações remotamente. Para atualizar os dados de tais organizações, os criminosos saem às ruas e realizam tarefas usando um smartphone. O mapa mostra missões de campo concluídas nos últimos meses, mais de um milhão de pontos.



Como Toloka ajuda Alice a ser moderna e espirituosa


Vários milhões de pessoas estão conversando com Alice todos os dias. Todo mundo resolve suas tarefas: ele aprende o tempo, recebe informações ou apenas conversa. Para Alice entender e ajudar a todos, ela precisa aprender a reconhecer a fala, e isso exige muitos dados.

Toloka ajuda na coleta desses dados. Por exemplo, uma das tarefas é ouvir a gravação de áudio e descriptografá-la. Em cerca de uma hora de operação dos locutores, você pode obter 5 horas de gravações de áudio marcadas.

Se você solicitar que uma pessoa reconheça uma gravação de áudio, o erro será de 5 a 6% das palavras reconhecidas incorretamente. Se você atribuir uma tarefa a vários artistas, será possível escolher a melhor opção. O erro nos dados finais pode ser reduzido para 1-2%.

Compreender o que o usuário disse não é suficiente. Você ainda precisa responder corretamente. As respostas de Alice têm vários aspectos de qualidade. Ela deve responder adequadamente, não entrar em contato com o usuário para "você", não seja rude e não fale sobre si mesma de maneira masculina. Todas essas métricas são representadas como tarefas no Tolok. Os Tolockers determinam se uma resposta tem uma ou outra das propriedades indicadas.

Mas nem sempre os aspectos de qualidade podem ser formalizados. Portanto, a síntese da fala deve ser natural, com a entonação correta, sem defeitos técnicos. Estes são parâmetros subjetivos que são difíceis de imaginar na forma de um modelo de avaliação. Portanto, em Tolok, o artista é convidado a ouvir duas versões de uma frase e escolher a melhor.

Como fazer com que todos joguem no Yandex.


O Yandex.Buses é um serviço que fornece serviços para passageiros e transportadoras. Às vezes, há motoristas sem escrúpulos que pegam passageiros nas paradas, não escrevem bilhetes para eles e levam o dinheiro recebido para si. Como resultado, a transportadora perde receita, o que é muito perceptível em rotas longas.

Organizar o trabalho dos controladores ao longo de toda a rota, por exemplo, de Ufa a Moscou, é bastante caro. Ligar para os passageiros e perguntar quantas pessoas estavam no ônibus, se o motorista estava pegando alguém no caminho, é ineficiente. Outra maneira é colocar um balcão de pessoas na entrada do ônibus. Mas a uma longa distância, onde há muitas paradas, as pessoas constantemente entram e saem, o que gera um erro tangível. Cada pessoa "perdida" representa uma perda potencial de 2,5 a 10% da receita do voo. Além disso, o motorista ainda pode enganar facilmente a transportadora, cobrindo o sensor.

A equipe do Yandex.Bus tomou a decisão de conectar uma câmera IP de grande angular ao roteador no ônibus, tirar periodicamente uma foto do compartimento de passageiros e enviá-la para a sala de controle. Assim, para cada voo, as fotos são acumuladas, onde você pode ver em que ponto quantos passageiros estão na cabine. A propósito, todas as faces dos passageiros são preliminarmente “lavadas” por algoritmos. Resta aprender a processar a foto, ou seja, contar o número de passageiros. Nesse estágio, surgiu um problema: a imagem nem sempre se mostra de alta qualidade, pois a filmagem ocorre em movimento, geralmente no escuro. Além disso, há apenas uma câmera no ônibus; os rostos nem sempre ficam na foto. Não foi possível encontrar modelos prontos, capazes de contar o número de pessoas nessas imagens; seria muito longo para escrever a sua.

Os desenvolvedores se voltaram para os tolokers. As fotos do salão são enviadas para Toloka com a tarefa de contar o número de pessoas nelas. O custo da solução é inferior a US $ 150. Para calcular um voo, você precisa de 7 rublos.

O experimento foi realizado em quatro ônibus para 300 vôos. Descobriu-se que 9% da receita foi destinada à transportadora. Agora, mais e mais operadoras Yandex.Bus estão se conectando a este sistema.

Contrate 100.500 moderadores e economize: experiência do Rambler Group


O Rambler Group desenvolve mais de 20 projetos, incluindo feeds de notícias e sites temáticos, em cada um deles os usuários deixam comentários. Isso aumenta o tempo gasto no site e a profundidade das visualizações, o que é benéfico para o recurso.

Mas há outro lado da moeda: a publicação é responsável pelo conteúdo dos comentários. Para verificá-los, você precisa de uma equipe de moderadores. Como os comentários aparecem constantemente, os moderadores precisam trabalhar o tempo todo, o que é caro e bastante difícil.

Em busca de uma solução, o Rambler Group procurou a Tolok. Primeiro, eles lançaram o experimento: selecionaram 24.717 comentários processados ​​por moderadores regulares e recriaram o fluxo real desses comentários para o Toloka. Uma tarefa incluiu 10 comentários, 3 minutos foram dados para o processamento. Para controlar a qualidade da moderação, uma tarefa foi oferecida a três artistas. O custo foi definido no mínimo - 1 centavo.

Resultados:



Os recursos do Rambler Group têm um sistema de pós-moderação: qualquer comentário é enviado imediatamente para o site, é necessário remover os incorretos o mais rápido possível. Como se constatou, os tolokers processam 10 comentários em um minuto e os moderadores regulares - 12. Além disso, o experimento mostrou que o uso dos serviços dos tolokers é 60% mais rentável do que manter uma equipe de moderadores para cada publicação.

O experimento foi considerado bem-sucedido, mas as condições mudaram um pouco. Uma tarefa agora é oferecida a dois artistas, se a opinião deles diverge, eles conectam um terceiro. O número de comentários na tarefa foi aumentado de 10 para 15. Isso permitiu reduzir os custos em outros 35%.

Usando a API, os comentários são enviados automaticamente para Toloka, moderados e retornados com um veredicto. Agora, os comentários sobre todos os projetos do Grupo Rambler são moderados por meio do Toloka.

Source: https://habr.com/ru/post/pt430034/


All Articles