O sistema de visão de máquina do trailer do filme prevê quem virá ao cinema


Um diagrama do modelo de recomendação híbrida do Merlin Video para definir o público de filmes. A camada de regressão logística combina um modelo de filtragem coletiva com informações sobre a frequência e a duração de uma visita ao cinema para calcular a probabilidade de um desejo de assistir a este filme. O modelo é treinado do começo ao fim (de ponta a ponta) e a função de perda é distribuída de volta a todos os componentes treinados.

O lançamento do trailer é o elemento mais importante na preparação da estréia do filme. Trailer espetacular aumenta a classificação das expectativas do público, familiariza o público com o enredo, representa os personagens principais, transmite o clima geral da imagem. Ao mesmo tempo, de acordo com as resenhas do trailer, os cineastas têm a oportunidade de entender quais aspectos do filme o público gosta ou não - essa informação geralmente se torna a base para mais uma campanha de marketing. O trailer se correlaciona diretamente com as taxas nos primeiros dias do show. Então, o número de grandes taxas nos primeiros dias atraiu a atenção do público de massa e da mídia, o que garante em grande parte o sucesso comercial geral da imagem.

Como estamos falando de centenas de milhões de dólares, os melhores cientistas estão trabalhando na criação de trailers mais eficientes. Os especialistas em aprendizado de máquina da 20th Century Fox publicaram um artigo científico descrevendo um sistema chamado Merlin Video. Este sistema de visão de máquina gera um diagrama de representação do trailer (foto acima). Os dados de representação são usados ​​para prever a resposta dos espectadores . Segundo os autores do trabalho científico, é a primeira vez que um estúdio de cinema usa um sistema de visão computacional para calcular o interesse do espectador em um filme.

A ferramenta é baseada no inovador modelo híbrido de "filtragem coletiva" (Collaborative Filtering, CF), que isola os recursos característicos do vídeo do trailer: cor, iluminação, rostos, objetos, paisagens.

Esta informação é combinada com dados demográficos, informações sobre o comparecimento ao cinema (frequência, datas da última visita). Como resultado do treinamento, o sistema permite fazer previsões precisas e recomendações baseadas no trailer.

A rede neural foi treinada nas GPUs Nvidia Tesla P100 GPU no Google Cloud, na estrutura de aprendizado profundo do TensorFlow e na biblioteca primitiva cuDNN . Como dados de treinamento, centenas de trailers de filmes foram lançados nos últimos anos, além de milhões de registros sobre o comportamento dos telespectadores.

“Após encontrar uma representação adequada desses sinais e carregá-los em um modelo que tenha acesso a registros históricos de participação em filmes, é possível encontrar associações não triviais entre os sinais do trailer e a escolha futura do público após o filme ser lançado nos cinemas ou nos serviços de streaming”, escrevem os autores do artigo científico.

Os resultados dos sistemas Merlin Text (em texto) e Merlin Video (em vídeo) para prever o público do filme "The Greatest Showman" são mostrados na tabela. Na coluna da direita - o público real, de fato.



Como você pode ver, a análise de texto previu o público do filme com bastante precisão, mas a análise da sequência de vídeo adicionou vários fragmentos ausentes. As experiências mostraram que, com uma pequena quantidade de dados, um sistema de visão computacional com análise de trailer mostra um resultado AUC 6,5% melhor (área sob a curva ROC) do que um sistema de análise de texto, ou seja, um script.

Com a ajuda de uma inteligência artificial tão fraca, os departamentos de marketing dos estúdios de cinema poderão entender com mais precisão os interesses do público. Eles serão capazes de entender melhor que tipo de pessoas estão interessadas no novo filme. O mais importante é com quais filmes anteriores esse público se cruza. Dessa forma, você pode realizar campanhas de marketing mais eficazes direcionadas a um público específico.

Agora, os pesquisadores estão trabalhando para combinar um sistema de previsão de público para analisar o cenário e as cenas do trailer em um único sistema. Nesse caso, a previsão será a mais precisa possível.

O artigo científico foi publicado em 12 de julho de 2018 no site de pré-impressão arXiv.org (arXiv: 1807.04465v1).

Source: https://habr.com/ru/post/pt418803/


All Articles