
O projeto, aproximadamente, Tech Data Tolk nasceu como uma plataforma de discussão para especialistas envolvidos no processamento e análise de big data. Cada vez que enfatizamos que a principal tarefa de nossas reuniões não são os relatórios, embora também sejam muito importantes, mas uma discussão aberta da platéia com os palestrantes, durante os quais os participantes têm tempo para discutir quaisquer questões no âmbito do evento. Acreditamos que nessa situação, quando o número de problemas e problemas não resolvidos no campo da ciência de dados cresce rapidamente, um diálogo aberto é muito importante.
Realizamos duas reuniões. No
primeiro, discutimos as vantagens e desvantagens de diferentes abordagens ao armazenamento de dados e como essas abordagens afetam o trabalho de diferentes equipes, além de abordarmos a evolução dos data warehouses.
O segundo encontro foi dedicado à educação em Data Science, representantes de diferentes opiniões reunidas no site, palestrantes falaram sobre a importância do ensino universitário, a variedade de cursos on-line e seus recursos, bem como quais habilidades você precisa ter para se tornar um datacenter interessante e procurado.
Antecipando a
terceira reunião , que
será realizada em 6 de novembro em Moscou e será dedicada aos sistemas de recomendação, conversamos com palestrantes sobre o caminho para o desenvolvimento de sistemas de recomendação, sobre como eles veem seu futuro nessa direção e pedimos que recomendassem o que deveria ser feito agora para que o conhecimento e as habilidades permaneceram relevantes mesmo depois de alguns anos. Também perguntamos sobre o que eles falarão na reunião e por que vale a pena participar deste evento.
Registre-se no Data Explore # 3Conte-me um pouco sobre você?
Andrey Kuznetsov, Colegas de classeOlá, sou engenheiro de telecomunicações treinando. Após a formatura, ele foi escrever uma dissertação e, ao mesmo tempo, lecionou. Em algum momento, pareceu-me que, no antigo local, eu fazia tudo o que queria e trabalhava na Data Science. Tenho lidado com recomendações na empresa há não muito tempo, mas ganhei a principal experiência nessa área com cursos on-line e DS competitivo.
Vladislav Grozin, JoomEle entrou no mundo dos sistemas de recomendação na ponta de Alexei Natekin, de quem estudou no DataMining Lab. Eu tinha pouco entendimento do que estava indo, mas no final fui muito melhor do que escrever drivers de rede para Linux em um laboratório universitário (o que eu fiz antes).
Evgeny Frolov, SkolTechMinha jornada para os sistemas de recomendação começou de maneira bastante simples. Em 2014, eu era estudante da Skoltech, procurando oportunidades para fazer pesquisas aplicadas em áreas de aprendizado de máquina que me interessam. Eu queria exatamente algo relacionado a assistentes intelectuais. Nesse momento, meu futuro supervisor, Ivan Oseledets, anunciou um novo projeto com um escritório alemão interessado em pesquisar a aplicabilidade de métodos matemáticos avançados para sistemas de recomendação. As estrelas se uniram, então comecei a fazer meu doutorado.
Conte-me sobre seu primeiro lançamento em produção?
Andrey Kuznetsov, Colegas de classeO primeiro lançamento na produção foi relacionado às recomendações dos grupos em OK e, é claro, foi uma experiência emocionante. Mas a presença de colegas experientes e ferramentas e processos depurados na equipe simplifica muito a vida. A hipótese, a propósito, funcionou e o oleoduto foi instável, mas após 3 meses a substituímos por uma solução mais eficaz.
Vladislav Grozin, JoomO primeiro modelo, que lancei no prod, não era realmente sobre as recomendações, mas sobre a pesquisa. Lembro-me perfeitamente do momento em que o tráfego ao vivo caiu nele. O tráfego era pequeno, a cada segundo ou dois da solicitação de um usuário, criando outra linha na tela (observei os logs). Foi emocionante: eu era responsável pelo modelo e pela infraestrutura em torno dele, e esperava que algo quebrasse e exigisse intervenção urgente. Mas tudo correu bem, e depois de quinze minutos eu me acalmei e fui tomar um café.
Evgeny Frolov, SkolTechNa produção, eu pessoalmente não desenvolvi modelos. "Eu sou um pesquisador." Até agora, minhas tarefas estão relacionadas principalmente ao desenvolvimento de novas abordagens e métodos e não vão além da implementação de protótipos.
O que você acha mais importante: algoritmos interessantes ou compreensão de domínio?
Andrey Kuznetsov, Colegas de classeNa esfera das recomendações, ao que parece, são duas baleias iguais em que todos os grandes projetos são realizados. Conhecer as especificidades dos dados em si, como eles são coletados e como o sistema funciona (especialmente sob cargas comparáveis às nossas) ajuda muito a avaliar com antecedência se esse ou aquele algoritmo funcionará e se vale a pena gastar tempo. Bem, você precisa conhecer os algoritmos e as ferramentas que os implementam para poder testá-los rapidamente em sua tarefa e apresentar algumas provas de conceito para testes A / B.
Vladislav Grozin, JoomÉ importante usar o algoritmo mais legal que se adapte à tarefa e aos prazos de desenvolvimento e recursos, e não tenha medo de iniciá-lo no produto.
Evgeny Frolov, SkolTechSe falamos especificamente sobre o campo dos sistemas de recomendação, então, como mostra a prática (e não sem interrupção da pesquisa), o entendimento da área de assunto é mais importante. Existe uma opinião tão estabelecida com a qual eu concordo mais que os algoritmos representam 5% do sucesso de um sistema de recomendação. Agora, a área já atingiu o estágio de desenvolvimento e é muito fácil encontrar uma biblioteca ou pacote de software conveniente, inseri-lo na produção e começar a obter lucro. Sim, pode ser que a escolha não seja a ideal, mas, para começar, isso será suficiente e permitirá que você se concentre em tarefas comerciais importantes.
Em quais novas áreas os sistemas de recomendação serão aplicados?
Andrey Kuznetsov, Colegas de classeO futuro mais ambicioso, na minha opinião, aguarda sistemas de recomendação em educação, quando o próprio sistema educacional (especialmente o russo) estiver pronto para isso :). De fato, já estamos bastante estragados por recomendações comerciais, mas ter alguma “orientação profissional sobre esteróides” vale muito.
Vladislav Grozin, JoomParece que em breve serão incorporados à polícia robótica sistemas de recomendação para dar recomendações sobre a relevância da aplicação de métodos de impacto físico aos sujeitos do Estado de direito, com vistas à moralização construtiva.
Evgeny Frolov, SkolTechMétodos de sistemas de recomendação podem ser usados para resolver muitos problemas onde há um problema de falta de dados. Por exemplo, os químicos descobriram que desta maneira novos compostos inorgânicos previamente desconhecidos podem ser previstos com base em combinações de diferentes íons / cátions. Outra tarefa é a identificação de medicamentos eficazes contra vírus baseados em proteínas com propriedades inibidoras especiais. É extremamente difícil saber quais proteínas serão eficazes para combater uma cepa específica de vírus se nenhum teste anterior tiver sido realizado. Existem muitas opções possíveis para os dois, os vírus também evoluem rapidamente, você não pode medir tudo. Mas, com base em alguns padrões comuns nas reações de vírus, você pode tentar prever o resultado onde ainda não houve testes. Quase como no varejo on-line, mas com o efeito oposto - o vírus não deve gostar muito do "produto".
Agora, essas são medidas tímidas, mas, penso, veremos cada vez mais a penetração de métodos de sistemas de recomendação além das áreas usuais de comércio, entretenimento e publicidade. Eu gostaria de esperar pelo menos isso. Parece que gradualmente haverá uma mudança de simplesmente proporcionar conforto para uma mudança qualitativa no padrão de vida, ajudando a tomar decisões complexas, como a elaboração de um caminho de aprendizado individual para uma boa educação, a escolha de uma profissão interessante e procurada ou a obtenção de serviços de medicina personalizados.
Que livro ou artigo deve ser lido por quem trabalha com sistemas de recomendação?
Andrey Kuznetsov, Colegas de classeÉ difícil recomendar um livro específico, pois o campo é bastante aplicado. Eu recomendaria cursos on-line, por exemplo, a especialização em análise de dados do MIPT no Coursera é muito boa.
Vladislav Grozin, JoomParece-me que todos os cientistas deveriam ler GroupLens: uma arquitetura aberta para filtragem colaborativa de Netnews. Este artigo descreve um dos primeiros sistemas de recomendação implementados, como os conhecemos agora. Este artigo é muito diferente do que lemos com tanta frequência agora, pois afeta não apenas o próprio algoritmo, mas também o ambiente em que ele funcionará.
Evgeny Frolov, SkolTechNão há muitos livros nessa área e, se desejar, você pode ler pelo menos tudo, pelo menos em um nível fluente. Observando quantos iniciantes seguem o mesmo caminho que leva ao mesmo "rake", eu mencionaria um artigo de 2010 sobre a abordagem PureSVD de Paolo Cremonesi, Yehuda Koren e Roberto Turrin. Não é por acaso que ela é a terceira citação nas coleções de artigos da ACM Conference on Recommendender Systems em toda a história desta conferência. Ao mesmo tempo, ela me ajudou a olhar de maneira diferente para a pilha de artigos que aparece na parte superior dos resultados da pesquisa, se você formular a consulta muito extensivamente.
Melhor biblioteca de código aberto para recomendações?
Andrey Kuznetsov, Colegas de classeDepende do problema que está sendo resolvido, da quantidade de dados e da plataforma na qual o sistema de recomendação será construído. Parece que alguns LightFM podem ser recomendados como base para quase todas as recomendações de tarefas.
Vladislav Grozin, JoomPyTorch?
Evgeny Frolov ^ SkolTechNo meu caso, a resposta é óbvia - a biblioteca
Polara que estou desenvolvendo.
Qual será o seu relatório sobre o oktech Data Explained # 3 e por que você deve ouvi-lo
Andrey Kuznetsov, Colegas de classeO relatório será o histórico do desenvolvimento de um sistema de recomendação para as equipes de projeto em OK. Falarei sobre por que esse é um caso interessante em si e como difere das recomendações clássicas, por exemplo, produtos em comércio eletrônico. Mencionarei separadamente quais solavancos tivemos durante o desenvolvimento, que conclusões foram tiradas e por que nunca existem dados suficientes e algoritmos universais.
Vladislav Grozin, JoomVou lhe dizer o que você pode esperar em conferências. Muitas pessoas querem ir, porque parece legal e legal, mas hesitam em investir tempo e dinheiro, porque os detalhes e os benefícios práticos da viagem não são claros. Espero esclarecer essas questões com a minha história.
Evgeny Frolov, SkolTechVou falar sobre o nosso desenvolvimento - um novo modelo chamado HybridSVD - que apresentei recentemente na conferência ACM RecSys. Essa é uma generalização direta do modelo PureSVD para sistemas de recomendação híbridos que levam em conta informações adicionais sobre usuários e produtos. O modelo é interessante, pois não vai além do cálculo de uma decomposição singular, o que significa que herda todas as vantagens computacionais e facilidade de uso. Vou falar sobre isso, também detalhando mais os aspectos técnicos.
Pessoal, muito obrigado por reservar um tempo para responder às perguntas!
Aguardamos todos que quiserem conversar com especialistas na área de sistemas de recomendação na reunião de 6 de novembro em seu escritório em Moscou.
Venha, vai ser interessante!
Inscreva-se no evento .