Geralmente, existe uma lacuna entre o algoritmo ideal de aprendizado de máquina no vácuo e sua aplicação em dados reais. Parece estar pegando um artigo: existe um algoritmo, há convergência para dados desse ou daquele tipo - pegue-o e aplique-o. Mas, por algum motivo, seus dados não são suficientes para treinamento e diferem do modelo do artigo, porque os reais não são sintéticos.
O usual na fundamentação do algoritmo é fazer suposições sobre a pureza dos dados e sua distribuição, que você não encontrará na vida real. Por exemplo, o autor de um artigo está experimentando fotografias de celebridades adultas, e tudo é extraordinariamente reconhecido e classificado com ele, e no nosso exemplo real também existem crianças e personagens de desenhos animados, e tudo de repente se desfaz nelas. Mas há pessoas que conseguem lidar com isso, tanto que a diferença entre teoria e prática deixa de parecer inexpugnável, e vale a pena mostrar como outros que querem superá-la são encontrados imediatamente.

Já vimos esses casos no HighLoad ++, mas havia relatórios separados, além disso, próximos das tarefas de garantir trabalho com altas cargas. Portanto, agora queremos organizar uma conferência separada para aqueles que resolvem problemas práticos usando métodos de aprendizado de máquina. E abordar seu planejamento é muito simples - queremos fazer uma conferência sobre aprendizado de máquina e análise de dados
que nós mesmos gostaríamos .
Concordo, parece ingênuo, mas não é "como você" não é a melhor motivação? Além disso, temos uma grande experiência na organização de conferências e parece que temos uma boa idéia de quão bem deve ser.
Obviamente , você pode ter sua própria opinião, por isso vou lhe dizer exatamente o que e como planejamos discutir no
UseData Conf em 16 de setembro .
Ontiko e
eu realizamos conferências de engenharia onde os praticantes tocam o primeiro violino. Para todas as conferências:
HighLoad ++ (todas as três instâncias), Moscow Python Conf ++, PHP Rússia e muitas outras, encontramos pessoas que estão fazendo algo útil usando tecnologias relacionadas ao tema da conferência e estão prontas para compartilhá-lo.
Nos últimos anos, tenho ajudado os palestrantes a se prepararem para discursos, por isso tenho a habilidade de fazer as perguntas certas. Tal como puxar para a superfície o que só pode ser aprendido com o alto-falante. Para que o relatório não contenha apenas uma receita (gravamos vídeos de câmeras na semana passada, treinamos em uma rede ponta a ponta e tudo funciona), mas todos os pontos principais que levaram ao resultado final. Se você sabe o que tentou, o que entrou, o que não foi e, portanto, acabou resolvendo o problema, você pode tirar suas próprias conclusões e considerar uma solução ou não.
No momento, não há conferências de aprendizado de máquina que seriam construídas sobre esse princípio. Existem grandes e acadêmicas conferências nas quais os profissionais compõem uma fração relativamente pequena de todos os relatórios e são adjacentes a resultados puramente científicos e materiais de treinamento para iniciantes. Além disso, há todo um conjunto de conferências sobre inteligência artificial. Geralmente eles têm muito hype e muito pouco realmente algo funcionando, tentamos contorná-los.
É fácil distinguir um do outro: se feito em Python, isso é aprendizado de máquina e, se no PowerPoint, é inteligência artificial. Estamos interessados no que existe não apenas no PowerPoint.
UseData Conf em seções
Com base na ideia de que cada apresentação em nossa conferência deve conter a experiência da produção real, selecionamos vários blocos de tópicos que queremos divulgar. Isso não significa que não seremos felizes e não aceitaremos aplicativos que não se encaixam nesses blocos; é exatamente isso que é bem transmitido de praticantes para praticantes.
Aprendizado de máquina e análise de dados em tarefas comerciais . Tudo relacionado à previsão de demanda, previsão de compras, recomendações e cálculo de descontos individuais. Aqui, as histórias serão relevantes, pois os métodos de ML ajudam a desenvolver melhor um negócio e aumentar os lucros no comércio eletrônico.
Visão computacional . Se você ensinou o robô a tirar certas peças do transportador, faça furos e coloque-o de volta - é exatamente sobre isso que você deve falar nesta seção. Afinal, os detalhes podem ser diferentes, podem estar espalhados em uma esteira, pode não haver uma única peça finalizada para treinamento, mas apenas um modelo CAD e muitos outros fatores que distinguem uma tarefa acadêmica ideal com uma esteira estéril do que está realmente acontecendo .
Processamento de textos em línguas naturais . Conte-nos sobre o uso da PNL em tarefas fora do padrão ou mostre por que os métodos existentes não se encaixaram e você teve que desenvolver sua própria abordagem. Os assistentes de tradução automática e de voz são os primeiros candidatos a esta seção.
Sistemas de tomada de decisão . Essa não é apenas a tarefa de diagnosticar doenças, mas também qualquer sistema em que uma pessoa confie em suas decisões nas opções propostas pelo algoritmo, incluindo a defesa antimísseis. Se uma pessoa não é necessária, por exemplo, o próprio sistema nomeia um motorista para pedir um táxi (a menos, é claro, que a geração da solução não se limite ao algoritmo ganancioso), isso é ainda melhor.
Estruturas e ferramentas de aprendizado de máquina . Para expandir esse tópico, gostaríamos de convidar os desenvolvedores das estruturas diretamente. Adotamos essa abordagem no HighLoad ++ - para aprender sobre os meandros das ferramentas dos desenvolvedores de ferramentas - e tentamos implementá-la no UseData Conf. Portanto, se você está apenas desenvolvendo CatBoost, XGBoost, TensorFlow, PyTorch, LightGBM, Keras -
escreva- nos. Se você tem certeza de que conhece a estrutura popular que muitos cientistas de dados não conhecem, e isso facilitaria a vida deles, também estamos aguardando a solicitação de um relatório.
Os concursos de aprendizado de máquina são divididos em dois blocos: a técnica de realização de concursos de aprendizado de máquina e a estratégia de como vencê-los. Embora concursos como o Kaggle sejam mais uma ferramenta de recrutamento do que uma ferramenta para resolver problemas reais, alguns aspectos serão úteis para os profissionais. No final, com a ajuda de concursos, você pode mudar de emprego com sucesso - também é bom.
Teste, monitoramento, interpretação, preparação de dados . Entendemos que os modelos treinados por máquinas tendem a cometer erros. Muitas pessoas estão familiarizadas com a situação quando treinaram, entraram em produção e, literalmente, um mês depois, o algoritmo produz resultados indesejáveis. Você precisa perceber a tempo que o modelo não está funcionando e treiná-lo novamente a tempo. Se algo der errado, é importante poder interpretar os resultados e você precisa preparar os dados. A totalidade da solução para esses problemas específicos e permite o uso de ML em batalha.
Chamada de trabalhos
Se você reconheceu suas tarefas de trabalho em algum desses tópicos e acha que sua experiência pode ajudar alguém,
solicite um relatório. Se o aprendizado de máquina fizer parte de suas tarefas diárias, mas você duvida, existe uma maneira confiável de entender se o tópico é adequado - escreva para o Comitê de Programa e esclareceremos os detalhes e ajudaremos a tornar o relatório útil.
No entanto, há uma recomendação geral. Se você tem uma tarefa tão específica que apenas os gigantes da indústria resolvem, ou vice-versa, uma startup pequena, mas muito especializada, e à primeira vista parece que essa experiência não será útil para outras pessoas, isso não é inteiramente verdade. Como raramente é possível tomar e repetir a decisão de alguém de qualquer maneira, se falamos de casos complexos, mas para ter a ideia de tentar uma abordagem diferente, vá do outro lado, é possível com uma experiência muito diferente.
Além disso,
sempre se pode passar de um problema específico para uma abordagem geral . Por exemplo, se estamos falando de filtrar tráfego de rede anormal (graças ao visualizador de Moscou, Pavel, que fez uma pergunta na reunião do Zoom com o comitê do programa), um problema semelhante com uma amostra de treinamento heterogênea e uma pequena porcentagem de anomalias surge em diferentes áreas, e generalizações podem ser sugeridas.
O mais valioso no relatório aplicado, em nossa opinião, é o
caminho para a solução, e não a solução em si . Quando eles adotaram os métodos da biblioteca e tudo está pronto, é claro que é muito legal, mas é de pouca utilidade. É mais interessante quando eles tentaram isso, o outro encontrou limitações, se deparou com um ancinho, inventou algo e conversou sobre isso.
Por outro lado, se você resolver problemas que a indústria associa ao aprendizado de máquina sem o aprendizado de máquina, poderá mostrar como é rentável e, ainda melhor, dar uma receita quando puder seguir seu exemplo - isso é excelente, precisamos desse relatório.
O Call For Papers está aberto até 16 de julho, em 16 de agosto, tentaremos formular todo o programa e, em 16 de setembro, a conferência UseData Conf será realizada no Infospace.
É simples enviar um relatório - você precisa de um tópico aproximado e teses para 2-3 parágrafos; a inscrição pode ser complementada por um apelo ao comitê do programa, no qual os detalhes não são divulgados para publicação. É melhor enviar vários relatórios do que não um único, pois teremos mais sugestões para perguntas.
Já está no programa
Não esperamos que a aceitação de relatórios comece a selecionar relatórios no programa. Portanto, em primeiro lugar, não arraste aplicativos, se você não quiser aumentar a concorrência entre os palestrantes após o prazo. Em segundo lugar, você pode planejar participar da conferência como ouvinte.

A primeira seção sobre o uso comercial de ML já adotou dois relatórios.
Alexander Alekseytsev falará sobre o uso do aprendizado de máquina para prever as vendas da loja online OZON.RU. Ele apresentará uma abordagem para otimização de preços usando modelos de previsão de demanda, mostrará como aplicar a teoria das probabilidades no processo de reabastecimento de um armazém e descreverá o ciclo de desenvolvimento de soluções de ML para produção.
A primeira versão foi apresentada no HighLoad ++ e causou um grande interesse.
Joom Alexandra Lomakina lhe dirá como resolver com sucesso o problema de otimizar a publicidade na TV. A tarefa é muito interessante, pois é um prazer caro que quase não dá feedback - você não conta a CTR. Mas você ainda pode medir algo, mas descobriremos como e como usá-lo no final de setembro.

No campo da visão computacional, até agora adotamos apenas um pequeno
relatório acadêmico
de Guido Montufar . Guido planeja falar sobre uma abordagem para regularizar modelos que seja robusta em relação aos dados de entrada, e esperamos obter mais prática disso.
Além disso, aceitamos
Grigory Sapunov no programa com um
relatório sobre os últimos desenvolvimentos na arquitetura de redes neurais. E esse é um caso raro quando um relatório de revisão é apropriado, porque Gregory definitivamente o enche de conselhos práticos com base em sua experiência colossal.

Também concordamos com
Eduard Tyantov em um
relatório sobre gerenciamento de projetos de aprendizado de máquina. Especialmente para ele, começamos a seção "Outros", porque esse tópico nos parece muito necessário. Se alguém puder lhe dizer quais são as especificidades dos projetos com muito aprendizado de máquina, como desenvolver um produto e liderá-lo na produção, como vendê-lo para pessoas e desenvolvedores, provavelmente este é Edward com o back-end do lançamento do artisto e o gerenciamento de grupos antispam e de aprendizado de máquina no Mail .ru.
Chamada de idéias
Se você leu até aqui, então, em primeiro lugar, obrigado, estamos esperando por você na conferência. Em segundo lugar, se algo não bastasse, escreva nos comentários. Diga-nos quais tópicos são mais relevantes para você pessoalmente, diga-me que tipo de relatório você precisa, qual abordagem você não pode perder (em qualquer sentido e o que pular no programa). Quais são os nomes que você gostaria de ouvir em uma conferência - é muito provável que já tenhamos entrado em contato com esse especialista, mas, se não, definitivamente o faremos. Existem as mesmas pessoas no Comitê de Programa - temos muita experiência, mas ainda podemos esquecer algo.
UseData Conf é uma conferência para quem resolve problemas práticos usando métodos de aprendizado de máquina. Envie relatórios, registre-se e até 16 de setembro.