Este ano, participei da conferência Data Crunch em Budapeste, dedicada à análise de dados e à engenharia de dados. Palestrantes do Linkedin, Uber, Github e muitas empresas de segundo nível são convidados para esta conferência, onde as pessoas compartilham suas experiências ou falam sobre ferramentas de dados. Bem, o que é tão interessante para mim é conversar com os participantes da conferência para entender como nossa realidade russa difere da Europa e dos EUA.
Para que eu observe isso:
- Os relatórios do Full Stack Data Sceince - 2 foram dedicados aproximadamente ao mesmo tópico que eu escrevi antes . Faça do DS / DA uma pessoa capaz de resolver problemas do início ao fim. Não divida o trabalho em "funções", mas divida o DS em "tópicos". I.e. trabalhar com dados não é uma divisão em partes entre aqueles que preparam, processam, analisam, constroem modelos e visualizam, mas essa divisão de "tópicos" entre especialistas que podem fazer tudo completamente.
- Do zero ao herói - os caras falaram sobre como construíram seu departamento de DS do zero. Em geral, como sempre, idéias sonoras comuns funcionam:
- 2 DS como o tamanho mínimo da equipe.
- e 2 engenheiro de dados para eles.
- Proprietário do produto B, que se comunicaria com a empresa.
- Construa um bom ecossistema. Alto-falantes geralmente se afogam em código aberto. Todo relatório geralmente menciona o Hadoop. O problema é verdadeiro em muitos aspectos, porque no projeto em que trabalho, assim como em muitos dos leitores, não é necessário o Hadoop, porque não há essa quantidade de dados onde quer que haja um ganho. Em geral, minha atitude em relação ao código aberto é tentar estudar, mas se sua empresa já comprou alguma coisa, continuar vivendo no ecossistema de software proprietário pode ser mais lucrativo do que entrar em outras tecnologias e depois emparelhá-las ou aprendê-las do zero.
- Teste o que você está fazendo. Testes A / B e avaliação de resultados. Curiosamente, mas conselhos simples não fazem tudo na prática.
- Democratização dos dados no Uber - sobre isso, eu já escrevi um artigo separado
- Ética da IA - discutiu que muitas tarefas têm várias ótimas fundamentalmente diferentes. Condicionalmente, você pode ter uma decisão "eficaz" e uma "decisão ética". E o problema é que sua maximização ocorre sob diferentes condições. E não há solução certa em matemática ou algoritmos. É para as pessoas decidirem o que querem de seus "carros". Como exemplo, o palestrante disse que o algoritmo de avaliação de risco de recaída de crimes tende a dar uma avaliação de risco aumentada aos americanos negros. Essa avaliação de risco é usada para tomar decisões sobre liberdade condicional. O dilema é que a "discriminação" socialmente inaceitável dos negros se depara com um aumento subsequente objetivamente inaceitável no crime daqueles que foram libertados antes do previsto em vão. E é impossível combinar as duas soluções em um algoritmo. Curiosamente, a comunidade negra dos Estados Unidos comete principalmente crimes contra seus próprios "irmãos e irmãs" negros, portanto, mesmo uma tentativa de "igualar" brancos e negros não corre risco, mas de acordo com o número de pessoas libertadas, isso levará a um aumento desproporcional no número de vítimas negras.
- ML e guerra de informação - o cara contou como, analisando o texto e os links entre si, e no Facebook encontrou alguma atividade suspeita no Facebook antes da eleição de Trump. Ele afirma que alguém supervisionou maciçamente a agenda "russa", de modo que o idioma falado pelos grupos conservadores se tornou mais racista. Ele investigou isso analisando o vocabulário usado nos grupos neonazistas e depois o comparou com a linguagem dos conservadores. E ele descobriu que o léxico começou a se aproximar muito antes da eleição de Trump, embora nada parecido com isso tivesse sido observado antes. Em geral, ele sugeriu que Putin é o culpado :)
De conversas com pessoas na conferência:
- R vs Python. As pessoas vivem com duas ferramentas e, geralmente, R é amado por pessoas com formação em ciências e matemática, e python é amado por pessoas com formação em desenvolvimento. O uso mais comum de R é para Python exploratório, para pipeline. Os modelos escrevem em ambos. Tenho experiência pessoal na produção de modelos de produção em R, por exemplo.
- Testes A / B - implementar uma avaliação regular de suas ações e escolher soluções com base nos testes A / B ainda é uma prática rara para as empresas (de uma dúzia de grupos com quem conversei, apenas 1 tem testes A / B). As pessoas não querem gastar energia nos testes A / B, dizem que já sabem ou o CEO "vê" como ...
- Todo mundo tem problemas de comunicação - com gerentes, com clientes, dentro da empresa etc. Melhorar as comunicações é um ponto de crescimento para quase todas as equipes.
- O principal trabalho de aprendizado de máquina não segue a linha de escolha dos modelos mais legais, mas inclui engenharia e preparação de dados. Nem o google nem o facebook têm modelos "secretos", mas a eficácia de seus algoritmos é mais provável no processamento e preparação de dados para esses modelos. Isso geralmente é uma boa notícia, porque significa que o xgboost público ou a regressão é o algoritmo de ponta para a maioria das tarefas.