O autor do material manteve uma série de conversas com especialistas na área de análise e processamento de dados e tirou conclusões sobre as perspectivas e orientações do desenvolvimento dos cientistas de dados.A teoria e os métodos de processamento de dados simplificaram a solução de vários problemas no campo da tecnologia. Isso inclui a otimização dos resultados de pesquisa do Google, recomendações no LinkedIn, formação de títulos no Buzzfeed. No entanto, trabalhar com dados pode afetar significativamente muitos setores da economia: do varejo, telecomunicações, agricultura aos sistemas de saúde, frete e sistemas penais.
No entanto, os termos “ciência de dados”, “teoria e métodos de análise de dados” e “cientista de dados” não são totalmente compreendidos. Na prática, eles são usados para descrever uma ampla gama de métodos de trabalho com informações.
O que os especialistas em ciência de dados realmente fazem? Como anfitrião do podcast
DataFramed, tive a grande oportunidade de entrevistar mais de 30 especialistas em análise de dados de uma ampla gama de indústrias e disciplinas acadêmicas. Entre outras coisas, sempre perguntei em que consiste exatamente o trabalho deles.
A ciência de dados é um campo verdadeiramente vasto. Meus convidados abordaram nossas conversas de várias posições e pontos de vista. Eles descreveram uma variedade de atividades, incluindo estruturas de desenvolvimento de produtos on-line em grande escala no booking.com e no Etsy, os métodos usados pelo Buzzfeed para resolver o problema de bandidos com várias armas na otimização de títulos de materiais e o impacto que o aprendizado de máquina tem nas decisões de negócios do airbnb.
O exemplo mais recente foi dublado por Robert Cheng, especialista em análise de dados do Airbnb. Quando ele trabalhou no Twitter, a empresa estava focada no crescimento. Agora no Airbnb, Cheng está desenvolvendo modelos massivos de aprendizado de máquina.
As abordagens para a aplicação da teoria da análise e do processamento de dados podem ser muito diferentes, e a escolha de uma solução depende não apenas do setor, mas também do tipo de negócio e de suas tarefas.
No entanto, apesar da diversidade, vários tópicos comuns são claramente visíveis em todas as entrevistas.
O que os especialistas em ciência de dados fazem?
Sabemos como a ciência de dados funciona, pelo menos no setor de tecnologia. Os pesquisadores primeiro estabelecem uma base sólida na forma de informações coletadas para realizar um trabalho analítico completo. No estágio seguinte, eles usam, entre outras coisas, experimentos on-line para um progresso sustentável na solução do problema. Como resultado, são criados métodos de aprendizado de máquina e produtos especializados que processam os dados necessários para entender melhor seus negócios e tomar melhores decisões. Ou seja, a essência dos métodos de processamento de dados no campo da tecnologia se resume à construção de infraestrutura, realização de testes e aprendizado de máquina para tomar decisões e criar produtos de informação.
Grandes passos estão sendo dados em outros setores não tecnológicos.
Em uma das reuniões, Ben Skrainka, especialista em processamento de dados da Convoy, e eu examinamos o uso eficaz de métodos de processamento de informações para inovar no setor de transporte de carga norte-americano. Sandy Griffith, da Flatiron Health, falou sobre o importante papel que a análise de dados desempenha no estudo do câncer. Juntamente com Drew Conway, discutimos sua empresa Alluvium, que "usa inteligência artificial e aprendizado de máquina para identificar padrões úteis com base em fluxos de dados em larga escala gerados durante a operação de sistemas industriais". Mike Tamir, atual chefe do departamento de direção autônoma da Uber, falou sobre trabalhar na Takt, onde Tamir ajudou as empresas da Fortune 500 a introduzir métodos de processamento e análise de dados. Entre outras coisas, ele compartilhou sua experiência no desenvolvimento de um sistema de recomendação para a Starbucks.
A análise de dados não é apenas a perspectiva de carros autônomos e inteligência artificial
Muitos convidados do meu podcast eram céticos em relação à generalização do fetiche de IA por parte da mídia popular (exemplo: artigo de VentureBeat "Um deus da IA será criado em 2042, que escreverá sua Bíblia. Você o adorará?") E o hype que envolve a máquina e o fundo aprendizagem. Obviamente, essas duas áreas são abordagens poderosas com exemplos importantes de aplicações práticas. Mas essa excitação deve sempre ser tratada com uma parcela de ceticismo saudável. Quase todos os meus convidados observaram que pesquisadores reais nessas áreas ganham a vida coletando e filtrando dados, criando painéis e relatórios, fazendo visualização de dados e análise estatística. Além disso, eles precisam ser capazes de transmitir a essência dos resultados aos principais atores e convencer os tomadores de decisão.
O conjunto de habilidades exigidas pela profissão de cientista de dados está constantemente mudando e reabastecendo (e ter experiência trabalhando com treinamento aprofundado não é o principal requisito)
Em uma conversa com Jonathan Nolis, um dos principais analistas de dados de Seattle que trabalha com empresas da Fortune 500, discutimos a seguinte pergunta: “Qual das duas habilidades mais importante para um profissional de dados é a capacidade de usar modelos complexos de profundidade treinamento ou a capacidade de desenhar bons slides no PowerPoint? ” Nolis argumentou a favor deste último, acreditando que uma explicação acessível dos resultados da análise continua sendo um elemento-chave do trabalho com informações.
Outro tópico popular é a variabilidade de um conjunto de habilidades básicas. A relevância de alguns deles pode mudar no futuro próximo. O rápido desenvolvimento de ferramentas comerciais e de análise de dados abertos levou ao fato de que agora estamos testemunhando uma transição maciça para a automação de muitas tarefas rotineiras, como limpeza de dados e preparação inicial. Até agora, era
comum quando 80% do tempo valioso do pesquisador era gasto em pesquisa simples, filtragem e estruturação de dados e apenas 20% em suas análises. Mas é improvável que esse estado de coisas persista. Hoje, a automação chegou até aos processos de máquina e aprendizado profundo. Em particular, em um podcast separado inteiramente dedicado a esses problemas, Randal Olson, especialista em análise e processamento de dados da Life Epigenetics, falou sobre isso.
De acordo com os resultados da entrevista, a esmagadora maioria dos meus convidados acredita que a capacidade de criar e usar infraestruturas de aprendizado profundo não é de todo essencial. Em vez disso, eles indicam a capacidade de aprender em tempo real e a capacidade de explicar corretamente cálculos analíticos complexos para os principais participantes do processo, longe de questões técnicas. Portanto, especialistas intencionais no campo de processamento e análise de dados devem prestar um pouco mais de atenção à apresentação correta do material do que métodos de processamento de informações. Novos métodos vão e vêm, mas o pensamento crítico e as habilidades profissionais numericamente mensuráveis sempre serão relevantes.
A especialização está se tornando mais importante
Apesar da falta de uma carreira clara e do apoio insuficiente para profissionais iniciantes, já estamos observando o surgimento de algumas áreas de especialização. Emily Robinson descreveu a diferença entre cientistas do tipo A e B. Segundo ela, o tipo A inclui analistas cujas atividades se aproximam das estatísticas tradicionais, mas os representantes do tipo B estão principalmente envolvidos na criação de modelos de aprendizado de máquina.
Jonathan Nolis divide a ciência de dados em três componentes. O primeiro componente é a análise de negócios, que se resume a "levar os dados da empresa e fornecê-los às pessoas certas" na forma de painéis, relatórios e e-mails. A segunda é a teoria da decisão, que visa "coletar dados e ajudar a empresa a tomar a melhor decisão com a ajuda deles". O terceiro componente é o aprendizado de máquina, onde especialistas buscam responder à pergunta "Como podemos aplicar conscientemente modelos analíticos da informação em um projeto real?" Apesar de muitos especialistas avançados em suas atividades abrangerem todas as três áreas, as carreiras concretas de carreira já começaram a tomar forma, como é o caso dos engenheiros de aprendizado de máquina.
Questões éticas e morais - um sério desafio
Você provavelmente acha que os representantes da profissão analítica encontram uma quantidade considerável de incertezas a caminho. Quando perguntei a Hillary Mason no primeiro episódio de nossa conversa se existem outras dificuldades que a comunidade profissional está enfrentando, ela respondeu: “Você realmente acha que nos faltam as diretrizes morais, práticas padrão e terminologia simplificada neste estágio de desenvolvimento? ? "
Todos os três pontos são realmente importantes, e os dois primeiros problemas são motivo de preocupação para quase todos os convidados do podcast DataFramed. Qual o papel da moralidade nas condições em que os algoritmos desenvolvidos pelos analistas de informação determinam como interagir com o mundo exterior?
Como Omuju Miller, principal especialista em aprendizado de máquina do GitHub, disse em uma entrevista:
É necessário formular uma compreensão dos valores morais básicos, desenvolver um esquema para treinar especialistas e elaborar algo como um juramento de Hipócrates. E precisamos de licenças reais para punir ou retirar a prática de um especialista que foi além da ética. Deve ficar claro que nós, como indústria, somos contra esses atos. E, é claro, é necessário, de alguma forma, ajudar aqueles que cometerem violações graves e aqueles que se desviaram das regras da ignorância para ajudar a melhorar porque não passaram no treinamento necessário.
O tópico atual são as conseqüências graves, prejudiciais e imorais do uso da ciência de dados, como foi o caso da classificação de risco de reincidência do COMPAS, “que foi usada para prever e identificar futuros criminosos” e, de acordo com o
ProPublica , acabou sendo “tendenciosa contra pessoas negras para os americanos ".
Estamos gradualmente concordando que padrões éticos devem nascer dentro da comunidade de analistas profissionais, bem como obter apoio de legisladores, movimentos sociais e outras partes interessadas. Em parte, é dada uma ênfase especial à interpretabilidade dos modelos, em oposição às soluções modernas que operam no princípio de uma caixa preta. Ou seja, é necessário criar modelos que possam explicar por que eles fizeram essa ou aquela previsão. O aprendizado profundo lida com muitas tarefas, mas é famoso por sua inexplicabilidade. Pesquisadores, desenvolvedores e analistas de dados dedicados estão progredindo nessa direção por meio de projetos como o
Lime para explicar como os modelos de aprendizado de máquina funcionam.
A enorme revolução na análise de dados nas indústrias humanas e na sociedade acaba de começar. Ainda não está claro se a profissão de especialista em análise de dados continuará sendo o
trabalho mais atraente do século XXI , se será mais focada ou simplesmente se transformará em um conjunto de habilidades que os pesquisadores devem ter. Como Hilary Mason disse: “A ciência dos dados existirá em 10 anos? "Lembro-me de um mundo em que ela não era e não ficarei surpreso se essa profissão enfrentar o mesmo destino da profissão de webmaster."
