Aplicação de aprendizado de máquina e ciência de dados na indústria

Habr, olá. Eu traduzi um post que vai estritamente (!) Para favoritos e é transmitido aos colegas. Possui uma lista de notebooks e bibliotecas de ML e Data Science para vários setores. Todos os códigos estão em Python e estão hospedados no GitHub. Eles serão úteis tanto para ampliar os horizontes quanto para lançar uma startup interessante.

imagem

Observarei que, se houver algum leitor que queira ajudar e adicionar um projeto adequado a qualquer um dos subsetores, entre em contato. Vou adicioná-los à lista. Então, vamos começar a explorar a lista.

1. Imóveis e alimentação


1.1 Nutrição



1.2 Restaurantes



1.3 Imobiliário



2. Contabilidade


2.1 Aprendizado de máquina



2.2 Google Analytics



2.3 Análise de texto



2.4 Dados, análise e API


  • EDGAR - um guia passo a passo para obter dados EDGAR;
  • PyEDGAR - uma biblioteca para baixar, armazenar em cache e acessar arquivos EDGAR;
  • IRS - acesso e análise de arquivos IRS;
  • Corporativo financeiro - conjuntos de dados financeiros corporativos da Rutgers;
  • Corporativo não financeiro - conjunto de dados corporativos não financeiros Rutgers;
  • Análise de PDF - extraia dados úteis de documentos PDF;
  • Tabela de PDF para Excel - Crie um arquivo do Excel a partir dos dados em PDF.

2.5 Pesquisa e artigos



2.6 Web sites


  • Rutgers Raw - Pesquisa em Contabilidade Digital por Rutgers.

2.7 Cursos



3. Agricultura


3.1 Economia


  • Preços - previsão de preços para produtos agrícolas 1;
  • Preços 2 - previsão de preços de produtos agrícolas 2;
  • Rendimento - análise do rendimento agrícola na Ucrânia;
  • Recuperação - uso estratégico da terra na agricultura, levando em consideração a restauração de ecossistemas;
  • MPR - dados de relatórios de preços agrícolas. Produtos do Departamento de Agricultura dos EUA.

3.2 Desenvolvimento


  • Segmentação - segmentação de campos agrícolas usando imagens de satélite;
  • Lençol freático - previsão da profundidade das águas subterrâneas nas áreas agrícolas;
  • Assistente - laptops do Assistente Agrícola virtual;
  • Eco-evolucionário - dinâmica eco-evolutiva;
  • Doenças - identificação de doenças e pragas nas culturas, usando o framework Deep Learning para imagens;
  • Irrigação e Previsão de Pragas - análise da irrigação e previsão da probabilidade de pragas.

4. Bancos e seguros


4.1 Financiamento ao consumidor



4.2 Gerenciamento e operações


  • Cartão de Crédito - avaliação CLV de clientes de cartão de crédito;
  • Análise de Sobrevivência - análise de clientes LTV;
  • Próxima transação - um modelo de aprendizado profundo para prever o valor da transação e os dias até a próxima transação;
  • Churn de Cartão de Crédito - previsão de saída de clientes com cartão de crédito;
  • Atas do Banco da Inglaterra - as idéias principais do processamento preliminar do texto usando as atas das reuniões do Comitê de Política Monetária do Banco da Inglaterra;
  • CEO - Uma análise da correlação entre as recompensas do CEO de um homem e o CEO de uma mulher

4.3 Classificação


  • Previsão de Zillow - previsão de pontuação de Zillow feita por Kaggle;
  • Imóveis - previsão de preços para imóveis urbanos;
  • Carro usado - previsão de preços de carros usados.

4.4 Fraude



4.5 Seguros e Riscos



4.6 Útil



imagem

5. Biotecnologia e ciência


5.1 Geral



5.2 Sequência



5.3 Quimioterapia e descoberta de medicamentos



5.4 Genômica



5.5 Ciência



6. Maquinaria de construção


6.1 Construção civil



6.2 Engenharia



6.3 Ciência dos materiais



7. Economia


7.1 Geral



7.2 Aprendizado de máquina


  • EconML - treinamento e análise automatizados de relações de causa e efeito;
  • Leilões - leilões ótimos usando aprendizado profundo.

7.3 Cálculos



8. Educação e pesquisa


8.1 Alunos



8.2 Escola



9. Emergências


9.1 Prevenção



9.2 Crime



9.3 Ambulância



9.4 Gerenciamento de desastres



imagem

10. Finanças


10.1 Comércio e investimento



10.2.



11.


11.1.



12. Justiça, lei e regulamentação


12.1 As ferramentas



12.2 Política e Regulamento



12.3 Jurisprudência



13. Produção


13.1 Geral



13.2 Manutenção



13.3 Erros



13.4 Qualidade



14. Mídia e publicação


14.1 Marketing



15. Física


15.1 Geral



15.2 Aprendizado de máquina



16. Governo


16.1 Política social



16.2 Caridade



16.3 Análise eleitoral



16.4 Política


  • Política do Congresso - Câmara dos Representantes do Congresso dos EUA;
  • Politico - uma plataforma para definir perfis de figuras públicas na política brasileira;
  • Bots - ferramentas e algoritmos para analisar os tweets paraguaios durante as eleições;
  • Testes de Gerrymander - muitas métricas para quantificar Gerrymandering;
  • Sentimento - análise dos jornais quanto à sua convicção política usando sentimentos subjetivos de representantes do partido;
  • DL Politics - Uma comparação de um partido socialista contra um partido popular no Brasil;
  • Dinheiro do PAC - a influência do dinheiro do PAC na política dos EUA;
  • Redes de energia - criando um cão de guarda para as redes corporativas e políticas da Índia;
  • Elite - a elite política nos EUA;
  • Análise de Debate - um programa para analisar debates políticos;
  • Afiliação Política - previsão de afiliação política usando metadados do Twitter;
  • Anúncios políticos - uma investigação no Facebook de anúncios políticos e segmentação;
  • Identidade política - um modelo político multiaxial de identidade política;
  • Política do YouTube - exibindo políticas no YouTube;
  • Ideologia Política - Um estudo não controlado da ideologia política usando projeções verbais de vetores.

17. Imóveis, aluguel e leasing


17.1 Imobiliário


  • Finding Donuts - previsão de bairro;
  • Bairro - previsão de preços de imóveis na cidade;
  • Classificação Imobiliária - classificação do tipo de imóvel, considerando imóveis, comunicações via satélite e vista da rua;
  • Recomendador - um sistema de recomendação dos 5 principais objetos imobiliários que correspondem à pesquisa do usuário;
  • Preço da habitação - previsão do preço da habitação usando regressão linear e GBR;
  • Preço da habitação Portland - previsão de preços da habitação em Portland;
  • Previsão Zillow - previsão de pontuação Zillow feita por Kaggle.

17.2 Aluguel e arrendamento



18. Utilitários


18.1 Energia elétrica


  • Preço da eletricidade - Comparação dos preços da eletricidade em Cingapura;
  • Correlação Eletricidade-Carvão - determinação da correlação entre tarifas estaduais para produção de eletricidade e carvão na última década;
  • Capacidade de eletricidade - análise do Los Angeles Times de análise de eletricidade dispendiosa na Califórnia;
  • Sistemas de eletricidade - o sistema ideal de eletricidade para os países europeus;
  • Desagregação de carga - layout inteligente de carga de acordo com os modelos ocultos de Markov;
  • Previsão de preços - previsão de preços da eletricidade para o dia seguinte na zona comercial alemã com redes neurais profundas;
  • Índice de Carbono - cálculo do CO₂ e intensidade de eletricidade nas regiões do país, NERC desde 2001;
  • Previsão da Demanda - previsão da demanda de eletricidade em Austin;
  • Consumo de eletricidade - uma estimativa do consumo de eletricidade de pesquisas domiciliares;
  • Distribuição Francesa de Eletricidade - análise dos dados de eletricidade fornecidos pela rede de distribuição francesa (RTE);
  • Usinas Renováveis - séries temporais da capacidade total instalada;
  • Fluxo de parques eólicos - um repositório de modelos de fluxo de parques eólicos conectados ao FUSED-Wind;
  • Usina - o conjunto de dados contém 9568 pontos de dados coletados pela usina de ciclo combinado por 6 anos (2006-2011).

18.2 Carvão, petróleo e gás



18.3 Poluição da água


  • Água Segura - previsão de distúrbios da qualidade da água potável com base na saúde humana nos Estados Unidos;
  • Dados de hidrologia - um conjunto de funções convenientes para o estudo de dados da água em Python;
  • Observatório da Água - monitorando o nível da água em lagos e reservatórios usando imagens de satélite;
  • Tubulações de água - o uso de aprendizado de máquina para encontrar tubulações de água em fotografias aéreas;
  • Modelagem da Água - sistema australiano de modelagem comunitária para avaliar recursos hídricos;
  • Restrições à seca - análise do uso da água em Los Angeles;
  • Previsão de inundação - aplicação de LSTM aos dados do nível da água do rio;
  • Vazamento de esgoto - Análise de vazão sanitário (SSO);
  • Previsão da qualidade do ar é a previsão da qualidade do ar (aq) em Pequim e Londres nas próximas 48 horas.

18.4 Logística



19. Comércio atacadista e varejista


19.1 Atacado


  • Análise de Clientes - análise de clientes atacadistas;
  • Distribuição - JB Wholesale Distribution Analysis;
  • Clustering - agrupamento de dados sobre custos de produtos coletados para os clientes;
  • O Market Basket Analysis é um conjunto de dados público da Instacart com informações sobre quais produtos são frequentemente comprados juntos.

19.2 Comércio a retalho



Com isso, nosso post sobre a aplicação de ML e DS na indústria chegou ao fim. Espero que você tenha aprendido algo novo para si mesmo. Se você tem algo que pode compartilhar, escreva nos comentários.

Mais informações sobre aprendizado de máquina e ciência de dados na minha conta no Habré e no canal de telegrama Neuron , inscrevam-se para não perder artigos futuros.

Todo conhecimento!

Source: https://habr.com/ru/post/pt462769/


All Articles