Habr, hallo. Ich habe einen Beitrag übersetzt, der streng (!) Zu Lesezeichen gehört und an Kollegen weitergegeben wird. Es verfügt über eine Liste von Notizbüchern sowie ML- und Data Science-Bibliotheken für verschiedene Branchen. Alle Codes sind in Python und werden auf GitHub gehostet. Sie werden nützlich sein, um den eigenen Horizont zu erweitern und ein interessantes Startup zu starten.

Ich werde darauf hinweisen, dass Sie sich bitte an mich wenden, wenn es Leser gibt, die helfen und einem der Teilsektoren ein geeignetes Projekt hinzufügen möchten. Ich werde sie der Liste hinzufügen. Beginnen wir also mit der Erkundung der Liste.
1. Immobilien und Essen
1.1. Ernährung
1.2. Restaurants
1.3. Immobilien
2. Buchhaltung
2.1. Maschinelles Lernen
2.2. Analytik
2.3. Textanalyse
2.4. Daten, Analyse und API
- EDGAR - eine Schritt-für-Schritt-Anleitung zum Abrufen von EDGAR-Daten;
- PyEDGAR - eine Bibliothek zum Herunterladen, Zwischenspeichern und Zugreifen auf EDGAR-Dateien;
- IRS - Zugriff und Analyse von IRS-Dateien;
- Financial Corporate - Rutgers Unternehmensfinanzdatensätze;
- Nichtfinanzielles Unternehmen - nichtfinanzieller Unternehmensdatensatz Rutgers;
- PDF-Analyse - Extrahieren Sie nützliche Daten aus PDF-Dokumenten.
- PDF-Tabelle in Excel - Erstellen Sie eine Excel-Datei aus Daten in PDF.
2.5. Forschung und Artikel
2.6. Websites
2.7. Kurse
3. Landwirtschaft
3.1. Wirtschaft
- Preise - Preisprognose für landwirtschaftliche Erzeugnisse 1;
- Preise 2 - Preisprognose für landwirtschaftliche Erzeugnisse 2;
- Ertrag - landwirtschaftliche Ertragsanalyse in der Ukraine;
- Erholung - strategische Nutzung von Land in der Landwirtschaft unter Berücksichtigung der Wiederherstellung von Ökosystemen;
- MPR - Daten zur Berichterstattung über Agrarpreise. Produkte des US-Landwirtschaftsministeriums.
3.2. Entwicklung
- Segmentierung - Segmentierung landwirtschaftlicher Felder mithilfe von Satellitenbildern;
- Grundwasserspiegel - Vorhersage der Grundwassertiefe in landwirtschaftlichen Gebieten;
- Assistent - Laptops vom virtuellen Landwirtschaftsassistenten;
- Ökoevolutionär - Ökoevolutionäre Dynamik;
- Krankheiten - Identifizierung von Pflanzenkrankheiten und Schädlingen mithilfe des Deep Learning-Rahmens für Bilder;
- Bewässerung und Schädlingsvorhersage - Analyse der Bewässerung und Vorhersage der Wahrscheinlichkeit von Schädlingen.
4. Banken und Versicherungen
4.1. Konsumentenfinanzierung
4.2. Management und Betrieb
- Kreditkarte - CLV-Bewertung von Kreditkartenkunden;
- Überlebensanalyse - Analyse von LTV-Kunden;
- Nächste Transaktion - ein Deep-Learning-Modell zur Vorhersage des Transaktionsbetrags und der Tage bis zur nächsten Transaktion;
- Kreditkartenabwanderung - Vorhersage des Abflusses von Kunden mit Kreditkarten;
- Protokoll der Bank of England - die Hauptideen der vorläufigen Bearbeitung des Textes unter Verwendung des Sitzungsprotokolls des geldpolitischen Ausschusses der Bank of England;
- CEO - Eine Analyse der Korrelation zwischen den Belohnungen des CEO eines Mannes und des CEO einer Frau
4.3. Bewertung
4.4. Betrug
- XGBoost - Betrugserkennung durch Konfigurieren von XGBoost-Hyperparametern;
- Betrugserkennungsdarlehen in R - Aufdeckung von Betrug in Bankdarlehen;
- AML Finance Due Diligence - Suche nach Nachrichtenartikeln zur Finanzierung von AML DD;
- Kreditkartenbetrug - Aufdeckung von Kreditkartenbetrug.
4.5. Versicherung und Risiken
4.6. Nützlich
- Erkennung von Banknotenbetrug - Authentifizierung mit DNN Tensorflow Classifier und RandomForest;
- ATM-Überwachung - Überwachung von Geldautomaten in Banken.

5. Biotechnologie und Wissenschaft
5.1. Allgemein
- Programmierung - Programmierung für Biologen in Python;
- Einführung DL - Ein Lehrbuch über das fortgeschrittene Studium der Genomik;
- Pose - Tierposenbewertung mit DL;
- Datenschutz - Weitergabe klinischer Daten unter Wahrung der Vertraulichkeit;
- Populationsgenetik - populationsgenetische Schlussfolgerung;
- Bioinformatik-Kurs - Kursmaterialien zu Computational Biology und Bioinformatics;
- Angewandte Statistik - Angewandte Statistik für Hochleistungsbiologie;
- Skripte - Python-Skripte für Biologen;
- Molecular NN - ein Mini-Framework zum Aufbau und Training neuronaler Netze für die Molekularbiologie;
- Systembiologische Simulationen - praktische Systembiologie beim Schreiben von Simulationen mit F # und Z3;
- Zellbewegung - LSTM zur Vorhersage der biologischen Bewegung von Zellen;
- Deepchem - Deep Learning für die Entdeckung neuer Medikamente, Quantenchemie, Materialwissenschaften und Biologie.
5.2. Sequenz
5.3. Chemoinformatik und Wirkstoffforschung
5.4. Genomisch
- Jupyter Genomics - eine Sammlung von Laptops in Computerbiologie und Bioinformatik;
- Variantenaufruf - Bestimmung von Abweichungen vom Referenzgenom in der menschlichen DNA;
- Genexpressionsgraphen - die Verwendung von Windungen in Bildern;
- Autoencoding Expression - Extrahieren geeigneter Muster aus großen Genexpressionsdatensätzen;
- Genexpressionsinferenz - Vorhersage der Expression dieser Zielgene aus einer Gruppe von etwa 1000 vorgewählten "Referenzgenen";
- Pflanzengenomik - Material für Präsentationen und Beispiele für Pflanzengenome und Krankheitserreger.
5.5. Wissenschaft
- Pflanzenkrankheit - eine Anwendung, die Krankheiten in Pflanzen mithilfe eines Deep-Learning-Modells identifiziert;
- Blattidentifikation - Identifizierung von Pflanzen durch Blätter anhand ihrer Form, Farbe und Textur;
- Pflanzenanalyse - eine Bildbibliothek zum Erkennen und Verfolgen der zukünftigen Position von Ähren auf Maispflanzen;
- Sämlinge - Pflanzensämlinge, Klassifizierung von Kaggle;
- Pflanzenstress - eine Ontologie, die Pflanzenstress enthält;
- Tierhierarchie - ein Paket zur Berechnung von Tierdominanzhierarchien;
- Tieridentifikation - tiefes Tieridentifikationstraining;
- Arten - Big-Data-Analyse verschiedener Tierarten;
- Tierstimmen - ein generatives Netzwerk für Tierstimmen;
- Evolutionär - ein Werkzeug für Evolutionsstrategien;
- Gletscher - Lehrmaterial über Gletscher.
6. Baumaschinen
6.1. Bau
6.2. Engineering
- Strukturanalyse - 2D-Strukturanalyse in Python;
- Tragwerksplanung - Bauingenieurmodule;
- Nusa - Strukturanalyse nach der Finite-Elemente-Methode;
- StructPy - eine Strukturanalysebibliothek für Python, die auf der direkten Steifheitsmethode basiert;
- Querruder - Strukturanalyse von Boeing 737 Querrudern;
- Vibration - pädagogische Vibrationsprogramme;
- Civil - eine Sammlung von Tiefbauwerkzeugen in FreeCAD;
- GEstimator - Erstellung von Kostenvoranschlägen für Bau- und Elektroarbeiten mit detaillierter Tarifanalyse ;
- Fatpack - Funktionen und Klassen zur Analyse der Ermüdung einer Reihe von Daten;
- Pysteel - computergestützte Konstruktion von Stahlkonstruktionen;
- Strukturelle Unsicherheit - eine quantitative Bewertung der strukturellen Unsicherheit auf der Grundlage von Deep Learning;
- Pymech - Python-Modul für Maschinenbauer;
- Luft- und Raumfahrttechnik - Astrodynamik und Statistik;
- Interaktive Quantenchemie - die Vereinigung von Psi4 und Numpy für Bildung und Entwicklung;
- Chemie- und Verfahrenstechnik - verschiedene Ressourcen der chemischen und technologischen Technik;
- PyTherm - angewandte Thermodynamik;
- Aerogami - Aerodynamik mit Flugzeugen;
- Elektrogeophysik - interaktive Anwendungen für den Elektromagnetismus in der Geophysik;
- Graph Signal - ein Tutorial zur Signalverarbeitung in einem Graph;
- Mechanische Schwingungen - mechanische Schwingungen an der University of Louisiana;
- Prozessdynamik - die Dynamik des Prozesses und des Managements;
- Batterielebensdauer - Vorhersage der Batterielebensdauer anhand von Daten;
- Windenergie - Python für Windenergie;
- Energieverbrauch - Standardmethoden zur Berechnung des normalisierten Energieverbrauchs;
- Kernstrahlung - wie Menschen der Strahlung von Kernkraftwerken ausgesetzt sind.
6.3. Materialwissenschaft
- Python Materials Genomics - Materialanalysecode, der in einem etablierten Projekt verwendet wird;
- Materials Mining - Skripte zur Modellierung und Analyse von Materialien;
- Emmet - Erstellung von Materialeigenschaftsdatenbanken;
- Megnet - Graph - Netzwerke als ML - Gerüst für Moleküle und Kristalle;
- Atomate - Workflows für die rechnergestützte Materialwissenschaft;
- Satzungskonformität - Vorhersage von Geldbußen;
- Asphaltbindemittel - Baumaterialien, freie Energie und chemische Zusammensetzung von zementhaltigem Asphaltbelag;
- Awesome Materials Informatics ist eine kuratorische Liste bekannter Arbeiten auf dem Gebiet der Materialwissenschaften.
7. Wirtschaft
7.1. Allgemein
7.2. Maschinelles Lernen
- EconML - automatisiertes Training und Analyse von Ursache-Wirkungs-Beziehungen;
- Auktionen - optimale Auktionen mit Deep Learning.
7.3. Berechnungen
8. Bildung und Forschung
8.1. Studenten
8.2. Die Schule
9. Notfälle
9.1. Prävention
9.2. Verbrechen
9.3. Rettungswagen
- Krankenwagenanalyse - eine Studie über Änderungen in der Zeit der Ankunft des Krankenwagens in Victoria;
- Standort - Krankenwagenstandorte;
- Versand - Anwendung der Spieltheorie und Simulation diskreter Ereignisse, um die optimale Lösung für den Versand von Krankenwagen zu finden;
- Ambulance Allocation - Zeitreihenanalyse von Krankenwagenabfahrten in der Stadt San Diego;
- Reaktionszeit - Analyse der Verbesserung der Reaktionszeit von Krankenwagen;
- Optimales Routing - ein Projekt zur Ermittlung des optimalen Routings von Krankenwagen;
- Crash-Analyse - Vorhersage der Unfallwahrscheinlichkeit in diesem Segment zu einem bestimmten Zeitpunkt.
9.4. Katastrophenmanagement

10. Finanzen
10.1. Handel und Investitionen
10.2.
11. Gesundheit
11.1. Allgemein
12. Gerechtigkeit, Recht und Regulierung
12.1. Die Werkzeuge
12.2. Politik und Regulierung
12.3. Rechtsprechung
13. Produktion
13.1. Allgemein
13.2. Technischer Service
13.3. Fehler
- Predictive Analytics - eine Methode zur Vorhersage von Hardwarefehlern;
- Fehlererkennung - Anomalieerkennung für defekte Halbleiter;
- Fehlererkennung - Intelligente Fehlererkennung für die Tablet-Herstellung;
- Herstellungsfehler - Reduzierung von Produktionsfehlern;
- Fertigungsanomalien - Intelligente Erkennung von Anomalien für die Produktionslinie.
13.4. Qualität
14. Medien und Verlagswesen
14.1. Marketing
15. Physik
15.1. Allgemein
15.2. Maschinelles Lernen
16. Regierung
16.1. Sozialpolitik
16.2. Wohltätigkeit
- Census Data API - Extrahieren von Variablen aus einer 5-Jahres-Umfrage der amerikanischen Community;
- Spenderidentifikation - ein maschinelles Lernprojekt, bei dem Sie Spender für wohltätige Zwecke finden müssen;
- Wohltätigkeitseffektivität - Sammeln Sie Online-Daten über Wohltätigkeitsorganisationen, um deren Wirksamkeit zu verstehen.
16.3. Wahlanalyse
16.4. Politik
- Kongresspolitik - Repräsentantenhaus des US-Kongresses;
- Politico - eine Plattform zur Profilierung von Persönlichkeiten des öffentlichen Lebens in der brasilianischen Politik;
- Bots - Tools und Algorithmen zur Analyse paraguayischer Tweets während der Wahlen;
- Gerrymander-Tests - viele Metriken zur Quantifizierung von Gerrymandering;
- Sentiment - Analyse von Zeitungen auf ihre politische Überzeugung unter Verwendung subjektiver Gefühle von Parteivertretern;
- DL-Politik - Ein Vergleich einer sozialistischen Partei mit einer populären Partei in Brasilien;
- PAC-Geld - der Einfluss von PAC-Geld auf die US-Politik;
- Power Networks - Schaffung eines Wachhundes für indische Unternehmens- und politische Netzwerke;
- Elite - die politische Elite in den USA;
- Debattenanalyse - ein Programm zur Analyse politischer Debatten;
- Politische Zugehörigkeit - Prognose der politischen Zugehörigkeit anhand von Twitter-Metadaten;
- Politische Anzeigen - eine Untersuchung von politischen Anzeigen und Targeting auf Facebook;
- Politische Identität - ein mehrachsiges politisches Modell politischer Identität;
- YT Politics - Anzeigen von Richtlinien auf YouTube;
- Politische Ideologie - Eine unkontrollierte Untersuchung der politischen Ideologie unter Verwendung verbaler Vektorprojektionen.
17. Immobilien, Vermietung und Leasing
17.1. Immobilien
- Donuts finden - Nachbarschaftsprognose;
- Nachbarschaft - Prognose der Immobilienpreise in der Stadt;
- Immobilienklassifizierung - Klassifizierung der Art der Immobilie unter Berücksichtigung von Immobilien, Satellitenkommunikation und Blick auf die Straße;
- Empfehlungsgeber - Ein Empfehlungssystem der fünf wichtigsten Immobilienobjekte, die der Suche des Benutzers entsprechen.
- Hauspreis - Vorhersage des Hauspreises unter Verwendung linearer Regression und GBR;
- Immobilienpreis Portland - Vorhersage der Immobilienpreise in Portland;
- Zillow-Vorhersage - Zillow-Score-Vorhersage von Kaggle.
17.2. Miete und Leasing
18. Dienstprogramme
18.1. Elektrische Energie
- Strompreis - Vergleich der Strompreise in Singapur;
- Strom-Kohle-Korrelation - Bestimmung der Korrelation zwischen staatlichen Zöllen für Strom und Kohleproduktion im letzten Jahrzehnt;
- Stromkapazität - Los Angeles Times-Analyse der kostspieligen Stromanalyse in Kalifornien;
- Elektrizitätssysteme - das optimale Elektrizitätssystem für europäische Länder;
- Lastdisaggregation - intelligentes Lastlayout nach versteckten Markov-Modellen;
- Preisprognose - Prognose der Strompreise für den kommenden Tag in der deutschen Handelszone mit tiefen neuronalen Netzen;
- Kohlenstoffindex - Berechnung von CO₂ und Stromintensität in den Regionen des Landes, NERC seit 2001;
- Bedarfsprognose - Prognose des Strombedarfs in Austin;
- Stromverbrauch - eine Schätzung des Stromverbrauchs aus Haushaltserhebungen;
- Stromverteilung in Frankreich - Analyse der vom französischen Verteilungsnetz (RTE) bereitgestellten Stromdaten;
- Erneuerbare Kraftwerke - Zeitreihen der gesamten installierten Leistung;
- Windparkfluss - ein Repository von Windparkflussmodellen, die mit FUSED-Wind verbunden sind;
- Kraftwerk - Der Datensatz enthält 9568 Datenpunkte, die vom Kombikraftwerk für 6 Jahre (2006-2011) gesammelt wurden.
18.2. Kohle, Öl und Gas
- Kohlevorhersage - Vorhersage der Kohleproduktion;
- Öl & Gas - Prognose der Öl- und Erdgaspreise mithilfe von ARIMA und neuronalen Netzen;
- Gasformel - Berechnung der möglichen wirtschaftlichen Auswirkungen der Preisindexierungsformel;
- Bedarfsprognose - Prognose für den Erdgasbedarf;
- Verbrauchsprognose - Prognose des Erdgasverbrauchs;
- Der Gashandel ist ein globales Erdgashandelsmodell.
18.3. Wasserverschmutzung
- Sicheres Wasser - Vorhersage von Störungen der Trinkwasserqualität aufgrund der menschlichen Gesundheit in den USA;
- Hydrologiedaten - eine Reihe praktischer Funktionen zum Studieren von Wasserdaten in Python;
- Wasserobservatorium - Überwachung des Wasserstandes in Seen und Stauseen mithilfe von Satellitenbildern;
- Wasserpipelines - die Verwendung von maschinellem Lernen, um Wasserpipelines in Luftbildern zu finden;
- Wassermodellierung - australisches Community-Modellierungssystem zur Bewertung der Wasserressourcen;
- Dürreeinschränkungen - Analyse des Wasserverbrauchs in Los Angeles;
- Hochwasservorhersage - Anwendung von LSTM auf Flusswasserstandsdaten;
- Abwasserüberlauf - Sanitärüberlaufanalyse (SSO);
- Die Luftqualitätsvorhersage ist die Luftqualitätsvorhersage (aq) in Peking und London für die nächsten 48 Stunden.
18.4. Logistik
19. Groß- und Einzelhandel
19.1. Großhandel
- Kundenanalyse - Analyse von Großhandelskunden;
- Vertrieb - JB Wholesale Distribution Analysis;
- Clustering - Clustering von Daten zu Produktkosten, die für Kunden erhoben werden;
- Market Basket Analysis ist ein öffentlicher Instacart-Datensatz mit Informationen darüber, welche Produkte häufig zusammen gekauft werden.
19.2. Einzelhandel
Damit ist unser Beitrag zur Anwendung von ML und DS in der Industrie zu Ende gegangen. Ich hoffe du hast etwas Neues für dich gelernt. Wenn Sie etwas haben, das Sie selbst teilen können, schreiben Sie in die Kommentare.
Weitere Informationen zu maschinellem Lernen und Data Science finden Sie in meinem Konto bei
Habré und im Telegrammkanal
Neuron , um zukünftige Artikel nicht zu verpassen.
Alles Wissen!