14个开放源代码项目,用于提升数据科学技能(轻松,正常,艰苦)

初学者数据科学

1.情绪分析


图片

使用源代码-R中的情感分析项目,查看数据科学项目的完整实施

情感分析是一个单词分析,用于识别可能是正面还是负面的情绪和观点。 这是一种分类类型,其中的类可以是二进制的(正负)或复数的(快乐,邪恶,悲伤,讨厌...)。 我们将使用R语言实现此Data Science项目,并将使用janeaustenR包中的数据集。 我们将使用通用字典(例如AFINN,bing和loughran)进行内部连接,最后,我们将创建一个词云以显示结果。

语言: R
数据集/包: janeaustenR

EDISON软件-网络开发
本文是在EDISON Software(一家为多品牌商店提供虚拟试衣间测试软件的公司)的支持下翻译的。


2.假新闻检测


通过致力于面向初学者的Data Science项目,将您的技能提高到一个新的水平- 使用Python发现虚假新闻

图片

假新闻是通过社交网络和其他在线媒体传播以实现政治目标的虚假信息。 在这个Data Science项目构想中,我们将使用Python建立一个模型,该模型可以准确地确定新闻是真实的还是虚假的。 我们将创建一个TfidfVectorizer并使用PassiveAggressiveClassifier将新闻分类为“真实”和“伪造”。 我们将使用7796×4表单数据集并在Jupyter Lab中进行所有操作。

语言: Python

数据集/包: news.csv

3.检测帕金森氏病(帕金森氏病检测)


继续进行数据科学项目的构想- 使用XGBoost识别帕金森氏病

图片

我们开始使用数据科学来改善医疗保健和服务-如果我们能够在早期阶段预测疾病,我们将获得很多好处。 因此,在这个Data Science项目构想中,我们将学习如何使用Python检测帕金森氏病。 这是中枢神经系统的神经退行性进行性疾病,会影响运动并引起发抖和僵硬。 它影响大脑中产生多巴胺的神经元,每年,它影响到印度超过100万人。

语言: Python

数据集/软件包: UCI ML Parkinsons数据集

中等复杂度的数据科学项目

4.语音情感识别


查看数据科学示例项目的完整实施-Librosa的语音识别

图片

现在让我们学习如何使用不同的库。 该数据科学项目使用librosa进行语音识别。 SER是根据语音确定人类情绪和情感状态的过程。 由于我们使用音高和音高来表达语音中的情感,因此SER是很重要的。 但是由于情感是主观的,因此注释声音是一项艰巨的任务。 我们将使用mfcc,色度和mel函数,并使用RAVDESS数据集识别情绪。 我们将为此模型创建MLPC分类器。

语言: Python

数据集/包: RAVDESS数据集

5.性别和年龄检测


使雇主惊讶于最新的数据科学项目- 使用OpenCV进行性别和年龄确定

图片

这是使用Python的有趣的数据科学。 仅使用一张图像,您将学会预测一个人的性别和年龄。 在本文中,我们将向您介绍计算机视觉及其原理。 我们将建立一个卷积神经网络 ,并将使用由Tal Hassner和Jill Levy训练的Adience数据集模型。 在此过程中,我们将使用一些.pb,.pbtxt,.prototxt和.caffemodel文件。

语言: Python

数据集/数据包:氛围

6. Uber数据分析


查看Source Science Data Science项目的完整实施, R中Uber Data Analysis项目。

图片

这是一个带有ggplot2的数据可视化项目,我们将在其中使用R及其库,并分析各种参数。 我们将使用纽约的Uber Pickups数据集,并为一年中的不同时间范围创建可视化效果。 这告诉我们时间如何影响客户旅行。

语言: R

数据集/数据包:纽约市数据集中的Uber取件

7.驾驶员困倦检测


在进行顶级数据科学项目( 使用OpenCV和Keras的睡眠检测系统)时提高您的技能。

图片

昏昏欲睡的驾驶极为危险,由于驾驶员在驾驶时会睡着,因此每年大约发生一千起事故。 在这个Python项目中,我们将创建一个系统,该系统可以检测到困倦的驱动程序,并通过声音信号通知它们。

该项目使用Keras和OpenCV实现。 我们将使用OpenCV来检测面部和眼睛,并使用Keras使用深度神经网络技术对眼睛的状态(睁开或闭合)进行分类。

8.聊天机器人


使用Python创建一个聊天机器人,并在您的职业生涯中向前迈进-NLTK和Keras的聊天机器人

图片

聊天机器人是业务不可或缺的一部分。 许多企业必须向客户提供服务,而他们的服务需要大量的劳力,时间和精力。 聊天机器人可以通过回答客户提出的一些常见问题来使大多数客户互动自动化。 基本上有两种类型的聊天机器人:特定于域的和开放域。 特定于域的聊天机器人通常用于解决特定问题。 因此,您需要对其进行配置以在您的领域中有效地工作。 开放域聊天机器人可以被问到任何问题,因此训练它们需要大量数据。

数据集意图json文件

语言: Python

先进的数据科学项目

9.图像字幕生成器


使用源代码( 带有CNN和LSTM的图像字幕生成器)检查完整的项目实现。

图片

对于人来说,描述图像中的内容是一件容易的事,但是对于计算机而言,图像只是一组代表每个像素的颜色值的数字。 对于计算机而言,这是一项艰巨的任务。 理解图像中的内容,然后以自然语言(例如,英语)创建描述是另一项艰巨的任务。 该项目使用了深入的研究方法,在这些方法中,我们实现了带有递归神经网络(LSTM)的递归神经网络(CNN),以创建图像描述生成器。

数据集: Flickr 8K

语言: Python

框架: Keras

10.信用卡欺诈检测(信用卡欺诈的定义)


通过研究数据科学项目的想法来做到最好- 使用机器学习检测信用卡欺诈

图片

到目前为止,您已经开始了解方法和概念。 让我们继续一些高级数据科学项目。 在这个项目中,我们将R语言与诸如决策树 ,逻辑回归,人工神经网络和梯度提升分类器之类的算法结合使用。 我们将使用卡交易数据集将信用卡交易分类为欺诈和真实。 我们将为他们选择不同的模型并建立性能曲线。

语言: R

数据集/包装:卡交易数据集

11.电影推荐系统


了解如何使用R中的源代码- 电影推荐系统实施最佳的数据科学项目

图片

在此数据科学项目中,我们将使用R通过机器学习来满足影片的建议。 推荐系统通过基于其他用户的偏好和浏览历史的过滤过程向用户发送建议。 如果A和B喜欢“独自一人”,而B喜欢“卑鄙的女孩”,那么您可以提供A-他们可能也喜欢。 这使客户可以与平台进行交互。

语言: R

数据集/包: MovieLens数据集

12.客户细分


通过数据科学项目(包括源代码)给雇主留下深刻的印象- 使用机器学习进行客户细分

图片

客户细分是一种流行的无监督学习应用程序。 公司使用集群来定义客户群以与潜在用户群合作。 他们根据性别,年龄,兴趣和消费习惯等共同特征将客户分为几类,以便他们可以将产品有效地销售给每个群体。 我们将使用K-means聚类 ,以及按性别和年龄可视化分布。 然后我们分析他们的年收入和支出水平。

语言: R

数据集/数据包: Mall_Customers数据集

13.乳腺癌分类


请参阅“ Python- 深度学习对乳腺癌的分类 ”中数据科学项目的完整实施。

图片

回到数据科学的医学贡献,让我们学习如何使用Python检测乳腺癌。 我们将使用IDC_regular数据集来检测浸润性导管癌,这是最常见的乳腺癌形式。 它在乳腺导管中发育,并渗透到导管外部的乳腺的纤维或脂肪组织中。 在这个科学的数据收集项目的构想中,我们将使用深度学习和Keras库进行分类。

语言: Python

数据集/数据包: IDC_regular

14.交通标志识别


使用CNN开源技术,通过数据科学的符号识别项目,实现自动驾驶技术的准确性。

图片

交通标志和交通规则对于每个驾驶员避免事故都很重要。 要遵守该规则,您首先需要了解路标的外观。 一个人在被赋予驾驶任何车辆的权利之前必须学习所有的道路标志。 但是现在自动驾驶汽车的数量正在增长,并且在不久的将来,人们将不再能够独立控制机器。 在“交通标志识别”项目中,您将学习程序如何通过接受图像作为输入信号来识别交通标志的类型。 德国路标识别清单(GTSRB)用于构建深度神经网络,以识别路标所属的类别。 我们还创建了一个简单的图形界面,用于与应用程序进行交互。

语言: Python

数据集 GTSRB(德国交通标志识别基准)

阅读更多





另请阅读博客
EDISON公司:


20个图书馆
壮观的iOS应用程序

Source: https://habr.com/ru/post/zh-CN480378/


All Articles