Ciência de dados para iniciantes1. Análise de sentimentos

Veja a implementação completa do projeto Data Science usando o código-fonte -
Sentiment Analysis Project em R.Análise de sentimentos é uma análise de palavras para identificar humores e opiniões que podem ser positivas ou negativas. Este é um tipo de classificação em que as classes podem ser binárias (positivas e negativas) ou plurais (felizes, más, tristes, desagradáveis ...). Implementaremos esse projeto de ciência de dados na linguagem R e usaremos os dados no pacote janeaustenR. Usaremos dicionários de uso geral, como AFINN, bing e loughran, para conectar-se internamente e, no final, criaremos uma nuvem de palavras para exibir o resultado.
Idioma: R
Conjunto de dados
/ pacote: janeaustenR

Este artigo foi traduzido com o apoio da EDISON Software, uma empresa que fabrica provadores virtuais para lojas multimarcas e também testa software .
2. Detecção de Notícias Falsas
Leve suas habilidades para o próximo nível, trabalhando no projeto Data Science para iniciantes -
descobrindo notícias falsas usando o Python .

As notícias falsas são informações falsas disseminadas por redes sociais e outras mídias online para alcançar objetivos políticos. Nesta idéia do projeto Data Science, usaremos o Python para criar um modelo que possa determinar com precisão se as notícias são reais ou falsas. Criaremos um TfidfVectorizer e usaremos o PassiveAggressiveClassifier para classificar as notícias em "reais" e "falsas". Usaremos o conjunto de dados do formulário 7796 × 4 e executaremos tudo no Jupyter Lab.
Idioma: Python
Conjunto de dados
/ pacote: news.csv
3. Detecção da doença de Parkinson (detecção da doença de Parkinson)
Prossiga com a idéia do projeto de ciência de dados -
identificando a doença de Parkinson com o XGBoost .

Começamos a usar a Data Science para melhorar os serviços e os serviços de saúde - se conseguirmos prever doenças em um estágio inicial, teremos muitos benefícios. Portanto, nesta idéia do projeto Data Science, aprenderemos como detectar a doença de Parkinson usando Python. É uma doença progressiva e neurodegenerativa do sistema nervoso central que afeta os movimentos e causa tremores e rigidez. Afeta os neurônios produtores de dopamina no cérebro e a cada ano afeta mais de 1 milhão de pessoas na Índia.
Idioma: Python
Conjunto de dados
/ pacote: conjunto de dados UCI ML Parkinsons
Projetos de Data Science de média complexidade4. Reconhecimento de Emoção de Fala
Confira a implementação completa do projeto de amostra Data Science -
Speech Recognition with Librosa .

Vamos agora aprender como usar bibliotecas diferentes. Este projeto de ciência de dados usa librosa para reconhecimento de fala. SER é o processo de determinar emoções e estados afetivos da fala. Como usamos o tom e o tom para expressar emoções na voz, o SER é relevante. Mas, como as emoções são subjetivas, a anotação de sons é uma tarefa assustadora. Usaremos as funções mfcc, chroma e mel e usaremos o conjunto de dados RAVDESS para reconhecer emoções. Criaremos um classificador MLPC para este modelo.
Idioma: Python
Conjunto de dados
/ pacote: conjunto de dados RAVDESS
5. Detecção de Gênero e Idade
Surpreenda os empregadores com o mais recente projeto de Ciência de Dados -
Determinação de Gênero e Idade com o OpenCV .

Esta é uma ciência de dados interessante com Python. Usando apenas uma imagem, você aprenderá a prever o sexo e a idade de uma pessoa. Neste artigo, apresentaremos o Computer Vision e seus princípios. Construiremos uma
rede neural convolucional e usaremos modelos treinados por Tal Hassner e Jill Levy para o conjunto de dados do Adience. Ao longo do caminho, usaremos alguns arquivos .pb, .pbtxt, .prototxt e .caffemodel.
Idioma: Python
Conjunto de dados
/ pacote: Adience
6. Análise de Dados Uber
Veja a implementação completa do projeto Source Science Data Science, o
Uber Data Analysis Project em R.
Este é um projeto de visualização de dados com o ggplot2, no qual usaremos o R e suas bibliotecas e analisaremos vários parâmetros. Usaremos o conjunto de dados do Uber Pickups em Nova York e criaremos visualizações para diferentes períodos do ano. Isso nos diz como o tempo afeta a viagem do cliente.
Idioma: R
Conjunto de dados
/ pacote: Uber Pickups in New York City
7. Detecção de sonolência do motorista
Melhore suas habilidades enquanto trabalha no Top Data Science Project -
um sistema de detecção de sono com o OpenCV & Keras .

A condução sonolenta é extremamente perigosa e todos os anos ocorrem cerca de mil acidentes devido ao fato de os motoristas adormecerem enquanto dirigem. Neste projeto Python, criaremos um sistema que pode detectar drivers sonolentos e notificá-los com um sinal sonoro.
Este projeto é implementado usando Keras e OpenCV. Usaremos o OpenCV para detectar o rosto e os olhos e, com Keras, classificaremos o estado do olho (aberto ou fechado) usando técnicas de redes neurais profundas.
8. Chatbot
Crie um
chatbot usando Python e dê um passo à frente em sua carreira -
Chatbot with NLTK & Keras .

Os chatbots são parte integrante do negócio. Muitas empresas precisam oferecer serviços a seus clientes, e esse serviço exige muito trabalho, tempo e esforço. Os chatbots podem automatizar a maioria das interações com os clientes, respondendo a algumas das perguntas mais comuns dos clientes. Existem basicamente dois tipos de chatbots: domínio específico e domínio aberto. Um bot de bate-papo específico do domínio é frequentemente usado para resolver um problema específico. Portanto, você precisa configurá-lo para funcionar efetivamente em seu campo. Os bots de bate-papo em domínio aberto podem ser solicitados a qualquer pergunta; portanto, é necessária uma enorme quantidade de dados para treiná-los.
Conjunto de dados
: arquivo json de intenções
Idioma: Python
Projetos avançados de ciência de dados9. Gerador de Legenda de Imagem
Confira a implementação completa do projeto com o código-fonte -
Image Caption Generator with CNN & LSTM .

A descrição do que está na imagem é uma tarefa fácil para as pessoas, mas para os computadores, uma imagem é apenas um conjunto de números que representam o valor da cor de cada pixel. Esta é uma tarefa difícil para computadores. Entender o que está na imagem e criar uma descrição em idioma natural (por exemplo, em inglês) é outra tarefa difícil. Este projeto utiliza técnicas de exploração aprofundadas nas quais implementamos uma Rede Neural Revolucionária (CNN) com uma Rede Neural Recorrente (LSTM) para criar um gerador de descrição de imagem.
Conjunto de dados: Flickr 8K
Idioma: Python
Estrutura: Keras
10. Detecção de fraude no cartão de crédito (definição de fraude no cartão de crédito)
Faça o seu melhor trabalhando na idéia do projeto Data Science -
detectando fraudes no cartão de crédito usando o aprendizado de máquina .

Até agora, você começou a entender métodos e conceitos. Vamos para alguns projetos avançados de ciência de dados. Neste projeto, usaremos a linguagem R com algoritmos como
árvores de decisão , regressão logística, redes neurais artificiais e o classificador de aumento de gradiente. Usaremos um conjunto de dados de transação com cartão para classificar as transações com cartão de crédito como fraudulentas e genuínas. Vamos selecionar modelos diferentes para eles e criar curvas de desempenho.
Idioma: R
Conjunto de dados
/ pacote: conjunto de dados de transações de cartão
11. Sistema de Recomendação de Filmes
Aprenda a implementar o melhor projeto de ciência de dados com código-fonte -
sistema de recomendação de filmes em R
Neste projeto de ciência de dados, usaremos R para cumprir as recomendações do filme através do aprendizado de máquina. O sistema de recomendação envia sugestões aos usuários através de um processo de filtragem com base nas preferências de outros usuários e no histórico de navegação. Se A e B gostam de Sozinho em Casa e B gosta de Meninas Malvadas, você pode oferecer A - elas também podem gostar. Isso permite que os clientes interajam com a plataforma.
Idioma: R
Conjunto de dados
/ pacote: conjunto de dados MovieLens
12. Segmentação de Clientes
Impressione os empregadores com um projeto de ciência de dados (incluindo código fonte) -
Segmentação de clientes usando o Machine Learning .

A segmentação de clientes é um aplicativo popular de
aprendizado não supervisionado . Usando o cluster, as empresas definem segmentos de clientes para trabalhar com uma base de usuários em potencial. Eles dividem os clientes em grupos de acordo com características comuns, como sexo, idade, interesses e hábitos de consumo, para que possam vender efetivamente seus produtos a cada grupo. Usaremos
agrupamentos K-means , além de visualizar a distribuição por gênero e idade. Em seguida, analisamos sua renda anual e nível de despesa.
Idioma: R
Conjunto de dados
/ pacote: conjunto de dados Mall_Customers
13. Classificação do câncer de mama
Veja a implementação completa do projeto Data Science em Python -
Classificação do câncer de mama com aprendizado profundo .

Voltando à contribuição médica da ciência de dados, vamos aprender como detectar o câncer de mama usando Python. Usaremos o conjunto de dados IDC_regular para detectar carcinoma invasivo do ducto, a forma mais comum de câncer de mama. Desenvolve-se nos dutos de leite, penetrando no tecido fibroso ou gorduroso da glândula mamária fora do ducto. Nesta idéia de um projeto científico de coleta de dados, usaremos o
Deep Learning e a biblioteca Keras para classificação.
Idioma: Python
Conjunto de dados
/ pacote: IDC_regular
14. Reconhecimento de sinais de trânsito
Alcançando precisão em tecnologia autônoma com o projeto de
reconhecimento de sinais da Data Science
usando CNN Open Source.

Sinais de trânsito e regras de trânsito são muito importantes para todos os motoristas para evitar acidentes. Para seguir a regra, primeiro você precisa entender como é um sinal de estrada. Uma pessoa deve aprender todos os sinais de trânsito antes de ter o direito de dirigir qualquer veículo. Mas agora o número de veículos autônomos está crescendo e, em um futuro próximo, as pessoas não poderão mais controlar a máquina de forma independente. No projeto "Reconhecimento de sinais de trânsito", você aprenderá como o programa pode reconhecer o tipo de sinais de trânsito aceitando uma imagem como sinal de entrada. A Lista de verificação de reconhecimento de sinal de estrada alemã (GTSRB) é usada para construir uma rede neural profunda para reconhecer a classe à qual o sinal de estrada pertence. Também criamos uma interface gráfica simples para interagir com o aplicativo.
Idioma: Python
Conjunto de dados
: GTSRB (Referência de Reconhecimento de Sinais de Tráfego na Alemanha)
Ler mais

Leia também o blog
Empresa EDISON:
20 bibliotecas para
aplicação iOS espetacular