Aqui está a tradução de um artigo do blog
Seattle Data Guy . Nele, os autores identificaram os 5 recursos mais populares para o processamento de Big Data no momento.

Hoje, qualquer empresa, independentemente de seu tamanho e localização, de uma forma ou de outra lida com dados. O uso da informação como um recurso valioso, por sua vez, implica o uso de ferramentas especiais para a análise dos principais indicadores de desempenho da empresa. A demanda por análises está crescendo proporcionalmente à sua importância, e agora é possível determinar tendências e perspectivas globais nesse setor. De acordo com a
International Data Corporation , em 2019 o mercado de Big Data e análise está pronto para ultrapassar o limite de
US $ 189,1 bilhões .
Ferramentas de análise de dados
As ferramentas de análise de dados são recursos que dão suporte à coleta operacional, análise e visualização de dados. Eles são úteis para qualquer empresa que presta atenção às preferências do consumidor, dados, tendências de mercado, etc. Atualmente, muitos recursos públicos eficazes e acessíveis estão ganhando popularidade, o que complica a escolha da plataforma mais bem-sucedida. Existem muitas oportunidades para análise de dados, mas quero encontrar a melhor opção.
No mundo da análise de informações, grandes e pequenas empresas estão envolvidas na coleta, processamento e análise automáticos de dados. Para ajudar você a escolher a plataforma certa, compilamos uma lista das 5 principais ferramentas analíticas. Estes são os melhores produtos que existem hoje nesta área. Eles foram avaliados pelos seguintes critérios:
- funcionalidade
- facilidade de aprendizado (e apoio da comunidade),
- popularidade.
Com essa seleção, será mais fácil escolher a melhor ferramenta analítica para o seu negócio. Então, aqui estão os 5 recursos mais populares para o processamento de Big Data no momento:
- Apache cassandra
- Apache hadoop
- Elasticsearch
- Presto
- Talend
1. Apache Cassandra

A plataforma
Apache Cassandra , desenvolvida em 2008 pela Apache Software Foundation, é uma ferramenta de gerenciamento de banco de dados gratuita e acessível a qualquer usuário. O Apache Cassandra é distribuído e desenvolvido com o NoSQL. O gerenciamento de dados é realizado através de formulários de cluster, conectando vários nós nos centros de processamento de dados multicomponentes. Na terminologia NoSQL, a ferramenta Apache Cassandra também é chamada de "banco de dados de colunas".
Antes de tudo, esse sistema é procurado em aplicativos de Big Data que funcionam com dados atuais, por exemplo, em dispositivos de toque e redes sociais. Além disso, o Cassandra usa uma arquitetura descentralizada, o que implica que os módulos funcionais, como segmentação de dados, failover, replicação e dimensionamento, estejam disponíveis separadamente e executados em loop. Para obter mais informações, consulte a
documentação do
Apache Cassandra .
Principais recursos do Apache Cassandra:
- A capacidade de operar em equipamentos não muito potentes.
- Arquitetura Cassandra, que é baseada na tecnologia Dynamo da Amazon e implementa um sistema de banco de dados baseado em chave.
- Linguagem de consulta do Cassandra.
- Distribuição expandida e alta escalabilidade de aplicativos.
- Tolerância a falhas e sistema descentralizado.
- Gravação rápida e leitura de dados.
- Compatibilidade e suporte personalizáveis para a estrutura MapReduce.
Faça o download:
http://cassandra.apache.org/download/2. Apache Hadoop
O Apache Hadoop é uma ferramenta analítica disponível ao público para armazenamento distribuído e processamento de grandes pacotes de dados. Além disso, o Apache Hadoop fornece serviços para acessar dados usando um conjunto de utilitários que permitem construir uma rede de vários computadores. A estrutura interna do Apache Hadoop é fiel ao suporte a grandes clusters de computadores. Para obter mais informações, consulte a
documentação do
Apache Hadoop .
Principais recursos do Apache Hadoop:
- Plataforma altamente escalável para análise de dados em nível de petabyte.
- A capacidade de armazenar dados em qualquer formato e analisar durante a leitura (há uma escolha de formatos estruturados, parcialmente estruturados e não estruturados).
- Uma falha rara de nós em um cluster. Mas, mesmo que isso aconteça, o sistema reproduz automaticamente os dados e redireciona os dados residuais.
- Capacidade de interagir com outra plataforma prioritária de análise de dados. Use não apenas o NoSQL, mas também pacotes, SQL de diálogo ou acesso de baixa latência para um processamento de dados suave.
- Uma solução econômica, uma vez que a plataforma aberta opera com equipamentos relativamente baratos.
Faça o download:
https://hadoop.apache.org/releases.html3. ElasticSearch
O Elasticsearch é uma ferramenta baseada em JSON para pesquisar e analisar Big Data. O Elasticsearch fornece uma biblioteca analítica descentralizada e pesquisa com base na arquitetura REST para casos de uso resolvidos. A plataforma Elasticsearch também é fácil de gerenciar, altamente confiável e suporta escalabilidade horizontal. Para mais informações, consulte a
documentação do
Elasticsearch .
Principais recursos do Elasticsearch:
- Crie e dê suporte a programas clientes em várias linguagens, como Java, Groovy, NET e Python.
- Uma API intuitiva para gerenciar e monitorar dados, que fornece controle e visibilidade completos.
- A capacidade de combinar vários tipos de pesquisas, incluindo pesquisa geográfica, pesquisa métrica, pesquisa estruturada e não estruturada, etc.
- Usando API padrão e formato JSON com base na arquitetura REST.
- Recursos avançados de análise de dados graças ao aprendizado de máquina, opções de monitoramento, relatórios e segurança.
- Análises atualizadas e parâmetros de pesquisa para o processamento de Big Data usando o Elasticsearch-Hadoop.
Faça o download:
https://www.elastic.co/downloads/elasticsearch4. Presto

O Facebook
Presto se destaca devido à sua velocidade estável de processamento de dados comerciais. O Presto funciona como uma biblioteca de consultas baseada em SQL descentralizada que pode interagir perfeitamente com o
Hadoop , MySQL e outros recursos. O Presto usa um esquema descentralizado de código aberto para trabalhar com consultas analíticas colaborativas em várias fontes de informações. O sistema Presto também fornece análises interativas de alta qualidade, não sem razão, é considerada uma das melhores ferramentas publicamente disponíveis para análise de Big Data. Para mais informações, consulte a
documentação do
Presto .
Principais recursos do Presto:
- Sistema multiusuário adaptável que suporta a execução simultânea de várias operações com a memória da máquina, entrada / saída (E / S) e solicitações com intensa carga computacional na CPU.
- Fornecendo otimizações para alto desempenho, incluindo uma opção tão importante quanto a geração de código.
- A capacidade de expandir e integrar ainda mais para criar vários clusters.
- Várias definições para suportar vários casos de uso com várias limitações e opções de desempenho.
- A capacidade de combinar dados de várias fontes em uma consulta e organizar a análise de Big Data.
- Suporte para padrões ANSI SQL (além de ARRAY, JSON, MAP e ROW).
Faça o download:
https://prestodb.imtqy.com/download.html5. Talendo
Talend é considerado uma das novas gerações de ferramentas no campo de Big Data e integração em nuvem. O Talend continua sendo uma plataforma aberta que oferece seu próprio caminho para integrar de forma automática e fácil o Big Data. Entre as soluções adicionais da Talend, vale destacar o controle de qualidade dos dados, o gerenciamento de dados e a geração de código personalizado usando um assistente gráfico. Para mais informações, consulte a
documentação do
Talend .
Principais recursos do Talend:
- Maior taxa de tempo de eficiência para planos de Big Data.
- DevOps ágil para processamento acelerado de Big Data.
- Simplificação do trabalho do Spark e do MapReduce, gerando seus próprios códigos.
- Melhores dados através do aprendizado de máquina e processamento de informações em linguagem natural.
- Simplificação dos processos ELT (Extrair, Carregar e Transformar) e ETL (Extrair, Transformar e Carregar) para Big Data.
- Configuração ideal de todos os processos no DevOps.
Faça o download:
https://www.talend.com/download/Conclusão
A informação domina o mundo. Para se tornar um líder, a empresa precisa rastrear os dados e poder trabalhar com eles corretamente. Se você planeja fortalecer sua posição identificando preferências do consumidor, tendências de mercado, modelos de negócios eficazes e perspectivas futuras, considere cuidadosamente as ferramentas avançadas de análise de dados.
Não perca de vista as estatísticas de suas atividades e subestime seu valor. Também é importante entender o tráfego dos dados da sua empresa. Usando uma das ferramentas analíticas apresentadas acima (ou qualquer outra), você receberá muitas informações novas e poderá aumentar significativamente suas chances de sucesso. Portanto, para avançar na direção certa, não se esqueça dos seus dados, analise-os, trabalhe com eles e obtenha o resultado que você tem em serviço.