إليك ترجمة لمقال من مدونة
Seattle Data Guy . في ذلك ، حدد المؤلفون الموارد الخمسة الأكثر شعبية لمعالجة البيانات الكبيرة في الوقت الحالي.

اليوم ، تتعامل أي شركة ، بغض النظر عن حجمها وموقعها ، بطريقة أو بأخرى مع البيانات. إن استخدام المعلومات كمورد ثمين يعني بدوره استخدام أدوات خاصة لتحليل مؤشرات الأداء الرئيسية للشركة. يتزايد الطلب على التحليلات بما يتناسب مع أهميته ، والآن أصبح من الممكن تحديد الاتجاهات والتوقعات العالمية في هذا القطاع. وفقًا لشركة
International Data Corporation ، في عام 2019 ، أصبح سوق البيانات والتحليلات الكبير جاهزًا
لتجاوز العتبة
البالغة 189.1 مليار دولار .
أدوات تحليل البيانات
أدوات تحليل البيانات هي الموارد التي تدعم جمع البيانات وتحليلها وتصورها. إنها مفيدة لأي شركة تولي اهتمامًا لتفضيلات العملاء ، والبيانات ، واتجاهات السوق ، وما إلى ذلك. اليوم ، تكتسب العديد من الموارد العامة الفعالة والتي يمكن الوصول إليها شعبية ، مما يعقد اختيار المنصة الأكثر نجاحًا. هناك الكثير من الفرص لتحليل البيانات ، لكنني أريد أن أجد الخيار الأفضل.
في عالم تحليلات المعلومات ، تشارك كل من الشركات الكبيرة والصغيرة في جمع البيانات ومعالجتها وتحليلها تلقائيًا. لمساعدتك في اختيار النظام الأساسي الصحيح ، قمنا بتجميع قائمة من 5 أدوات تحليلية. هذه هي أفضل المنتجات الموجودة اليوم في هذا المجال. تم تقييمها بالمعايير التالية:
- وظائف
- سهولة التعلم (ودعم المجتمع) ،
- شعبية.
مع هذا الاختيار ، سيكون من الأسهل بالنسبة لك اختيار أفضل أداة تحليلية لعملك. لذلك ، إليك الموارد الخمسة الأكثر شعبية لمعالجة البيانات الكبيرة في الوقت الحالي:
- أباتشي كاساندرا
- اباتشي hadoop
- Elasticsearch
- سريع جدا
- Talend
1. اباتشي كاساندرا

تعد منصة
Apache Cassandra ، التي طورتها مؤسسة Apache Software Foundation في عام 2008 ، أداة لإدارة قواعد البيانات مجانية ويمكن لأي مستخدم الوصول إليها. يتم توزيع Apache Cassandra وتشغيله بواسطة NoSQL. تتم إدارة البيانات من خلال النماذج العنقودية التي تربط العديد من العقد في مراكز معالجة البيانات متعددة المكونات. في مصطلحات NoSQL ، يشار إلى أداة Apache Cassandra أيضًا باسم "قاعدة بيانات الأعمدة".
بادئ ذي بدء ، هذا النظام مطلوب في تطبيقات Big Data التي تعمل مع البيانات الحالية ، على سبيل المثال ، في أجهزة اللمس والشبكات الاجتماعية. بالإضافة إلى ذلك ، يستخدم Cassandra بنية غير مركزية ، مما يعني أن الوحدات الوظيفية ، مثل تجزئة البيانات ، الفشل ، النسخ المتماثل والقياس ، متوفرة بشكل منفصل ويتم تشغيلها في حلقة. لمزيد من المعلومات ، راجع
وثائق Apache Cassandra .
الملامح الرئيسية لأباتشي كاساندرا:
- القدرة على العمل على معدات ليست قوية جدا.
- بنية Cassandra ، التي تستند إلى تقنية Dynamo من Amazon وتنفذ نظام قاعدة بيانات قائم على المفاتيح.
- لغة الاستعلام كاساندرا.
- توزيع موسع وقابلية عالية للتطبيق.
- خطأ التسامح ونظام اللامركزية.
- الكتابة السريعة وقراءة البيانات.
- توافق ودعم قابل للتخصيص لإطار عمل MapReduce.
تنزيل:
http://cassandra.apache.org/download/2. اباتشي Hadoop
يعد Apache Hadoop أداة تحليلية متاحة للجمهور للتخزين الموزع ومعالجة حزم البيانات الكبيرة. بالإضافة إلى ذلك ، يوفر Apache Hadoop خدمات للوصول إلى البيانات باستخدام مجموعة من الأدوات المساعدة التي تتيح لك إنشاء شبكة من عدة أجهزة كمبيوتر. الهيكل الداخلي لـ Apache Hadoop مخلص لدعم مجموعات الكمبيوتر الكبيرة. لمزيد من المعلومات ، راجع
وثائق Apache Hadoop .
الملامح الرئيسية لأباتشي Hadoop:
- منصة عالية التدرج لتحليل البيانات على مستوى بيتابايت.
- القدرة على تخزين البيانات بأي شكل من الأشكال والتحليل أثناء القراءة (هناك اختيار التنسيقات المهيكلة والهيكلة جزئيًا وغير المهيكلة).
- فشل نادر في العقد في كتلة. ولكن حتى إذا حدث هذا ، فإن النظام يعيد تشغيل البيانات تلقائيًا ويعيد توجيه البيانات المتبقية.
- القدرة على التفاعل مع منصة أخرى لتحليل البيانات ذات الأولوية. لا تستخدم NoSQL فحسب ، بل استخدم أيضًا الحزم أو مربع حوار SQL أو الوصول إلى زمن الوصول المنخفض لمعالجة البيانات بشكل سلس.
- حل اقتصادي ، حيث تعمل المنصة المفتوحة على معدات غير مكلفة نسبيًا.
تنزيل:
https://hadoop.apache.org/releases.html3. ElasticSearch
Elasticsearch هي أداة قائمة على JSON للبحث عن البيانات الضخمة وتحليلها. يوفر Elasticsearch مكتبة تحليلات لامركزية والبحث على أساس بنية REST لحالات الاستخدام التي تم حلها. منصة Elasticsearch هي أيضًا سهلة الإدارة وموثوقة للغاية وتدعم قابلية التوسع الأفقية. لمزيد من المعلومات ، راجع
وثائق Elasticsearch .
ميزات Elasticsearch الرئيسية:
- قم ببناء ودعم برامج العميل بعدة لغات ، مثل Java و Groovy و NET و Python.
- واجهة برمجة تطبيقات بديهية لإدارة ومراقبة البيانات ، والتي توفر تحكمًا ووضوحًا كاملاً.
- القدرة على الجمع بين عدة أنواع من عمليات البحث ، بما في ذلك البحث الجغرافي والبحث المتري والبحث المنظم وغير المهيكل ، إلخ.
- باستخدام تنسيق API و JSON القياسي بناءً على بنية REST.
- قدرات تحليل البيانات المتقدمة بفضل التعلم الآلي وخيارات المراقبة وإعداد التقارير والأمن.
- تحليلات محدثة ومعلمات البحث لمعالجة البيانات الكبيرة باستخدام Elasticsearch-Hadoop.
تنزيل:
https://www.elastic.co/downloads/elasticsearch4. المعزوفة

يبرز Facebook
Presto نظرًا لسرعته المستقرة في معالجة البيانات التجارية. تعمل Presto كمكتبة استعلام غير مركزية تستند إلى SQL والتي يمكنها التفاعل تمامًا مع
Hadoop و MySQL وغيرها من الموارد. تستخدم Presto مخططًا لامركزيًا مفتوح المصدر للعمل مع استفسارات تحليلية تعاونية مقابل مصادر معلومات مختلفة. يوفر نظام Presto أيضًا تحليلات تفاعلية عالية الجودة ، وليس من دون سبب ، ويُعد أحد أفضل الأدوات المتاحة للجمهور لتحليل البيانات الكبيرة. لمزيد من المعلومات ، راجع
وثائق بريستو .
الميزات الرئيسية لبريستو:
- نظام متعدد المستخدمين متكيف يدعم التنفيذ المتزامن لعدة عمليات مع ذاكرة الجهاز ، الإدخال / الإخراج (I / O) والطلبات ذات الحمل الحوسبي المكثف على وحدة المعالجة المركزية.
- توفير تحسينات للأداء العالي ، بما في ذلك خيار مهم مثل إنشاء الشفرة.
- القدرة على التوسع والتكامل لإنشاء مجموعات متعددة.
- العديد من الإعدادات والتكوينات لدعم حالات الاستخدام المتعددة مع العديد من القيود وخيارات الأداء.
- القدرة على الجمع بين البيانات من مصادر متعددة في استعلام واحد وتنظيم تحليل البيانات الكبيرة.
- دعم معايير ANSI SQL (بالإضافة إلى ARRAY و JSON و MAP و ROW).
تنزيل:
https://prestodb.imtqy.com/download.html5. Talend

تعتبر
Talend واحدة من ممثلي جيل جديد من الأدوات في مجال البيانات الضخمة والتكامل السحابي. تظل Talend منصة مفتوحة توفر طريقتها الخاصة لدمج البيانات الكبيرة تلقائيًا وبسهولة. من بين الحلول الإضافية من Talend ، تجدر الإشارة إلى مراقبة جودة البيانات وإدارة البيانات وإنشاء شفرة مخصصة باستخدام معالج رسومي. لمزيد من المعلومات ، راجع
وثائق Talend .
الميزات الرئيسية لل Talend:
- زيادة نسبة الوقت إلى الكفاءة لخطط البيانات الكبيرة.
- رشيق DevOps لتسريع معالجة البيانات الكبيرة.
- تبسيط عمل Spark و MapReduce عن طريق إنشاء رموز خاصة بهم.
- بيانات أفضل من خلال التعلم الآلي ومعالجة معلومات اللغة الطبيعية.
- تبسيط عمليات ELT (استخراج وتحميل وتحويل) و ETL (استخراج وتحويل وتحميل) للبيانات الكبيرة.
- التكوين الأمثل لجميع العمليات في DevOps.
تنزيل:
https://www.talend.com/download/استنتاج
المعلومات تحكم العالم. لتصبح شركة رائدة ، تحتاج الشركة إلى تتبع البيانات وتكون قادرة على العمل معها بشكل صحيح. إذا كنت تخطط لتعزيز مركزك من خلال تحديد تفضيلات العملاء واتجاهات السوق ونماذج الأعمال الفعالة والآفاق المستقبلية ، فعليك التفكير بعناية في أدوات تحليل البيانات المتقدمة.
لا تغفل عن إحصائيات أنشطتك وتقلل من قيمتها. من المهم أيضًا فهم حركة بيانات بياناتك. باستخدام إحدى الأدوات التحليلية الموضحة أعلاه (أو أي أداة أخرى) ، ستتلقى الكثير من المعلومات الجديدة ويمكنك زيادة فرص النجاح بشكل كبير. لذلك ، من أجل التحرك في الاتجاه الصحيح ، لا تنس بياناتك ، وقم بتحليلها ، والعمل معها ، واحصل على النتيجة التي حصلت عليها في الخدمة.