بيانات تنوع الأنواع



لطالما كان مصطلح "البيانات الضخمة" مألوفًا ، ويفهم الكثيرون ما هو حقًا وكيفية استخدامه. في الوقت نفسه ، توصل متخصصو تحليل البيانات إلى العديد من التدرجات الأخرى للمعلومات التي تم جمعها ، اعتمادًا على الحجم والأهمية والملاءمة وما إلى ذلك. والمثير للدهشة أن البيانات يمكن أن تكون "سريعة" و "ساخنة" و "طويلة" و "بطيئة" وحتى "قذرة". على الرغم من أن هذه الحديقة التحليلية بأكملها لم تساعد العديد من المحللين في توقع قرار البريطانيين بمغادرة الاتحاد الأوروبي وانتصار ترامب بشكل صحيح.

البيانات الضخمة ليست مجرد كميات كبيرة جدًا من المعلومات ، ولكنها مزيج من الأساليب والأساليب والأدوات لمعالجة البيانات المختلفة للأحجام الهائلة.
البيانات الضخمة ليست مجرد معلومات ، إنها ظاهرة اجتماعية اقتصادية ، تدين بمظهرها إلى الحاجة إلى تحليل كميات ضخمة من المعلومات على نطاق عالمي.

تعتمد البيانات الضخمة على ثلاثة Vs: الحجم (الحجم) ، والتنوع (متنوعة) والسرعة (السرعة). مع الحجم ، كل شيء واضح. يعتمد التنوع على اتساع نطاق المصادر التي تغذي قاعدة البيانات. والسرعة بشكل عام هي المؤشر الرئيسي للعالم الحديث ، والذي لا يتوقف حتى لثانية واحدة.

ولكن هل يمكن ، على سبيل المثال ، اعتبار استطلاعات "البيانات الضخمة" ، حتى لو كانت تغطي آلاف الأشخاص؟ كمية المعلومات التي يمكن الحصول عليها من مختلف الاستطلاعات كبيرة جدًا ، ولكنها لا تزال غير كافية ، لذا يمكن عزوها بدلاً من ذلك إلى " متوسط ​​البيانات ". ربما ، إذا كانت تحليلات ما قبل الانتخابات غطت الملايين من المستجيبين ، فستكون هذه بالفعل "بيانات كبيرة". يمكن أن تتكون البيانات الضخمة أيضًا من طوب البيانات الصغيرة .

من الاتجاهات السائدة اليوم " البيانات السريعة ". في العالم الحديث ، كل شيء يحدث بسرعة البرق. في التطبيقات والشبكات الاجتماعية ، لم تعد المعلومات التي يبلغ عمرها من ساعة إلى ساعتين ذات صلة ، كل ثانية على المحك. البيانات السريعة مهمة للتطبيقات المصرفية ، ولتطبيقات الشبكات الاجتماعية ، وخاصة للمراسلة الفورية. في كل ثانية ، يتلقى المستخدمون إشعارات جديدة ، بناءً على ذلك يتخذون قرارات مهمة.

من أجل تجميع " البيانات البطيئة " ، سيستغرق الأمر الكثير من الوقت. على عكس البيانات السريعة ، التي يمكن الحصول عليها باستخدام الاستطلاع الفوري ، تتراكم ببطء ببطء حرفيا تلو الآخر. على سبيل المثال ، تقوم بإجراء مقابلات مع المشاركين في مؤتمر التنمية. تتم مقابلة كل مشارك قبل الحدث وأثناءه وبعده. ثم تتم معالجة جميع المعلومات وتلخيصها بعناية فائقة.

وعندما يبدأ قياس مدة التراكم لقرون ، ستتحول البيانات البطيئة إلى " طويلة ". منذ أن بدأ عصر البيانات الكبيرة في الآونة الأخيرة نسبيًا ، تحتاج البيانات الطويلة اليوم إلى البحث ليس على الإنترنت ، ولكن في الكتب والمخطوطات وعلى جدران الآثار المعمارية وأثناء الحفريات الأثرية. يمكن أن يكون الجانب التاريخي مهمًا جدًا لدراسة معينة!

على الرغم من أن البيانات ليست كعك ، إلا أنها يمكن أن تكون "ساخنة" و "باردة" . يعمل مبدأ "النضارة" هنا: المزيد من البيانات "الطازجة" - الساخنة - ذات قيمة أكبر. بالنسبة لمستخدم بسيط ، يعد التعليق الذي طال انتظاره في برنامج المراسلة مع "نضارة" لمدة 10 ثوانٍ أكثر أهمية من التعليق "البارد" الذي تم إنشاؤه قبل ساعتين. بالطبع ، قد يكون من المفيد ، على سبيل المثال ، توضيح بعض الحقائق من المراسلات: تذكر اسم الكتاب أو الفيلم الذي اقترحه صديق ، وحدد وقت الاجتماع ، وما إلى ذلك. يجب أن يكون الوصول إلى البيانات الساخنة دائم. لا نحتاج إلى بيانات باردة في كثير من الأحيان ، وبالتالي فإن الوصول المستمر إليها ليس بأي حال من الأحوال ضرورة أولى.

بالإضافة إلى تحديد الحجم أو السرعة أو درجة الحرارة ، يمكن أيضًا تصنيف البيانات حسب درجة نقائها. يشير مصطلح " قذر " إلى بيانات خاطئة أو تحتوي على معلومات غير مكتملة أو غير متسقة ، وعادة ما تكون غير مجدية عمليًا. تشكل البيانات القذرة معظم المعلومات المتراكمة في العديد من الشركات. في الوقت نفسه ، كنوز معلومات حقيقية - يمكن أن تأتي أفكار قيمة طويلة المدى هنا. ولكن هناك مشكلة كافية من البيانات القذرة. وفقًا لـ GovTechWorks ، تكلف هذه المعلومات غير المنظمة وغير ذات الصلة الشركات الأمريكية 6 مليارات دولار سنويًا!



يصف مصطلح " البيانات المسؤولة " الحالة التي يتم فيها جمع المعلومات الموثوقة فقط ، والتي يتم أخذها من مصادر تم التحقق منها وتخزينها وإرسالها وفقًا لإجراءات الأمان الصارمة.

" البيانات السميكة " هي الخطوة التالية بعد أن نتلاعب بالبيانات الضخمة: بالإضافة إلى الخصائص الكمية ، يتم أيضًا أخذ البيانات النوعية في الاعتبار. أي أن الأعداد الجافة وحدها في الأحجام الضخمة لم تعد كافية لفهم عميق للاتجاهات والعمليات الجارية ، ومن أجل اكتمال التحليل ، من الضروري مراعاة أشياء مثل العواطف البشرية ، على سبيل المثال.

البيانات الضخمة تحكم العالم


مع مجموعة متنوعة من التعريفات ، يطرح السؤال: ما هي هذه البيانات في الواقع؟ بادئ ذي بدء ، كبير ، عملاق! تتجمع البيانات الضخمة بالقرب منا ، وحولنا ، وحتى حول كل واحد منا. تشكل حبيبات الرمل الصغيرة ببطء وثبات.

تتبادر إلى ذهني العبارة الشهيرة "الأخ الأكبر يراقبك". تتشكل قواعد بيانات معينة من أجزاء المعلومات التي يتم جمعها في كل مكان وتستخدم للدراسات المختلفة والتلاعب بالرأي العام. في وقت لاحق ، يتم تحليل جميع المعلومات الواردة ، ويحدث ما يسمى إخبار الحظ عن نتائج الأحداث الهامة. يولد هذا الكهانة جميع أنواع التنبؤات حول انتصارات الانتخابات ، أو التغيرات في الوضع السياسي في البلاد ، أو التقلبات في شعبية فرقة موسيقية بين الشباب.



حصلت ثلاث حيتان كبيرة مثل Google و Facebook و Amazon على لقب Big Data. تلتقط هذه الشركات أصغر نقرة على الماوس لكل مستخدم لبواباتها. وكل هذا من أجل جمع المعلومات العالمية. هناك أمل كبير للبيانات الضخمة. يتوقع الباحثون تأثيرها الهائل على جميع قطاعات الحياة والنشاط البشري. هذا المصير لم يتجاوز الطب والعلوم.

كيف يمكن أن تكون البيانات الضخمة مفيدة في الطب؟ النقطة هنا ليست حتى كمية تراكم المعلومات ، ولكن طرق معالجتها وتحليلها. لقد بلغ حجم البيانات الطبية في عدد من المجالات منذ فترة طويلة حجمًا لا يمثل مشكلة فقط للمعالجة ، ولكن حتى للتخزين. وأبرز مثال على ذلك هو فك تشفير الجينوم البشري ، الذي يتكون من أكثر من 3 مليارات حرف. استغرق هذا العمل ، تحت رعاية منظمة الصحة الوطنية الأمريكية ، 13 سنة (من 1990 إلى 2003). في عام 2017 ، بفضل نمو قوة الكمبيوتر وتطوير الأدوات النظرية والبرمجيات ، ستستغرق مهمة مماثلة أسابيع أو حتى أيام.

تتمثل المهمة الرئيسية للبيانات الضخمة في الطب في إنشاء سجلات أكثر اكتمالًا وملاءمة للمعلومات الطبية مع إمكانية التبادل المتبادل ، مما سيسمح في كل مكان بتقديم سجلات إلكترونية كاملة للمرضى تحتوي على التاريخ الطبي بأكمله منذ لحظة الولادة. سيؤدي ذلك إلى تحسين عمل المرافق الصحية بشكل كبير.

ولكن دعونا نعود إلى آخر الأحداث المثيرة التي قلبت بالمعنى الحرفي للعالم الإنترنت رأساً على عقب - فوز دونالد ترامب في الانتخابات. على الرغم من أن فوزه كان مفاجأة لكثير من الناس ، بما في ذلك المحللين والاستراتيجيين السياسيين ، إلا أنه ربما يكون إلى حد كبير نتيجة منطقية للاستخدام المختص للبيانات الضخمة.

تدعي المجلة السويسرية Das Magazin أن هذا الانتصار قدمه زوج من العلماء ، Big Data والتكنولوجيا الحديثة. طور شخص ما Michal Kosinski نظامًا فريدًا يسمح لك بمعرفة الحد الأقصى من المعلومات حول الشخص فقط من خلال أمثاله في الشبكات الاجتماعية - ما يسمى "الاستهداف الدقيق". في وقت لاحق ، بدأ استخدام Kosinski ، ضد إرادته ، في الألعاب السياسية الكبرى. في وقت لاحق ، عمل النظام نفسه في الحملة الانتخابية لرجل أعمال أمريكي. لم يكن أحد يعرف عن علاقة السياسي بالشركة التحليلية ، لأنه على مكتب دونالد لا يوجد حتى جهاز كمبيوتر. لكن الرئيس الأمريكي الحالي خان نفسه. غرد في حسابه أنهم سيطلقون عليه قريباً السيد. خروج بريطانيا من الاتحاد الأوروبي.

في حملتها الانتخابية ، تصرفت هيلاري كلينتون بشكل تقليدي - خاطبت مجموعات مختلفة من سكان البلاد ، ووجهت نداءات منفصلة للسكان السود والنساء. تصرفت كامبردج أناليتيكا بشكل مختلف. بعد شراء قواعد بيانات للمقيمين في الولايات المتحدة ، درسوا كل منهم باستخدام طريقة OCEAN ، مع مراعاة التفضيلات والاهتمامات الشخصية. اعتمادًا على شخصيتهم وعقليتهم ، تم إرسال الرسائل إلى كل شخص من قواعد البيانات لحثهم على التصويت لعميل Cambridge Analytica ، وتم اختيار الأساس المنطقي اعتمادًا على الملف الشخصي للمرسل إليه الذي تم بناؤه سابقًا. وقد بنيت بعض الرسائل على مبدأ الجدل ، واقترحت التصويت لهيلاري.

Kosinski ، وهو عالم ابتكر نظامًا للاستهداف الدقيق ، حتى الآن يلاحظ فقط هذا الاستخدام لتطوره من الخارج. وفقًا لمايكل ، لم يكن خطأه أن الاختراع كان قنبلة في الأيدي الخطأ. يجب التأكيد على أن نشر المجلة السويسرية انتقد من قبل العديد من وسائل الإعلام الأوروبية ، التي تدعي أنها معلومات غير مثبتة.

أثناء مناقشة ما إذا كانت البيانات الضخمة أثرت حقًا على الانتخابات الأمريكية ، فإن هذه البيانات لا تزال قيد الدراسة والمنهجية. احذر من الشبكات الاجتماعية - من يدري لمن ستصوت لصالحه أو تجري لشرائه بعد تجربة تأثير البيانات الضخمة؟

Source: https://habr.com/ru/post/ar402345/


All Articles