كتاب "الحد الأدنى النظري للبيانات الضخمة". كل ما تريد معرفته عن البيانات الضخمة "

الصورة البيانات الضخمة هي عمل كبير اليوم. تتحكم المعلومات في حياتنا ، والاستفادة منها أمر أساسي لعمل المنظمات الحديثة. بغض النظر عن من أنت - رجل أعمال يعمل مع تحليلات ، مبرمج مبتدئ أو مطور ، فإن "الحد الأدنى النظري للبيانات" سيسمح لك بعدم الغرق في المحيط العاصف للتكنولوجيا الحديثة وفهم أساسيات صناعة معالجة البيانات الكبيرة الجديدة سريعة التطور.

هل تريد التعرف على البيانات الضخمة وكيفية التعامل معها؟ تم تخصيص فصل منفصل لكل خوارزمية ، والذي لا يشرح فقط المبادئ الأساسية للعمل ، ولكنه يعطي أيضًا أمثلة للاستخدام في المشكلات الحقيقية. عدد كبير من الرسوم التوضيحية والتعليقات البسيطة تجعل من السهل فهم الجوانب الأكثر تعقيدًا للبيانات الضخمة.

نحن نقدم لك التعرف على المقطع "المكونات الرئيسية"

تعد طريقة تحليل المكونات الرئيسية (CIM) طريقة للعثور على المتغيرات الأساسية (المعروفة باسم المكونات الرئيسية) التي تميز عناصر البيانات الخاصة بك بطريقة مثلى. هذه المكونات الرئيسية تعطي أكبر تناثر للبيانات (الشكل 2).

يمكن للمكون الرئيسي التعبير عن متغير واحد أو أكثر. على سبيل المثال ، يمكننا استخدام المتغير المفرد "فيتامين سي". بما أن فيتامين C موجود في الخضروات ولكن ليس في اللحم ، فإن الرسم البياني النهائي (العمود الأيسر في الشكل 3) سيوزع الخضروات ، ولكن كل اللحم سيكون في كومة واحدة.

لتوزيع منتجات اللحوم ، يمكننا استخدام الدهون كمتغير ثانٍ ، لأنها موجودة في اللحوم ، لكنها غائبة تقريبًا في الخضار. ومع ذلك ، نظرًا لأنه يتم قياس الدهون وفيتامين ج في وحدات مختلفة ، يجب علينا توحيدها قبل دمجها.

الصورة

التوحيد هو التعبير عن كل متغير في النسب المئوية ، التي تحول هذه المتغيرات إلى مقياس واحد ، مما يسمح لنا بدمجها لحساب متغير جديد:

فيتامين ج - دهون

بما أن فيتامين سي قد نشر الخضار بالفعل ، فإننا نطرح الدهون لتوزيع اللحم. سيساعدنا الجمع بين هذين المتغيرين على توزيع كل من الخضار ومنتجات اللحوم (العمود في المنتصف في الشكل 3).

الصورة

يمكننا تحسين الانتشار من خلال مراعاة الألياف الغذائية ، التي يختلف محتواها في الخضروات:

(فيتامين سي + الالياف الغذائية) - الدهون.

يعطينا هذا المتغير الجديد مبعثر البيانات الأمثل (العمود الأيمن في الشكل 3).
بينما حصلنا على المكونات الرئيسية في هذا المثال عن طريق التجربة والخطأ ، فإن CIM يمكنها القيام بذلك على أساس منهجي. سنرى كيف يعمل هذا في المثال التالي.

مثال: تحليل مجموعة الغذاء


باستخدام بيانات من وزارة الزراعة الأمريكية ، قمنا بتحليل الخصائص الغذائية لمجموعة عشوائية من الأطعمة من خلال النظر في أربعة متغيرات غذائية: الدهون والبروتينات والألياف الغذائية وفيتامين C. كما يمكن رؤيته في الشكل. 4 ، غالبًا ما توجد بعض العناصر الغذائية في الأطعمة معًا.

على وجه الخصوص ، تزداد مستويات الدهون والبروتينات في اتجاه واحد عكس الاتجاه الذي ترتفع فيه مستويات الألياف وفيتامين ج.يمكننا تأكيد افتراضاتنا من خلال التحقق من المتغيرات المرتبطة (انظر القسم 6.5). في الواقع ، وجدنا علاقة إيجابية كبيرة بين مستويات البروتينات والدهون (ص = 0.56) ، وبين مستويات الألياف الغذائية وفيتامين ج (ص = 0.57).

وبالتالي ، بدلاً من تحليل المتغيرات الغذائية الأربعة بشكل فردي ، يمكننا الجمع بين المتغيرات عالية الارتباط ، والحصول على متغيرين فقط للنظر فيها. لذلك ، يشار إلى طريقة المكون الرئيسي باسم تقنيات تقليل الأبعاد .

الصورة

بتطبيقه على مجموعة بيانات الطعام لدينا ، نحصل على المكونات الرئيسية الموضحة في الشكل. 5.

كل مكون رئيسي هو مزيج من المتغيرات الغذائية ، والتي يمكن أن تكون قيمتها إيجابية أو سلبية أو قريبة من الصفر. على سبيل المثال ، للحصول على المكون 1 لمنتج فردي ، يمكننا حساب ما يلي:

.55 (ألياف غذائية) + .44 (فيتامين سي) - .45 (دهون) -
.55 (بروتين)

الصورة

أي بدلاً من الجمع بين المتغيرات بالتجربة والخطأ ، كما فعلنا من قبل ، فإن طريقة المكون الأساسي نفسها تحسب الصيغ الدقيقة التي يمكننا من خلالها التمييز بين مواقفنا.

يرجى ملاحظة أن المكون الرئيسي 1 (PC1) يجمع على الفور بين الدهون والبروتينات ، والألياف الغذائية مع فيتامين C ، وهذه الأزواج متناسبة عكسياً.

بينما يميز PC1 اللحوم عن الخضار ، يحدد المكون 2 (PC2) بمزيد من التفصيل الفئات الفرعية الداخلية للحوم (بناءً على محتوى الدهون) والخضروات (بناءً على محتوى فيتامين سي). سنحصل على أفضل مبعثر للبيانات باستخدام كلا المكونين للرسم البياني (الشكل 6).

الصورة

تحتوي منتجات اللحوم على قيم منخفضة للمكون 1 ، لذلك يتم تركيزها على الجانب الأيسر من الرسم البياني ، على الجانب الآخر من الخضار. يُلاحظ أيضًا أنه من بين المنتجات غير النباتية ، فإن المحتوى المنخفض من الدهون من المأكولات البحرية ، وبالتالي ، فإن قيمة المكون 2 بالنسبة لهم أقل ، وهم أنفسهم يميلون إلى الجزء السفلي من الرسم البياني. وبالمثل ، فإن هذه الخضروات غير الخضراء لها قيم منخفضة للمكون 2 ، والتي يمكن رؤيتها في أسفل الرسم البياني على اليمين.

اختيار عدد المكونات . في هذا المثال ، يتم إنشاء أربعة مكونات رئيسية من خلال عدد المتغيرات الأولية في مجموعة البيانات. نظرًا لأن المكونات الرئيسية يتم إنشاؤها على أساس المتغيرات العادية ، فإن معلومات توزيع عناصر البيانات تقتصر على مجموعتها الأولية.

في الوقت نفسه ، للحفاظ على بساطة النتائج وقابليتها للتوسع ، يجب علينا اختيار المكونات الرئيسية القليلة الأولى فقط للتحليل والتصور. تختلف المكونات الرئيسية في كفاءة توزيع عناصر البيانات ، وأولها يفعل ذلك إلى أقصى حد. يتم تحديد عدد المكونات الرئيسية التي يجب أخذها في الاعتبار باستخدام الرسم البياني للشريحة ، الذي قمنا بفحصه في الفصل السابق.

يوضح الرسم البياني انخفاض كفاءة المكونات الرئيسية اللاحقة في تمييز عناصر البيانات. كقاعدة ، يتم استخدام كمية من المكونات الرئيسية التي تتوافق مع موضع الكسر الحاد في مؤامرة شري.

في الشكل. يقع الكسر 7 في حوالي مكونين. هذا يعني أنه على الرغم من أن ثلاثة مكونات رئيسية أو أكثر يمكن أن تفرق بين عناصر البيانات بشكل أفضل ، فإن هذه المعلومات الإضافية قد لا تبرر تعقيد الحل النهائي. كما يتبين من الرسم البياني الشرس ، فإن المكونين الأول والثاني يعطيان سبريد 70٪. يضمن استخدام عدد صغير من المكونات الرئيسية لتحليل البيانات أن المخطط مناسب للمعلومات المستقبلية.

الصورة

القيود


طريقة المكون الرئيسي هي طريقة مفيدة لتحليل مجموعات البيانات مع متغيرات متعددة. ومع ذلك ، فقد عيوب.

زيادة التوزيع إلى أقصى حد . ينطلق CIM من الافتراض المهم بأن تلك القياسات التي تعطي أكبر مبعثر هي الأكثر فائدة. ومع ذلك ، ليس هذا هو الحال دائمًا. من الأمثلة المضادة المعروفة مشكلة عد الفطائر في المكدس.

الصورة

لحساب عدد الفطائر ، نفصل واحدًا عن الآخر على طول المحور الرأسي (أي ارتفاع المكدس). ومع ذلك ، إذا كان المكدس صغيرًا ، فسيقرر MHC خطأ أن المحور الأفقي (قطر الفطيرة) سيكون أفضل مكون رئيسي ، نظرًا لحقيقة أنه في هذا القياس يمكنك العثور على مجموعة واسعة من القيم.

تفسير المكونات. تتمثل الصعوبة الرئيسية في CIM في أنه من الضروري تفسير المكونات التي تم إنشاؤها ، وأحيانًا تحتاج إلى المحاولة بجد لتوضيح سبب دمج المتغيرات بالطريقة المختارة.

ومع ذلك ، يمكن أن تساعدنا المعلومات العامة الأولية. في مثالنا ، تجمع المتغيرات الغذائية للمكونات الرئيسية المنتجات بمساعدة المعرفة الأولية حول فئاتها.

»يمكن العثور على مزيد من المعلومات حول الكتاب على موقع الناشر على الويب
» المحتويات
» مقتطفات

قسيمة خصم 20٪ للمتجولين - BigData

Source: https://habr.com/ru/post/ar428395/


All Articles