قضايا تحليل البيانات الكبيرة

ما هي تحديات تحليل البيانات الكبيرة


تقوم البيانات الكبيرة بإنشاء ميزات لا يتم مشاركتها بواسطة مجموعات البيانات التقليدية. هذه الميزات تخلق مشاكل كبيرة لتحليل البيانات وتحفز تطوير أساليب إحصائية جديدة. بخلاف مجموعات البيانات التقليدية ، حيث يكون حجم العينة عادة أكبر من القياس ، تتميز البيانات الكبيرة بحجم عينة ضخم وبعد كبير. أولاً ، سنناقش تأثير أحجام العينات الكبيرة على فهم عدم التجانس: من ناحية ، تسمح لنا أحجام العينات الكبيرة بالكشف عن الأنماط المخفية المرتبطة بمجموعات فرعية صغيرة من السكان والعمومية الضعيفة بين جميع السكان. من ناحية أخرى ، يتطلب نمذجة التجانس الداخلي للبيانات الضخمة أساليب إحصائية أكثر تطوراً. ثانياً ، سوف نناقش العديد من الظواهر الفريدة المرتبطة بالأبعاد العالية ، بما في ذلك تراكم الضوضاء ، الارتباط الخاطئ ، والتفاعل العشوائي. هذه الميزات الفريدة تبطل الإجراءات الإحصائية التقليدية.

تنوع


غالبًا ما يتم إنشاء البيانات الكبيرة من خلال الجمع بين مصادر بيانات متعددة تتوافق مع مجموعات فرعية مختلفة. قد تعرض كل مجموعة فرعية بعض الميزات الفريدة التي لا يشاركها الآخرون. في الظروف الكلاسيكية ، عندما يكون حجم العينة صغيرًا أو معتدلًا ، عادةً ما يتم تصنيف نقاط البيانات من المجموعات الفرعية الصغيرة على أنها "انحرافات" ، ويصعب بشكل نموذجي تصنيفها نظرًا لعدم كفاية عدد المشاهدات. ومع ذلك ، في عصر البيانات الكبيرة ، يسمح لنا حجم العينة الكبير بفهم عدم التجانس بشكل أفضل من خلال تسليط الضوء على دراسات مثل دراسة العلاقة بين بعض المتغيرات المشتركة (مثل الجينات أو SNPs) والنتائج النادرة (مثل الأمراض النادرة أو الأمراض في مجموعات صغيرة) لماذا تفيد بعض العلاجات (مثل العلاج الكيميائي) أحد السكان وتضر الآخرين. لتوضيح هذه النقطة بشكل أفضل ، نقدم النموذج التالي للسكان:

عرض $$ $ λ1p1 (y؛ θ1 (x)) + ⋯ + λmpm (y؛ θm (x))، p1p1 (y؛ θ1 (x)) + ⋯ + λmpm (y؛ θm (x))، ( 1) $$ عرض $$


حيث تمثل λj ≥ 0 جزء المجموعة الفرعية jth ، pj (y؛ θj (x)) هو توزيع الاحتمال لاستجابة المجموعة الفرعية jth ، بالنظر إلى المتغيرات المشتركة لـ x مع θj (x) كمتجه للمعلمة. في الممارسة العملية ، نادراً ما يتم ملاحظة عدد كبير من السكان ، أي أن ،j صغيرة جدًا. عندما يكون حجم العينة n معتدلاً ، قد يكون nλj صغيرًا ، مما يجعل من المستحيل اشتقاق المعلمات المعتمدة على المتغير θj (x) بسبب نقص المعلومات. ومع ذلك ، نظرًا لأن البيانات الكبيرة لها حجم عينة كبير n ، يمكن أن يكون حجم العينة nλj لمجموعة السكان jth كبيرًا إلى حد ما ، حتى إذا كانت λj صغيرة جدًا. هذا يتيح لنا أن نستخلص بمزيد من الدقة استنتاج حول معلمات الفئة السكانية الفرعية θj (·). باختصار ، تتمثل الميزة الرئيسية للبيانات الكبيرة في فهم عدم تجانس المجموعات السكانية الفرعية ، مثل فوائد بعض العلاجات الشخصية غير الممكنة مع حجم عينة صغير أو متوسط.

البيانات الكبيرة تسمح لنا أيضًا ، بسبب حجم العينات الكبير ، بتحديد مجتمع ضعيف بين جميع السكان. على سبيل المثال ، قد يكون من الصعب تقييم فائدة القلب من كوب واحد من النبيذ الأحمر يوميًا بدون حجم عينة كبير. وبالمثل ، لا يمكن تقييم المخاطر الصحية المرتبطة بالتعرض لبعض العوامل البيئية بشكل أكثر إقناعا عندما تكون أحجام العينات كبيرة بدرجة كافية.

بالإضافة إلى الفوائد المذكورة أعلاه ، يشكل عدم تجانس البيانات الكبيرة أيضًا تحديات كبيرة للاستدلال الإحصائي. يتطلب اشتقاق نموذج الخليط في (1) لمجموعات البيانات الكبيرة طرقًا إحصائية وحسابية معقدة. في القياسات الصغيرة ، يمكن استخدام الطرق القياسية مثل خوارزمية الانتظار إلى أقصى حد لنماذج الخليط النهائي. ومع ذلك ، على نطاق واسع ، نحتاج إلى تبسيط إجراءات التقييم بعناية لتجنب الضجيج الزائد أو تراكم الضوضاء وتطوير خوارزميات حسابية جيدة.

تراكم الضوضاء


يتطلب تحليل البيانات الضخمة منا تقييم العديد من المعلمات والتحقق منها في نفس الوقت. تتراكم أخطاء التقدير عندما تعتمد قاعدة القرار أو التنبؤ على عدد كبير من هذه المعلمات. يعد تأثير تراكم الضوضاء خطيرًا بأبعاد كبيرة وقد يهيمن على الإشارات الحقيقية. وعادة ما يتم التعامل مع هذا من خلال افتراض sparseness.

خذ على سبيل المثال تصنيفًا متعدد الأبعاد. سوء التصنيف يرجع إلى وجود العديد من نقاط الضعف التي لا تسهم في الحد من أخطاء التصنيف. على سبيل المثال ، ضع في اعتبارك مشكلة التصنيف عندما تأتي البيانات من فئتين:

عرض $$ $ X1 و Y1 و ........ Xn∼Nd (μ1 و Id) و Yn∼Nd (،2 و Id) .X1 و ... و Xn∼Nd (،1 و Id) و Y1 و ... و Yn∼ الثانية (،2 ، معرف). (2) $$ عرض $$


نريد أن نبني قاعدة تصنيف تصنف ملاحظة جديدة Z∈RdZ∈Rd إما في الدرجة الأولى أو الثانية. لتوضيح تأثير تراكم الضوضاء في التصنيف ، قمنا بتعيين n = 100 و d = 1000. حددنا μ1 = 0μ1 = 0 و μ2 على شكل متفرق ، أي السجلات 10 الأولى فقط من 2 هي غير صفرية بقيمة 3 ، وجميع السجلات الأخرى هي صفر. يوضح الشكل 1 أول عنصرين رئيسيين باستخدام أول عنصر m = 2 و 40 و 200 وما يصل إلى 1000 عنصر. كما هو موضح في هذه الرسوم البيانية ، عندما تكون m = 2 ، نحصل على درجة عالية من التمييز. ومع ذلك ، تصبح القوة التمييزية منخفضة للغاية عندما تكون m أكبر من اللازم بسبب تراكم الضوضاء. أول 10 وظائف تساهم في التصنيف ، في حين أن البقية لا. لذلك ، عندما لا تتجاوز m> 10 ، لا تستقبل الإجراءات أي إشارات إضافية ، ولكن تتراكم الضوضاء: كلما زاد m ، زاد الضوضاء المتراكمة ، مما أدى إلى تفاقم إجراء التصنيف بسبب الأبعاد. عند m = 40 ، تعوض الإشارات المتراكمة الضوضاء المتراكمة ، بحيث لا يزال للمكونين الرئيسيين الأولين قدرة جيدة على التعرف. عندما تكون m = 200 ، تتجاوز الضوضاء المتراكمة كسب الإشارة.

تحفز المناقشة أعلاه استخدام النماذج المتناثرة واختيار المتغيرات للتغلب على تأثير تراكم الضوضاء. على سبيل المثال ، في نموذج التصنيف (2) ، بدلاً من استخدام جميع الوظائف ، يمكننا اختيار مجموعة فرعية من الميزات التي تحقق أفضل نسبة إشارة إلى الضوضاء. مثل هذا النموذج المتفرق يوفر أعلى كفاءة التصنيف. بمعنى آخر ، يلعب اختيار المتغيرات دورًا رئيسيًا في التغلب على تراكم الضوضاء في تصنيف الانحدار وتوقعه. ومع ذلك ، فإن اختيار المتغيرات ذات الأبعاد الكبيرة يمثل تحديًا بسبب الارتباط الخاطئ ، والتداخل العشوائي ، وعدم التجانس ، وأخطاء القياس.

علاقة خاطئة


تحتوي الأبعاد العالية أيضًا على ارتباط خاطئ ، مع الإشارة إلى حقيقة أن العديد من المتغيرات العشوائية غير المرتبطة يمكن أن يكون لها ارتباطات عينة عالية بأبعاد كبيرة. يمكن أن يؤدي الارتباط الخاطئ إلى اكتشافات علمية خاطئة واستنتاجات إحصائية غير صحيحة.

ادرس مشكلة تقدير معامل المتجه β للنموذج الخطي

عرض $$ $$ y = Xβ + ϵ ، فار (ϵ) = I2Id ، y = Xβ + ϵ ، فار (ϵ) = I2Id ، (3) $$ عرض $$


حيث يمثل y∈Rny∈Rn متجه الاستجابة ، X = [x1 ، ... ، xn] T∈Rn × dX = [x1 ، ... ، xn] يمثل T∈Rn × d مصفوفة الإسقاط ،، ∈Rnϵ∈Rn يمثل المتجه العشوائي المستقل الضجيج والمعرف هو مصفوفة الهوية d × d. للتعامل مع مشكلة تراكم الضوضاء ، عندما يكون الحجم d مشابهًا لحجم العينة n أو أكبر منه ، يُفترض أن الإجابة تعطي فقط عددًا صغيرًا من المتغيرات ، أي متجه متفرق. وفقًا لافتراض تباعد المسافات هذا ، يمكن اختيار متغير لتجنب تراكم الضوضاء وتحسين أداء التنبؤ وتحسين قابلية تفسير نموذج ذي تمثيل متحفظ.

بالنسبة للأحجام الكبيرة ، حتى بالنسبة لطراز بسيط مثل (3) ، يكون اختيار المتغيرات صعبًا بسبب وجود ارتباط خاطئ. على وجه الخصوص ، مع الأبعاد العالية ، يمكن ربط المتغيرات المهمة بقوة مع العديد من المتغيرات الخاطئة التي لا ترتبط ارتباطًا علميًا. النظر في مثال بسيط يوضح هذه الظاهرة. اسمحوا x1 ، ... ، xn أن تكون ملاحظات مستقلة عن متجه عشوائي غاوسي مد الأبعاد X = (X1 ، ... ، Xd) T∼Nd (0 ، Id) X = (X1 ، ... ، Xd) T∼Nd (0، Id) ⁠ . نكرر محاكاة البيانات مع n = 60 و d = 800 و 6400 1000 مرة. يوضح الشكل 2 أ التوزيع التجريبي لمعامل ارتباط العينة المطلق الأقصى بين المتغير الأول ، ويتم تحديد الباقي على أنه

عرض $$ $$ rˆ = maxj≥2 | Corrˆ (X1، Xj) |، r ^ = maxj≥2 | Corr ^ (X1، Xj) |، (4) $$ display $$


حيث Corr ^ (X1، Xj) Corr ^ (X1، Xj) هو ارتباط العينة بين المتغيرات X1 و Xj. نرى أن الحد الأقصى للارتباط المطلق للعينة يصبح أعلى مع زيادة البعد.

بالإضافة إلى ذلك ، يمكننا حساب الحد الأقصى للارتباطات المتعددة المطلقة بين مجموعات X1 والمجموعات الخطية للعديد من المتغيرات الجانبية غير ذات الصلة:

عرض $$ $ Rˆ = الحد الأقصى | S | = 4max {βj} 4j = 1∣∣∣∣Corrˆ (X1، ∑j∈SβjXj) ∣∣∣∣.R ^ = max | S | = 4max {βj} j = 14 | Corr ^ (X1، ∑j∈SβjXj) |. (5) $$ عرض $$


باستخدام التكوين القياسي ، يتم إعطاء التوزيع التجريبي للمعامل المطلق الأقصى لارتباط العينة بين X1 و ∑j ∈ SβjXj ، حيث تمثل S أي مجموعة فرعية بالحجم الرابع من {2 ، ... ، d} و βj هي معامل انحدار المربعات الصغرى Xj عندما تتراجع X1 على {Xj} j ∈ S. مرة أخرى ، نرى أنه على الرغم من أن X1 مستقلة تمامًا عن X2 و ... و Xd ، فإن العلاقة بين X1 وأقرب توليفة خطية من أي أربعة متغيرات من {Xj} j ≠ 1 إلى X1 يمكن أن تكون عالية جدًا.

الارتباط الخاطئ له تأثير كبير على اختيار المتغيرات ويمكن أن يؤدي إلى الاكتشافات العلمية الخاطئة. دع XS = (Xj) j ∈ S عبارة عن متجه عشوائي مفهرسة بواسطة S ، وليكن SˆS ^ المجموعة المحددة التي لها علاقة طفيلية أعلى مع X1 ، كما في الشكل. 2. على سبيل المثال ، عندما يكون n = 60 و d = 6400 ، نرى أن X1 لا يمكن تمييزها عمليًا عن XSXS ^ لمجموعة SS ^ | Sˆ | = 4 | S ^ | = 4⁠. إذا كان X1 يمثل مستوى تعبير الجين المسؤول عن المرض ، فلا يمكننا التمييز بينه وبين الجينات الأربعة الأخرى في SS ^ ، التي تتمتع بقوة تشخيصية مماثلة ، على الرغم من أنها ، من وجهة نظر علمية ، لا تهم.

بالإضافة إلى اختيار المتغيرات ، يمكن أن يؤدي الارتباط الخاطئ أيضًا إلى استنتاج إحصائي غير صحيح. نفسر ذلك من خلال التفكير مرة أخرى في نفس النموذج الخطي كما في (3). هنا ، نود تقدير الخطأ القياسي σ للباقي ، والذي يظهر بشكل ملحوظ في الاستنتاجات الإحصائية لمعاملات الانحدار ، واختيار النموذج ، واختبار المراسلات ، والانحدار الهامشي. دع SˆS ^ هو مجموعة المتغيرات المحددة ، و PSˆPS ^ تكون مصفوفة الإسقاط على مساحة العمود XSˆXS ^ ⁠. التقدير القياسي للتباين المتبقي على أساس المتغيرات المحددة:

عرض $$ $ σˆ2 = yT (في - PSˆ) yn− | Sˆ | .σ ^ 2 = yT (في - PS ^) yn− | S ^ |. (6) $$ عرض $$


يكون المقيِّم (6) محايدًا عندما لا يتم تحديد المتغيرات من البيانات ويكون النموذج صحيحًا. ومع ذلك ، يكون الموقف مختلفًا تمامًا عند تحديد المتغيرات بناءً على البيانات. على وجه الخصوص ، أظهر المؤلفون أنه عندما يكون هناك العديد من المتغيرات الخاطئة ، يتم التقليل بشكل خطير من σ2 ، وهذا يؤدي إلى استنتاجات إحصائية خاطئة ، بما في ذلك اختيار النماذج أو الاختبارات ذات الأهمية ، والاكتشافات العلمية الخاطئة ، مثل البحث عن الجينات الخاطئة للآليات الجزيئية. كما أنها توفر طريقة التحقق المتبادل المتقدمة لتخفيف المشكلة.

التجانس العشوائي


الذاتية الذاتية هي مشكلة أخرى خفية تنشأ عن البعد عالية. في إعداد الانحدار ، Y = ∑dj = 1βjXj + εY = ∑j = 1dβjXj + ε⁠ ، يعني مصطلح "endogeneity" أن بعض المتنبئين {Xj} يرتبطون بالضوضاء المتبقية ε. نموذج متفرق المعتاد يفترض

عرض $$ $ Y = ∑jβjXj + ε و E (εXj) = 0 لـ j = 1 و ... و d و Y = ∑jβjXj + ε و E (εXj) = 0 لـ j = 1 و ... و d ، (7) $$ عرض $$


مع مجموعة صغيرة S = {j: βj ≠ 0}. يعتبر الافتراض الخارجي (7) أن الضجيج المتبقي with لا يرتبط بكل المتنبئين أمر بالغ الأهمية لموثوقية معظم الأساليب الإحصائية الحالية ، بما في ذلك الاتساق في اختيار المتغيرات. على الرغم من أن هذا الافتراض يبدو بريئًا ، إلا أنه من السهل انتهاكه بأبعاد كبيرة ، لأن بعض المتغيرات {Xj} ترتبط بشكل عشوائي بـ ε ، مما يجعل معظم الإجراءات متعددة الأبعاد غير صالحة من الناحية الإحصائية.

لشرح مشكلة التداخل الذاتي بمزيد من التفاصيل ، افترض أن الإجابة المجهولة Y مرتبطة بالمتغيرات المشتركة الثلاثة على النحو التالي:

عرض $$ $ Y = X1 + X2 + X3 + ε ، مع EεXj = 0 ، لـ j = 1 ، 2 ، 3.Y = X1 + X2 + X3 + ε ، withEεXj = 0 ، لـ j = 1 ، 2 ، 3 عرض $$ $


في مرحلة جمع البيانات ، لا نعرف النموذج الحقيقي ، وبالتالي نجمع أكبر عدد ممكن من المتغيرات المشتركة المرتبطة بـ Y على أمل تضمين جميع المصطلحات في S في (7). بالمناسبة ، قد ترتبط بعض من هذه Xj (ل jj 1 ، 2 ، 3) مع الضوضاء المتبقية ε. هذا يدحض افتراض النمذجة الخارجية في (7). في الواقع ، كلما زاد عدد المتغيرات المشتركة التي تم جمعها أو قياسها ، زاد تعقيد هذا الافتراض.

على النقيض من الارتباط الخاطئ ، يشير التداخل العشوائي إلى الوجود الحقيقي للعلاقات بين المتغيرات غير المقصودة. الأول يشبه حقيقة أن شخصين متشابهان مع بعضهما البعض ، لكن ليس لهما صلة جينية ، والثاني يشبه أحد معارفه الذي يحدث بسهولة في مدينة كبيرة. بمعنى أكثر عمومية ، ينتج التداخل عن التحيز في الاختيار وأخطاء القياس والمتغيرات المفقودة. غالبًا ما تنشأ هذه الظواهر عند تحليل البيانات الكبيرة ، وذلك لسببين أساسيين:

  • بفضل أساليب القياس عالية الأداء الجديدة ، يمكن للعلماء جمع أكبر عدد ممكن من الوظائف والسعي لتحقيق ذلك. وهذا ، وفقًا لذلك ، يزيد من احتمال ربط بعضها بالضوضاء المتبقية.
  • عادة ما يتم الجمع بين البيانات الضخمة من عدة مصادر مع مخططات مختلفة لتوليد البيانات. هذا يزيد من احتمال التحيز في أخطاء الاختيار والقياس ، والتي تسبب أيضًا تجانسًا عشوائيًا محتملًا.

هل يظهر التجانس العشوائي في مجموعات بيانات حقيقية وكيف يمكننا اختبار ذلك في الممارسة؟ إننا ندرس دراسة الجينوم التي يتم فيها تنزيل 148 عينة ميكروأري من قواعد بيانات GEO و ArrayExpress. تم إنشاء هذه العينات على منصة Affymetrix HGU133a للأشخاص المصابين بسرطان البروستاتا. تحتوي مجموعة البيانات التي تم الحصول عليها على 22283 مجس ، وهو ما يتوافق مع 12719 جينًا. في هذا المثال ، نحن مهتمون بجين يسمى "عضو عائلة مستقبلات المجال discoidin 1" (مختصر DDR1). يقوم DDR1 بتشفير كيناز مستقبلات التيروزين ، والذي يلعب دورًا مهمًا في اتصال الخلايا مع بيئتها الصغرى. من المعروف أن DDR1 يرتبط ارتباطًا وثيقًا بسرطان البروستاتا ، ونريد دراسة علاقته مع الجينات الأخرى في مرضى السرطان. أخذنا التعبير الجيني DDR1 كمتغير استجابة Y ، وتعبيرًا عن جميع الجينات المتبقية البالغة 12،718 جينًا كمنبؤات. في الجزء الأيسر ، التين. ويبين الشكل 3 التوزيع التجريبي للعلاقات بين الاستجابة والتنبؤات الفردية.

لتوضيح وجود endogeneity ، نلائم L1 المربعات الصغرى الانحدار (Lasso) للبيانات ، ويتم تحديد العقوبة تلقائيًا باستخدام التحقق من صحة 10 أضعاف (تم تحديد 37 جينًا). بعد ذلك ، سنقوم باستعادة انحدار المربعات الصغرى المعتادة للنموذج المحدد لحساب المتجه المتبقي. في الجزء الأيمن ، التين. 3 ، نبني توزيع تجريبي للعلاقات بين المتنبئين والمخلفات. نرى أن الضوضاء المتبقية ترتبط بقوة مع العديد من المتنبئين. للتأكد من أن هذه الارتباطات لا تنتج عن ارتباط خاطئ محض ، فإننا نقدم "توزيعًا صفريًا" للعلاقات الخاطئة عن طريق إعادة ترتيب عشوائي لصفوف الصفوف في مصفوفة المشروع ، بحيث يكون المتنبئون مستقلون حقًا عن الضوضاء المتبقية. بمقارنة هاتين التوزيعتين ، نرى أن توزيع الارتباطات بين المتنبئين والضوضاء المتبقية في البيانات الخام (التي تحمل علامة "البيانات الأولية") له ذيل أثقل من البيانات المعاد ترتيبها (والتي تم وضع علامة عليها "البيانات المعاد ترتيبها"). هذه النتيجة توفر دليلا قويا على الذاتية.

Source: https://habr.com/ru/post/ar456088/


All Articles