يتيح لك الاختيار الصحيح لميزات تحليل البيانات:

تحسين جودة نماذج التعلم الآلي مع المعلم أو بدونه ،
تقليل وقت التدريب وتقليل قوة الحوسبة المطلوبة ،
وفي حالة إدخال البيانات ذات البعد العالي ، فإنه يسمح بإضعاف "لعنة البعد".

تقييم أهمية السمات ضروري لتفسير نتائج النموذج.

سننظر في الطرق الحالية لاختيار السمات لتدريس المهام مع المعلم أو بدونه. يتم توضيح كل طريقة من خلال تطبيق مفتوح المصدر في Python بحيث يمكنك اختبار الخوارزميات المقترحة بسرعة. ومع ذلك ، هذا ليس اختيارًا كاملاً: على مدار العشرين عامًا الماضية ، تم إنشاء العديد من الخوارزميات ، وستجد هنا أبسطها. للحصول على دراسة أعمق ، تحقق من هذا الاستعراض .

نماذج مع وبدون معلم

هناك خوارزميات اختيار مع المعلم ، والتي تتيح لك تحديد الخصائص المناسبة لأفضل جودة عمل مهام التدريس مع المعلم (على سبيل المثال ، في مشاكل التصنيف والانحدار). هذه الخوارزميات تحتاج إلى الوصول إلى البيانات الموسومة. بالنسبة للبيانات غير المسماة ، يوجد أيضًا عدد من طرق اختيار الميزات التي تقيّم جميع الميزات استنادًا إلى معايير مختلفة: التباين ، الانتروبيا ، القدرة على الحفاظ على التشابه المحلي ، إلخ. يمكن أيضًا استخدام الميزات ذات الصلة التي تم اكتشافها باستخدام طرق إرشادية دون وجود معلم في النماذج مع المعلم ، لأنها يمكن أن تكتشف أنماطًا غير ارتباط الميزات بمتغير الهدف.

تنقسم طرق الاختيار المميزة عادة إلى 4 فئات: المرشحات ، الأغلفة ، المدمجة والمختلطة.

غلاف

من خلال هذا النهج ، نقوم بتقييم فعالية مجموعة فرعية من السمات ، مع مراعاة النتيجة النهائية لخوارزمية التعلم التطبيقي (على سبيل المثال ، ما هي الزيادة في الدقة في حل مشكلة التصنيف). في هذا المزيج من استراتيجية البحث والنمذجة ، يمكن استخدام أي خوارزمية التعلم.

استراتيجيات الاختيار الحالية:

الاختيار المباشر (التحديد الأمامي) : نبدأ بمجموعة فارغة من الميزات ، ثم نضيف بشكل متكرر ميزات توفر أفضل زيادة في جودة النماذج.
اختيار للخلف : نبدأ مع مجموعة من جميع السمات ، ثم في كل تكرار نزيل السمة "الأسوأ".

التنفيذ: يتم تنفيذ هذه الخوارزميات في حزمة mlxtend ، فيما يلي مثال للاستخدام.

RFE (إزالة ميزة العودية): خوارزمية البحث "الجشع" التي تحدد الميزات عن طريق تحديد مجموعات من الميزات الأصغر حجمًا بشكل متكرر. تقوم بترتيب العلامات وفقًا للترتيب الذي تمت إزالتها به.

التنفيذ: scikit للتعلم

طرق مضمنة

تتضمن هذه المجموعة خوارزميات تقوم في وقت واحد بتدريب النموذج وتحديد الميزات. عادة ما يتم تطبيق ذلك باستخدام منظم l1 (منظم sparsity) أو شرط يحد من بعض العلامات.

SMLR (الانحدار اللوجستي متعدد الحدود المتناثر): تنفذ هذه الخوارزمية l1- الانتظام باستخدام ARD (تحديد الصلة التلقائية) كجزء من الانحدار اللوجستي متعدد الحدود الكلاسيكي. يحدد التنظيم أهمية كل سمة ويلغي تلك التي لا فائدة منها للتنبؤ.

التنفيذ: SMLR
ARD (الانحدار التلقائي لتحديد الصلة): يستخدم النموذج انحدار Bayesian Ridge. يغير وزن المعاملات إلى الصفر بقوة أكبر ، على سبيل المثال ، مع طريقة المربعات الصغرى.

ARD zeroes وزن بعض الميزات ، مما يساعد على تحديد الأبعاد ذات الصلة.

التنفيذ: scikit للتعلم

أمثلة أخرى على خوارزميات التنظيم: Lasso (تطبق L1- التنظيم) ، انحدار التلال (تنفذ L2- التنظيم) ، الشبكة المرنة (تطبق L1- و L2- التنظيم). إذا قمت برسم هذه الطرق بيانياً ، يمكنك أن ترى أن انحدار Lasso يحد المعامِلات بمساحة مربع ، وانحدار التلال يحدد الدائرة ، ويحتل برنامج المرنة نت موقعًا وسيطًا.

https://scikit-learn.org/stable/auto_examples/linear_model/plot_sgd_penalties.html

ويرد وصف شامل لهذه الخوارزميات هنا .

مرشحات

مع هذا النهج ، نقوم بتقييم أهمية السمات فقط على أساس خصائصها المتأصلة ، دون إشراك خوارزميات التعلم. هذه الطرق أسرع وتتطلب موارد حسابية أقل مقارنة بأساليب التجميع. إذا لم تكن هناك بيانات كافية لنمذجة الارتباط الإحصائي بين الميزات ، يمكن للمرشحات أن تنتج نتائج أسوأ من الأغلفة. على عكس الأغلفة ، تكون هذه الطرق أقل عرضة لإعادة التدريب. يتم استخدامها على نطاق واسع للعمل مع البيانات عالية الأبعاد ، عندما تتطلب أساليب المجمع الكثير من قوة الحوسبة.

طرق المعلم

الإغاثة : تحدد هذه الطريقة بشكل عشوائي عينات من مجموعة البيانات وتحديث أهمية كل سمة بناءً على الفرق بين المثيل المحدد والكائنين الأقرب إليها من نفس الفئة والفئات المقابلة. إذا كان هناك اختلاف في قيم الخاصية لأقرب اثنين من الجيران من نفس الفئة ، فإن أهميتها تتناقص ، وإذا كان هناك ، على العكس من ذلك ، فرق بين قيم الخاصية للكائنات من فئات مختلفة ، تزداد الأهمية وفقًا لذلك.

$W_{i} = W_{i} - (x_{i} - N e a r H i t_{i})^{2} + (x_{i} - n e a r M i s s_{i})^{2}$
$W_ {i} = W_ {i} - (x_ {i} -NearHit_ {i}) ^ {2} + (x_ {i} -nearMiss_ {i}) ^ {2}$

ينخفض وزن السمة إذا كانت قيمتها تختلف عن أقرب كائنات من نفس الفئة أكثر من أقرب كائنات من فئات مختلفة ؛ وإلا يزيد الوزن.
تستخدم خوارزمية ReliefF المتقدمة وزن الميزة وتبحث عن أقرب جيران.

التنفيذ: scikit- rebate ، ReliefF
درجة فيشر : يشيع استخدامها في مشاكل التصنيف الثنائي. يتم تعريف نسبة Fisher (FiR) على أنها المسافة بين متوسط قيم السمات لكل فئة مقسومة على اختلافها:

$FiR_ {i} = \ frac {\ left | \ bar {X} _ {i} ^ {(0)} - \ bar {X} _ {i} ^ {(1)} \ right |} {\ sqrt {var (X_ {i}) ^ {(0)} + var (X_ {i}) ^ {(1)}}}}$
$FiR_ {i} = \ frac {\ left | \ bar {X} _ {i} ^ {(0)} - \ bar {X} _ {i} ^ {(1)} \ right |} {\ sqrt {var (X_ {i}) ^ {(0)} + var (X_ {i}) ^ {(1)}}}}$

التنفيذ: ميزة scikit ، مثال للاستخدام.
درجة Chi-squared : للتحقق مما إذا كان هناك فرق كبير بين الترددات المرصودة والمتوقعة لمتغيرين فئويين. وبالتالي ، يتم اختبار الفرضية الخالية من عدم وجود اتصال بين اثنين من المتغيرات.

$X^{2} = f r a c (t e x t r m O b s e d e d f r e q u e n c y - t e x t r m E x p e c t e d f r e q u e n c y)^{2} t e x t r m E x p e c t e d f r e q u e n c y$
$X ^ {2} = \ frac {(\ textrm {Obseded frequency} - \ textrm {Expected frequency}) ^ 2} {\ textrm {Expected frequency}}$

معيار تشي مربع الاستقلال .

من أجل تطبيق معيار chi-square بشكل صحيح للتحقق من العلاقة بين علامات مختلفة من مجموعة البيانات والمتغير المستهدف ، من الضروري مراقبة الشروط: يجب أن تكون المتغيرات قاطعة ومستقلة ويجب أن يكون لها تردد متوقع لأكثر من 5 . يضمن الشرط الأخير أن يتم تقريب CDF (دالة الكثافة التراكمية) للمعيار الإحصائي (إحصائية الاختبار) باستخدام توزيع chi-square. تعلم المزيد هنا .

التنفيذ: sklearn ، scipy
CFS (اختيار الميزة المستندة إلى الارتباط): يمكن صياغة الأساس المنطقي لهذه الطريقة على النحو التالي:

تكون العلامات ذات صلة إذا تغيرت قيمها بشكل منهجي اعتمادًا على انتمائها إلى فئة أو فئة أخرى.

وبالتالي ، تحتوي مجموعة فرعية جيدة من الميزات على تلك الميزات المرتبطة بدرجة كبيرة مع المتغير الهدف ، في حين لا ترتبط مع بعضها البعض. يتم احتساب درجة مجموعة فرعية من ميزات k على النحو التالي :

$M e r i t_{S_{k}} = f r a c k r_{c f} s q r t k + k (k - 1) b a r r_{f f}$
$Merit_ {S_ {k}} = \ frac {kr_ {cf}} {\ sqrt {k + k (k-1) \ bar {r} _ {ff}}}$

هنا $r_ {cf}$ هو متوسط جميع العلاقات بين السمة والطبقة ، و $\ bar {r} _ {ff}$ - متوسط قيمة جميع الارتباطات بين الميزات. يتم تعريف معيار CFS على النحو التالي:

$CFS = \ underset {S_ {k}} {max} \ left [\ frac {r_ {cf_ {1}} + r_ {cf_ {2}} + \ cdots + r_ {cf_ {k}}} {\ sqrt {k + 2 (r_ {f_ {1} f_ {2}} + \ cdots + r_ {f_ {i} f_ {j}} + \ cdots + r_ {f_ {k} f_ {1}})}}} \ \ الحق]$
$CFS = \ underset {S_ {k}} {max} \ left [\ frac {r_ {cf_ {1}} + r_ {cf_ {2}} + \ cdots + r_ {cf_ {k}}} {\ sqrt {k + 2 (r_ {f_ {1} f_ {2}} + \ cdots + r_ {f_ {i} f_ {j}} + \ cdots + r_ {f_ {k} f_ {1}})}}} \ \ الحق]$

التنفيذ: ميزة scikit ، مثال للاستخدام.
FCBF (عامل التصفية المستند إلى الارتباط السريع): تعمل هذه الطريقة بشكل أسرع وأكثر كفاءة من ReliefF و CFS ، وبالتالي فهي تستخدم بشكل شائع للإدخال ذي الأبعاد العالية. في الواقع ، هذا هو نهج نموذجي يأخذ في الاعتبار الأهمية والتكرار ، حيث يتم حساب عدم اليقين التماثلي الأول لجميع الصفات (المعلومات المتبادلة بين X و YI (X ، Y) مقسومة على مجموع entropies الخاصة بهم) ، ثم يتم فرز السمات حسب هذا المعيار ، و ثم تتم إزالة الفائض.

التنفيذ: skfeature ، https://github.com/shiralkarprashant/FCBF

طرق بدون معلم

التباين : لقد تبين أن تقدير تباين الأحرف يمكن أن يكون وسيلة فعالة لتحديد السمات. وكقاعدة عامة ، فإن العلامات ذات التشتت الصفري تقريبًا ليست مهمة ويمكن إزالتها.

التنفيذ: عتبة التباين
متوسط الفرق المطلق : حساب متوسط الفرق المطلق بين قيم السمة ومتوسط القيمة ( التنفيذ ).

$M A D_{i} = f r a c 1 n s u m_{j = 1}^{n} l e f t | X_{i j} - b a r X_{i} r i g h t |$
$MAD_ {i} = \ frac {1} {n} \ sum_ {j = 1} ^ {n} \ left | X_ {ij} - \ bar {X} _ {i} \ right |$

تميل القيم العليا إلى الحصول على قوة تنبؤية أعلى.
نسبة التشتت : المتوسط الحسابي مقسوماً على المتوسط الهندسي. يتوافق التباين العالي مع ميزات أكثر صلة ( التنفيذ ).

$A M_{i} = b a r X_{i} = f r a c 1 n s u m_{j = 1}^{n} X_{i j}$
$AM_ {i} = \ bar {X_ {i}} = \ frac {1} {n} \ sum_ {j = 1} ^ {n} X_ {ij}$

$G M_{i} = (p r o d_{j = 1}^{n} X_{i j})$
$GM_ {i} = (\ prod_ {j = 1} ^ {n} X_ {ij})$

كما $AM_ {i} \ geqslant GM_ {i}$ إذا وفقط إذا تم احترام المساواة $X_ {i1} = X_ {i2} = \ cdots = X_ {in}$ ثم:
$R_{i} = f r a c A M_{i} G M_{i} ف ي l e f t [1 ، + i n f t y r i g h t)$
$R_ {i} = \ frac {AM_ {i}} {GM_ {i}} \ في \ left [1 ، + \ infty \ right)$
نتيجة Laplacian : تعتمد على الملاحظة التي تشير إلى أن البيانات من فئة واحدة غالباً ما تقع بالقرب من بعضها البعض ، حتى تتمكن من تقييم أهمية الميزة من خلال قدرتها على عكس هذا القرب. تتكون الطريقة من تضمين البيانات في أقرب رسم بياني مجاور عن طريق قياس مسافة تعسفية ، تليها حساب مصفوفة الوزن. ثم ، لكل ميزة ، نحسب معيار لابلاس ونحصل على خاصية بحيث تتوافق القيم الأصغر مع الأبعاد الأكثر أهمية. ومع ذلك ، في الممارسة العملية ، عند اختيار مجموعة فرعية من الميزات ، عادةً ما يتم استخدام خوارزمية تجميع مختلفة (طريقة الوسائل k) ، والتي يتم تحديد المجموعة الأكثر فعالية بها.

التنفيذ: ميزة scikit
معيار لابلاس بالاقتران مع الانتروبيا المستندة إلى المسافة: تستند الخوارزمية إلى معيار لابلاس ، حيث يتم استبدال التجميع k-mean بعلم الإنتروبيا. توضح الخوارزمية مستوى أعلى من الاستقرار في مجموعات البيانات عالية الأبعاد ( التنفيذ ).
MCFS (اختيار ميزة المجموعات المتعددة): يتم إجراء التحليل الطيفي لقياس العلاقة بين الخصائص المختلفة. بالنسبة لتجميع البيانات وتقييم الميزات ، يتم استخدام متجهات eigenvector (الرسم البياني Laplacian). يوصف حسابهم في هذه الورقة .

التنفيذ: https://github.com/danilkolikov/fsfc
الخوارزميات LFSBSS (اختيار الميزة المترجمة) ، الوسائل k الموزونة ( الوسائل الموزونة) ، SPEC و Apriori يتم النظر فيها هنا ويتم تنفيذها في هذه الحزمة .

طرق مختلطة

هناك طريقة أخرى لتنفيذ اختيار الميزة وهي مجموعة من المرشحات والمغلفات المدمجة في عملية ثنائية الطور: أولاً ، يتم تصفية الميزات حسب الخصائص الإحصائية ، ثم يتم تطبيق أساليب الالتفاف.

مصادر اخرى

تمت كتابة الكثير من الأدبيات التي يتم فيها النظر في مشكلة اختيار الميزات ، وهنا لم نتطرق إلا قليلاً إلى المجموعة الكاملة من البحث العلمي.

تم تنفيذ قائمة كاملة بخوارزميات اختيار السمات الأخرى التي لم أذكرها في حزمة ميزات scikit .

يمكن أيضًا تحديد الميزات ذات الصلة باستخدام PLS (المربعات الصغرى الجزئية ، كما هو موضح في هذه المقالة ، أو باستخدام طرق تقليل الأبعاد الخطية ، كما هو موضح هنا .

ترجمة جيت جت

نظرة عامة على طرق اختيار الميزة