يجب أن يكون لديك خوارزميات تعلم الآلة

هابر ، مرحبا.

هذا المنشور هو لمحة موجزة عن خوارزميات التعلم الآلي العام. يرافق كل منها وصف موجز وأدلة وروابط مفيدة.

طريقة المكون الرئيسي (PCA) / SVD


هذه هي واحدة من خوارزميات التعلم الآلي الأساسية. يتيح لك تقليل بُعد البيانات ، وفقدان أقل قدر من المعلومات. يتم استخدامه في العديد من المجالات ، مثل التعرف على الكائنات ، ورؤية الكمبيوتر ، وضغط البيانات ، وما إلى ذلك. يقلل حساب المكونات الرئيسية من حساب عوامل التهيئة الذاتية والقيم الذاتية لمصفوفة التباين في البيانات المصدر أو التحلل المفرد لمصفوفة البيانات.

صورة

SVD هي طريقة لحساب المكونات المطلوبة.

روابط مفيدة:


دليل المقدمة:


طريقة المربعات الصغرى


طريقة المربعات الصغرى هي طريقة رياضية تستخدم لحل المشكلات المختلفة ، بناءً على تقليل مجموع مربعات انحرافات بعض الوظائف عن المتغيرات المرغوبة. يمكن استخدامه "لحل" أنظمة المعادلات المفرطة التحديد (عندما يتجاوز عدد المعادلات عدد المجهول) ، لإيجاد حل في حالة أنظمة المعادلات غير الخطية العادية (غير المعاد تعريفها) وأيضًا لتقريب قيم النقاط للدالة.

صورة

استخدم هذه الخوارزمية لتناسب المنحنيات / الانحدار البسيط.

روابط مفيدة:


دليل المقدمة:


الانحدار الخطي المحدود


يمكن لطريقة المربعات الصغرى أن تربك القيم المتطرفة والحقول الخاطئة وما إلى ذلك. هناك حاجة إلى قيود لتقليل تباين الخط الذي نضعه في مجموعة البيانات. الحل الصحيح هو احتواء نموذج الانحدار الخطي الذي يضمن أن الأوزان لا تتصرف "بشكل سيء". يمكن أن تحتوي النماذج على القاعدة L1 (LASSO) أو L2 (Ridge Regression) أو كلاهما (الانحدار المرن).

صورة

استخدم هذه الخوارزمية لمطابقة خطوط الانحدار المقيدة ، وتجنب التجاوز.

رابط مفيد:


أدلة تمهيدية:


طريقة K- يعني


خوارزمية التجميع المفضلة غير المنضبط للجميع. في حالة وجود مجموعة بيانات في شكل متجهات ، يمكننا إنشاء مجموعات من النقاط بناءً على المسافات بينها. هذه هي إحدى خوارزميات التعلم الآلي التي تنقل مراكز المجموعات بشكل متتابع ثم تجمع النقاط مع كل مركز من الكتلة. الإدخال هو عدد الكتل التي سيتم إنشاؤها وعدد التكرارات.

صورة

رابط مفيد:


أدلة تمهيدية:


الانحدار اللوجستي


يقتصر الانحدار اللوجستي من خلال الانحدار الخطي مع عدم الخطية (بشكل رئيسي باستخدام دالة السيني أو تانه) بعد تطبيق الأوزان ، لذلك ، يقتصر تحديد الخرج على الفئات +/- (التي تكون 1 و 0 في حالة السيني). يتم تحسين وظائف فقدان الانتروبيا باستخدام طريقة النسب التدرج.

ملاحظة للمبتدئين: يستخدم الانحدار اللوجستي للتصنيف وليس الانحدار. بشكل عام ، يشبه شبكة العصبية أحادية الطبقة. تدريب باستخدام تقنيات التحسين مثل النسب التدرج أو L-BFGS. غالبًا ما يستخدمه مطورو البرمجة اللغوية العصبية ، ويطلقون عليه "تصنيف إنتروبيا الأقصى".

صورة

استخدم LR لتدريب المصنفات البسيطة ولكن "القوية".

رابط مفيد:


دليل المقدمة:


SVM (طريقة متجه الدعم)


SVM هو نموذج خطي مثل الانحدار الخطي / اللوجستي. الفرق هو أنه يحتوي على وظيفة الخسارة القائمة على الهامش. يمكنك تحسين وظيفة الفقد باستخدام طرق التحسين مثل L-BFGS أو SGD.

صورة

شيء واحد فريد يمكن أن تفعله SVM هو تعلم مصنفات الفصل.

يمكن استخدام SVM لتدريب المصنفات (حتى المتثابتات).

رابط مفيد:


أدلة تمهيدية:


شبكات التوزيع العصبي المباشر


أساسا ، هذه هي المصنفات متعددة المستويات من الانحدار اللوجستي. يتم فصل العديد من طبقات الأوزان بغير خطية (السيني ، التان ، ريلي + سوفتماكس ، سيلو الجديد البارد). وتسمى أيضا perceptrons متعدد الطبقات. يمكن استخدام FFNNs للتصنيف و "تدريب المعلمين" كمشفرات تلقائية.

صورة

يمكن استخدام FFNN لتدريب المصنف أو استخراج وظائف كمشفرات تلقائية.

روابط مفيدة:


أدلة تمهيدية:


الشبكات العصبية التلافيفية


تم تحقيق جميع الإنجازات الحديثة تقريبًا في مجال التعلم الآلي باستخدام الشبكات العصبية التلافيفية. يتم استخدامها لتصنيف الصور أو اكتشاف الكائنات أو حتى الصور المقطعية. اخترعها جان ليكون في أوائل التسعينيات ، للشبكات طبقات تلافيفية تعمل كمستخلصات هرمية للأشياء. يمكنك استخدامها للعمل مع النص (وحتى للعمل مع الرسومات).

صورة

روابط مفيدة:


أدلة تمهيدية:


الشبكات العصبية المتكررة (RNNs)


تسلسل نماذج RNN من خلال تطبيق نفس مجموعة الأوزان بشكل متكرر على حالة المجمع في وقت t والإدخال في الوقت t. نادراً ما تستخدم RNNs البحتة الآن ، لكن نظيراتها ، مثل LSTM و GRU ، هي الأكثر تقدماً في معظم مهام نمذجة التسلسل. LSTM ، والذي يستخدم بدلاً من طبقة كثيفة بسيطة في RNN النقي.

صورة

استخدم RNN لأي مهمة من تصنيف النص ، والترجمة الآلية ، ونمذجة اللغة.

روابط مفيدة:


أدلة تمهيدية:


الحقول العشوائية الشرطية (CRF)


يتم استخدامها لنمذجة التسلسل ، مثل RNN ، ويمكن استخدامها مع RNNs. يمكن استخدامها أيضًا في مهام التنبؤ المنظمة الأخرى ، على سبيل المثال ، في تجزئة الصورة. يقوم نموذج CRF بنمذجة كل عنصر من عناصر التسلسل (على سبيل المثال ، جملة) بحيث يؤثر الجيران على تسمية المكون في التسلسل ، وليس كل العلامات التي تكون مستقلة عن بعضها البعض.

استخدم CRF لربط التسلسلات (في النص ، الصورة ، السلاسل الزمنية ، DNA ، إلخ).

رابط مفيد:


أدلة تمهيدية:


أشجار القرار والغابات العشوائية


واحدة من خوارزميات تعلم الآلة الأكثر شيوعًا. تستخدم في الإحصاءات وتحليل البيانات لنماذج التنبؤ. الهيكل "أوراق" و "فروع". يتم تسجيل السمات التي تعتمد عليها الوظيفة الهدفية على "فروع" شجرة القرارات ، وقيم الوظيفة الهدف مكتوبة في "الإجازات" ، ويتم تسجيل السمات التي تميز الحالات في العقد المتبقية.

لتصنيف حالة جديدة ، تحتاج إلى النزول إلى الشجرة وإصدار القيمة المقابلة. الهدف هو إنشاء نموذج يتنبأ بقيمة المتغير الهدف بناءً على العديد من متغيرات الإدخال.

روابط مفيدة:


أدلة تمهيدية:


سوف تتعلم المزيد من المعلومات حول التعلم الآلي وعلوم البيانات عن طريق الاشتراك في حسابي على Habré وقناة Telegram Neuron . لا تخطي المقالات المستقبلية.

كل المعرفة!

Source: https://habr.com/ru/post/ar467825/


All Articles