
على الرغم من العديد من مصادر برامج تعلم الآلة المجانية المتوفرة على الإنترنت ، يظل Github مركزًا لتبادل المعلومات مهمًا لجميع أنواع أدوات المصادر المفتوحة المستخدمة من قبل مجتمع التعلم الآلي وتحليل البيانات.
تحتوي هذه المجموعة على مستودعات التعلم الآلي ومجموعات البيانات وأجهزة Jupyter Notebooks المصنفة حسب تصنيف النجوم. في الجزء
السابق ، تحدثنا عن مستودعات شعبية لدراسة تصور البيانات والتعلم العميق.
تعلم الآلة
قائمة مثيرة للإعجاب من الأنظمة والمكتبات والبرامج المصنفة حسب اللغة والفئة (رؤية الكمبيوتر ، معالجة اللغة الطبيعية ، إلخ). بالإضافة إلى ذلك ، ستجد في هذا المستودع قائمة بكتب مجانية للتعلم الآلي ، ودورات مجانية للتعلم الآلي (في الغالب) ، ومدونات لعلوم البيانات.
وضعت منذ عام 2007 ، وحدة بيثون للتعلم الآلي ، مبنية على أساس مكتبات SciPy و NumPy و Matplotlib. موزعة تحت رخصة BSD 3-Clause. Scikit-Learn هي أداة عالمية للعمل تحتوي على خوارزميات التصنيف والانحدار والتجميع ، بالإضافة إلى طرق لإعداد البيانات وتقييم النماذج.
إطار تعلم الآلة مفتوح المصدر يدعم جمع الأحداث ونشر الخوارزميات والتقييم والقوالب للمهام المعروفة مثل التصنيف والتوصيات. يتصل بالتطبيقات الحالية باستخدام REST API أو SDK. يعتمد التنبؤ على خدمات مفتوحة المصدر قابلة للتطوير مثل Hadoop و HBase (وغيرها من قواعد البيانات) و Elasticsearch و Spark.
المواد للمبتدئين في هذا الموضوع. يحتوي المستودع على مجموعة من البرامج التعليمية لـ IPython لمكتبة Scikit-learn ، والتي تنفذ عددًا كبيرًا من خوارزميات التعلم الآلي ، بالإضافة إلى العديد من الروابط بمواضيع تعلم الآلة ذات الصلة ببيثون ومزيد من المعلومات العامة حول تحليل البيانات. يقدم المؤلف روابط إلى العديد من البرامج التعليمية الأخرى التي تغطي الموضوع.
نمط
6 845 ،
1353
وحدة تطوير الويب المستندة إلى Python مع أدوات للتحليل ومعالجة اللغة الطبيعية (ترميز أجزاء الكلام والبحث n-gram وتحليل الحالة المزاجية و WordNet) والتعلم الآلي وتحليل الشبكات والتصور. تم إنشاء الوحدة النمطية وتوثيقها بشكل جيد في مركز أبحاث اللغويات واللغويات النفسية بجامعة أنتويرب (بلجيكا). ستجد في المستودع أكثر من 50 مثالًا على استخدامه.
تطوير بنشاط مكتبة التعلم آلة ل Go. يوفر حزمة برامج كاملة المواصفات وسهلة الاستخدام وقابلة للتخصيص بشكل كبير للمطورين. تنفذ GoLearn واجهة تعلم Scikit-learning المألوفة.
يمتد نظام Vowpal Wabbit حدود التعلم الآلي باستخدام طرق مثل التجزئة ، allreduce ، learning2search ، والتعلم النشط والتفاعلي. يهدف Vowpal Wabbit إلى تصميم مجموعات البيانات الضخمة بسرعة ودعم التعلم الموازي. يتم إيلاء اهتمام خاص لتعزيز التعلم باستخدام العديد من "خوارزميات العصابات" السياقية.
تنفذ NuPIC خوارزميات تعلم الآلة ذات التسلسل الهرمي (HTM). بشكل عام ، HTM هي محاولة لمحاكاة العمليات الحسابية للقشرة المخية للعقل البشري وتركز على حفظ واستدعاء الأنماط المكانية والزمانية. HTM هو نظام ذاكرة ، وهو غير مبرمج ، ولا يتعلم تنفيذ الخوارزميات لمختلف المهام ، ويتعلم حل المشكلة. NuPIC مناسب لجميع أنواع المهام ، على وجه الخصوص ، لاكتشاف الحالات الشاذة للنمط.
يحاول aerosolve تمييز نفسه عن المكتبات الأخرى من خلال التركيز على أدوات تصحيح الأخطاء سهلة الاستخدام ، ورمز Scala للتدريب ، وآلية لتحليل محتوى الصورة من أجل التصنيف السهل والمرونة والتحكم في الوظائف. تم تصميم المكتبة للاستخدام مع الوظائف النادرة القابلة للتفسير والتي عادة ما توجد في البحث (البحث عن الكلمات الرئيسية ، المرشحات) أو التسعير (عدد الغرف في غرفة الفندق ، الموقع ، السعر).
مستودع تكميلي لـ
Machine Learning for Hackers ، مستودع يتم عرض كل الكود به بلغة R ، مخصص لمعالجة البيانات الإحصائية (في الواقع ، معيار البرامج الإحصائية) والرسومات. ستجد هنا العديد من حزم R. تشمل الموضوعات التي يتم تناولها التصنيف العام ومهام التصنيف والانحدار ، بالإضافة إلى الإجراءات الإحصائية لتحليل المكونات والقياس متعدد الأبعاد.
مجموعات بيانات جيثب
مستودع آخر مثير للإعجاب بحجمه هو قائمة مقسمة إلى 30 موضوعًا: الأحياء ، الرياضة ، المتاحف ، اللغة الطبيعية ، إلخ. يتضمن المستودع عدة مئات من مجموعات البيانات ، معظمها مجاني. فيما يلي روابط لمجموعات البيانات الكبيرة الأخرى.
مستودع OpenAddresses.io الرسمي هو مجموعة عالمية مجانية ومفتوحة لعناوين الشوارع. يتضمن المشروع أسماء الشوارع وأرقام المنازل والرموز البريدية والإحداثيات الجغرافية.
فهرس لجميع الكواكب المعروفة الموجودة خارج النظام الشمسي. سابقا ، تم تحديث قاعدة البيانات في غضون 24 ساعة بعد اكتشاف كوكب جديد ، ولكن الآن ، لسوء الحظ ، فإن المشروع لا يتطور عمليا.
قاعدة بيانات مكتب الإحصاء الأمريكي ، والتي تم تكييفها للتكامل مع مجموعات البيانات المفتوحة الأخرى ، مع وظائف ملائمة للعمل وإنشاء مجموعة البيانات المخصصة الخاصة بك مع واجهة برمجة تطبيقات التعداد: الإحصاءات ، GeoJSON الخرائطية ، خطوط الطول / الخط ، إلخ.
openFDA هو مشروع إدارة الغذاء والدواء الأمريكية (FDA) يهدف إلى توفير مجموعة من مجموعات البيانات العامة للباحثين والمطورين من خلال واجهة برمجة التطبيقات ، بالإضافة إلى أمثلة حول كيفية استخدام هذه البيانات والوثائق. هناك معلومات حول الآثار الجانبية للأدوية ، وصف الدواء ، تقارير عن انسحاب الدواء من السوق ، والتغييرات في صيغة الوصفة الطبية.
رمز مصدر بوابة البيانات المفتوحة لمنظمة البحوث النووية CERN ، والذي يوصف بأنه "نقطة وصول إلى مجموعة متزايدة من البيانات من أبحاث CERN".
دفاتر IPython (Jupyter)
قائمة مستودعات Github المفيدة التي تتكون من دفاتر IPython (Jupyter) التي تركز على معالجة البيانات والتعلم الآلي.
مستودع مصاحب للطبعة الأولى من كتاب
Machine Learning with Python (مستودع للطبعة الثانية
هنا ) ، والذي يتعامل مع العمل مع القيم المفقودة ، وتحويل المتغيرات التصنيفية إلى تنسيقات مناسبة للتعلم الآلي ، واختيار الخصائص الإعلامية ، وضغط البيانات مع النقل إلى مسافات فرعية أقل عدد القياسات.
مستودع للمواد التدريبية ، الكود والبيانات لمختلف مشاريع تحليل البيانات والتعلم الآلي. يحتوي Notebook على جميع المبادئ الأساسية للعمل مع تحليل البيانات باستخدام مجموعة بيانات
Iris كمثال ويوضح بناء سير العمل في علم البيانات. يتم الحصول على النقاط الأساسية للعمل في الريبو من كتاب "
عناصر تحليل البيانات على غرار " (جيف ليك ، 2015).
مجموعة من أجهزة الكمبيوتر المحمولة ومجموعات البيانات التي تغطي أربعة موضوعات حسابية: الانحدار الخطي والانحدار اللوجستي والغابات العشوائية وخوارزميات التجميع K-Means. يعتمد Learn Science Science على المواد التي تم إنشاؤها لمشروع
تدريب Open Data Science .
يحتوي المستودع على العديد من دفاتر IPython Notebooks - بدءًا من نظرة عامة على لغة IPython ووظيفتها إلى أمثلة لاستخدام مختلف المكتبات الشعبية في تحليل البيانات. ستجد هنا مجموعة شاملة من التعلم الآلي والتعلم العميق ومواد معالجة البيانات الكبيرة من دورات تعلم الآلة بواسطة Andrew Ng (Coursera) و Intro to TensorFlow for Deep Learning (Udacity) و Spark (edX).
مستودع
لتعلم مكتبة
Scikit-learn ، التي تنفذ عددًا كبيرًا من خوارزميات التعلم الآلي. توفر المكتبة تنفيذ عدد من الخوارزميات للتعلم مع أو بدون معلم. تم بناء
Scikit -learn على قمة
SciPy (بيثون العلمية).
سلسلة من البرامج التعليمية المفصلة للغاية حول IPython Notebook بناءً على بيانات من
دورة أندرو نغا لتعلم الآلة (جامعة ستانفورد) ،
ودورة توم ميتشل (جامعة كارنيجي ميلون) ، وكتاب كريستوفر بيشور للتعرف على الأنماط وتعلم الآلة.
القائمة المقدمة ليست شاملة تمامًا ، لذلك نرحب بالتعليقات مع قائمة مستودعاتك المفضلة (أو الخاصة بك).