Github 2 أخرى: التعلم الآلي ، مجموعات البيانات ، و Jupyter Notebooks



على الرغم من العديد من مصادر برامج تعلم الآلة المجانية المتوفرة على الإنترنت ، يظل Github مركزًا لتبادل المعلومات مهمًا لجميع أنواع أدوات المصادر المفتوحة المستخدمة من قبل مجتمع التعلم الآلي وتحليل البيانات.

تحتوي هذه المجموعة على مستودعات التعلم الآلي ومجموعات البيانات وأجهزة Jupyter Notebooks المصنفة حسب تصنيف النجوم. في الجزء السابق ، تحدثنا عن مستودعات شعبية لدراسة تصور البيانات والتعلم العميق.

تعلم الآلة


تعلم الآلة رهيبة
38 809 ، 9 615


قائمة مثيرة للإعجاب من الأنظمة والمكتبات والبرامج المصنفة حسب اللغة والفئة (رؤية الكمبيوتر ، معالجة اللغة الطبيعية ، إلخ). بالإضافة إلى ذلك ، ستجد في هذا المستودع قائمة بكتب مجانية للتعلم الآلي ، ودورات مجانية للتعلم الآلي (في الغالب) ، ومدونات لعلوم البيانات.

Scikit تعلم
34 067 ، 16 698


وضعت منذ عام 2007 ، وحدة بيثون للتعلم الآلي ، مبنية على أساس مكتبات SciPy و NumPy و Matplotlib. موزعة تحت رخصة BSD 3-Clause. Scikit-Learn هي أداة عالمية للعمل تحتوي على خوارزميات التصنيف والانحدار والتجميع ، بالإضافة إلى طرق لإعداد البيانات وتقييم النماذج.

PredictionIO
11 703 ، 1 903


إطار تعلم الآلة مفتوح المصدر يدعم جمع الأحداث ونشر الخوارزميات والتقييم والقوالب للمهام المعروفة مثل التصنيف والتوصيات. يتصل بالتطبيقات الحالية باستخدام REST API أو SDK. يعتمد التنبؤ على خدمات مفتوحة المصدر قابلة للتطوير مثل Hadoop و HBase (وغيرها من قواعد البيانات) و Elasticsearch و Spark.

الغوص في تعلم الآلة
9 163 ، 1673


المواد للمبتدئين في هذا الموضوع. يحتوي المستودع على مجموعة من البرامج التعليمية لـ IPython لمكتبة Scikit-learn ، والتي تنفذ عددًا كبيرًا من خوارزميات التعلم الآلي ، بالإضافة إلى العديد من الروابط بمواضيع تعلم الآلة ذات الصلة ببيثون ومزيد من المعلومات العامة حول تحليل البيانات. يقدم المؤلف روابط إلى العديد من البرامج التعليمية الأخرى التي تغطي الموضوع.

نمط
6 845 ، 1353


وحدة تطوير الويب المستندة إلى Python مع أدوات للتحليل ومعالجة اللغة الطبيعية (ترميز أجزاء الكلام والبحث n-gram وتحليل الحالة المزاجية و WordNet) والتعلم الآلي وتحليل الشبكات والتصور. تم إنشاء الوحدة النمطية وتوثيقها بشكل جيد في مركز أبحاث اللغويات واللغويات النفسية بجامعة أنتويرب (بلجيكا). ستجد في المستودع أكثر من 50 مثالًا على استخدامه.

GoLearn
6 374 ، 867


تطوير بنشاط مكتبة التعلم آلة ل Go. يوفر حزمة برامج كاملة المواصفات وسهلة الاستخدام وقابلة للتخصيص بشكل كبير للمطورين. تنفذ GoLearn واجهة تعلم Scikit-learning المألوفة.

Wowbit Vowpal
6 189 ، 1519


يمتد نظام Vowpal Wabbit حدود التعلم الآلي باستخدام طرق مثل التجزئة ، allreduce ، learning2search ، والتعلم النشط والتفاعلي. يهدف Vowpal Wabbit إلى تصميم مجموعات البيانات الضخمة بسرعة ودعم التعلم الموازي. يتم إيلاء اهتمام خاص لتعزيز التعلم باستخدام العديد من "خوارزميات العصابات" السياقية.

NuPIC (منصة Numenta للحوسبة الذكية)
5 852 ، 1570


تنفذ NuPIC خوارزميات تعلم الآلة ذات التسلسل الهرمي (HTM). بشكل عام ، HTM هي محاولة لمحاكاة العمليات الحسابية للقشرة المخية للعقل البشري وتركز على حفظ واستدعاء الأنماط المكانية والزمانية. HTM هو نظام ذاكرة ، وهو غير مبرمج ، ولا يتعلم تنفيذ الخوارزميات لمختلف المهام ، ويتعلم حل المشكلة. NuPIC مناسب لجميع أنواع المهام ، على وجه الخصوص ، لاكتشاف الحالات الشاذة للنمط.

aerosolve
4522، 570


يحاول aerosolve تمييز نفسه عن المكتبات الأخرى من خلال التركيز على أدوات تصحيح الأخطاء سهلة الاستخدام ، ورمز Scala للتدريب ، وآلية لتحليل محتوى الصورة من أجل التصنيف السهل والمرونة والتحكم في الوظائف. تم تصميم المكتبة للاستخدام مع الوظائف النادرة القابلة للتفسير والتي عادة ما توجد في البحث (البحث عن الكلمات الرئيسية ، المرشحات) أو التسعير (عدد الغرف في غرفة الفندق ، الموقع ، السعر).

رمز للتعلم الآلي للقراصنة
467 3 ، 2220


مستودع تكميلي لـ Machine Learning for Hackers ، مستودع يتم عرض كل الكود به بلغة R ، مخصص لمعالجة البيانات الإحصائية (في الواقع ، معيار البرامج الإحصائية) والرسومات. ستجد هنا العديد من حزم R. تشمل الموضوعات التي يتم تناولها التصنيف العام ومهام التصنيف والانحدار ، بالإضافة إلى الإجراءات الإحصائية لتحليل المكونات والقياس متعدد الأبعاد.

مجموعات بيانات جيثب


مجموعات البيانات العامة رهيبة
31 852 ، 5361


مستودع آخر مثير للإعجاب بحجمه هو قائمة مقسمة إلى 30 موضوعًا: الأحياء ، الرياضة ، المتاحف ، اللغة الطبيعية ، إلخ. يتضمن المستودع عدة مئات من مجموعات البيانات ، معظمها مجاني. فيما يلي روابط لمجموعات البيانات الكبيرة الأخرى.

OpenAddresses
644 1 745


مستودع OpenAddresses.io الرسمي هو مجموعة عالمية مجانية ومفتوحة لعناوين الشوارع. يتضمن المشروع أسماء الشوارع وأرقام المنازل والرموز البريدية والإحداثيات الجغرافية.

افتح كتالوج الكواكب الخارجية
583، 176


فهرس لجميع الكواكب المعروفة الموجودة خارج النظام الشمسي. سابقا ، تم تحديث قاعدة البيانات في غضون 24 ساعة بعد اكتشاف كوكب جديد ، ولكن الآن ، لسوء الحظ ، فإن المشروع لا يتطور عمليا.

CitySDK
510 149


قاعدة بيانات مكتب الإحصاء الأمريكي ، والتي تم تكييفها للتكامل مع مجموعات البيانات المفتوحة الأخرى ، مع وظائف ملائمة للعمل وإنشاء مجموعة البيانات المخصصة الخاصة بك مع واجهة برمجة تطبيقات التعداد: الإحصاءات ، GeoJSON الخرائطية ، خطوط الطول / الخط ، إلخ.

openFDA
353 84


openFDA هو مشروع إدارة الغذاء والدواء الأمريكية (FDA) يهدف إلى توفير مجموعة من مجموعات البيانات العامة للباحثين والمطورين من خلال واجهة برمجة التطبيقات ، بالإضافة إلى أمثلة حول كيفية استخدام هذه البيانات والوثائق. هناك معلومات حول الآثار الجانبية للأدوية ، وصف الدواء ، تقارير عن انسحاب الدواء من السوق ، والتغييرات في صيغة الوصفة الطبية.

سيرن بوابة البيانات المفتوحة
247 88


رمز مصدر بوابة البيانات المفتوحة لمنظمة البحوث النووية CERN ، والذي يوصف بأنه "نقطة وصول إلى مجموعة متزايدة من البيانات من أبحاث CERN".

دفاتر IPython (Jupyter)


قائمة مستودعات Github المفيدة التي تتكون من دفاتر IPython (Jupyter) التي تركز على معالجة البيانات والتعلم الآلي.

بيثون آلة كتاب التعلم
9 655 ، 3 674


مستودع مصاحب للطبعة الأولى من كتاب Machine Learning with Python (مستودع للطبعة الثانية هنا ) ، والذي يتعامل مع العمل مع القيم المفقودة ، وتحويل المتغيرات التصنيفية إلى تنسيقات مناسبة للتعلم الآلي ، واختيار الخصائص الإعلامية ، وضغط البيانات مع النقل إلى مسافات فرعية أقل عدد القياسات.

مثال دفتر علوم البيانات
4 156 ، 1 463


مستودع للمواد التدريبية ، الكود والبيانات لمختلف مشاريع تحليل البيانات والتعلم الآلي. يحتوي Notebook على جميع المبادئ الأساسية للعمل مع تحليل البيانات باستخدام مجموعة بيانات Iris كمثال ويوضح بناء سير العمل في علم البيانات. يتم الحصول على النقاط الأساسية للعمل في الريبو من كتاب " عناصر تحليل البيانات على غرار " (جيف ليك ، 2015).

تعلم علم البيانات
2 197 ، 1 228


مجموعة من أجهزة الكمبيوتر المحمولة ومجموعات البيانات التي تغطي أربعة موضوعات حسابية: الانحدار الخطي والانحدار اللوجستي والغابات العشوائية وخوارزميات التجميع K-Means. يعتمد Learn Science Science على المواد التي تم إنشاؤها لمشروع تدريب Open Data Science .

دفاتر Ipython
2 106 ، 1 226


يحتوي المستودع على العديد من دفاتر IPython Notebooks - بدءًا من نظرة عامة على لغة IPython ووظيفتها إلى أمثلة لاستخدام مختلف المكتبات الشعبية في تحليل البيانات. ستجد هنا مجموعة شاملة من التعلم الآلي والتعلم العميق ومواد معالجة البيانات الكبيرة من دورات تعلم الآلة بواسطة Andrew Ng (Coursera) و Intro to TensorFlow for Deep Learning (Udacity) و Spark (edX).

Scikit- تعلم البرنامج التعليمي
963، 573


مستودع لتعلم مكتبة Scikit-learn ، التي تنفذ عددًا كبيرًا من خوارزميات التعلم الآلي. توفر المكتبة تنفيذ عدد من الخوارزميات للتعلم مع أو بدون معلم. تم بناء Scikit -learn على قمة SciPy (بيثون العلمية).

تعلم الآلة
543 336


سلسلة من البرامج التعليمية المفصلة للغاية حول IPython Notebook بناءً على بيانات من دورة أندرو نغا لتعلم الآلة (جامعة ستانفورد) ، ودورة توم ميتشل (جامعة كارنيجي ميلون) ، وكتاب كريستوفر بيشور للتعرف على الأنماط وتعلم الآلة.

القائمة المقدمة ليست شاملة تمامًا ، لذلك نرحب بالتعليقات مع قائمة مستودعاتك المفضلة (أو الخاصة بك).

Source: https://habr.com/ru/post/ar445530/


All Articles