مجموعة مختارة من مجموعات البيانات للتعلم الآلي

مرحبا شباب

قبل أن يكون دليل مقال لفتح مجموعات البيانات للتعلم الآلي. في ذلك ، سأجمع في البداية مجموعة مختارة من مجموعات البيانات المثيرة والجديدة (نسبيًا). وكمكافأة ، في نهاية المقال ، سوف أرفق روابط مفيدة في البحث المستقل لمجموعات البيانات.

أقل الكلمات والمزيد من البيانات.

صورة

مجموعة مختارة من مجموعات البيانات للتعلم الآلي:


  • وفيات ومعارك البيانات من لعبة العروش - تجمع مجموعة البيانات هذه ثلاثة مصادر للبيانات ، يعتمد كل منها على معلومات من سلسلة من الكتب.
  • قاعدة بيانات الإرهاب العالمية - أكثر من 180،000 هجوم إرهابي في جميع أنحاء العالم ، 1970-2017.
  • Bitcoin ، بيانات تاريخية - بيانات Bitcoin مع فاصل زمني مدته دقيقة واحدة من البورصات المحددة ، يناير 2012 - مارس 2019
  • FIFA 19 مجموعة كاملة من بيانات اللاعب - 18k + لاعبي FIFA 19 ، حوالي 90 سمة ، تم استخراجها من أحدث قاعدة بيانات FIFA.
  • إحصائيات فيديو YouTube - إحصائيات يومية لمقاطع فيديو الاتجاه على YouTube.
  • مسح لمعدلات الانتحار 1985 حتي 2016 - مقارنة المعلومات الاجتماعية والاقتصادية مع معدلات الانتحار حسب السنة والبلد.
  • مجموعة ضخمة من بيانات سوق الأسهم - الأسعار اليومية التاريخية وحجم جميع الأسهم الأمريكية وصناديق الاستثمار المتداولة.
  • مؤشرات التنمية العالمية - مؤشرات التنمية لدول من جميع أنحاء العالم.
  • Kaggle Machine Learning & Science Science Survey 2017 - رؤية عظيمة لحالة علم البيانات والتعلم الآلي.
  • بيانات عن العنف والأسلحة - تقرير كامل عن أكثر من 260 ألف حادث سلاح أمريكي في 2013-2018
  • الأشعة السينية للصدر (الالتهاب الرئوي) - 5863 صورة ، فئتان.
  • التعرف على الجنس عن طريق الصوت - تم إنشاء قاعدة البيانات هذه لتحديد الصوت على أنه ذكر أو أنثى ، بناءً على الخصائص الصوتية للصوت والكلام. تتكون مجموعة البيانات من 3168 عينة صوتية مسجلة تم جمعها من الرجال والنساء.
  • استهلاك الكحول للطالب - تم الحصول على البيانات في استطلاع للطلاب في دورات الرياضيات واللغة البرتغالية في المدرسة الثانوية. أنه يحتوي على الكثير من المعلومات الاجتماعية والجنسانية والتعليمية المثيرة للاهتمام حول الطلاب.
  • مجموعة بيانات خلية الملاريا - الصور الخلوية للكشف عن الملاريا.
  • مسوحات الشباب - بيانات عن تفضيلات الشباب ومصالحهم وعاداتهم وآرائهم ومخاوفهم.
  • تصنيفات الجامعات العالمية - استكشف أفضل الجامعات في العالم.
  • كشف الاحتيال في بطاقة الائتمان - معاملات بطاقة الائتمان المجهولة تحمل علامة احتيالية أو حقيقية.
  • Dataset heart disease - تحتوي قاعدة البيانات هذه على 76 سمة ، مثل العمر والجنس ونوع ألم الصدر وضغط الدم المرتاح وغيرها.
  • قاعدة كرة القدم الأوروبية - أكثر من 25000 مباراة وصفات للاعبين وفرق كرة القدم الاحترافية الأوروبية.
  • النبيذ مراجعات - 130k مراجعات النبيذ مع مجموعة متنوعة ، والموقع ، الخمرة ، السعر والوصف.
  • بايدو Apolloscapes . مجموعة بيانات كبيرة للتعرف على 26 كائنًا مختلفًا تمامًا مثل السيارات والدراجات والمشاة والمباني ومصابيح الشوارع ، إلخ.
  • Comma.ai . أكثر من سبع ساعات القيادة على الطريق السريع. تتضمن مجموعة البيانات معلومات حول سرعة السيارة ، التسارع ، زاوية التوجيه وإحداثيات GPS.
  • التعرف على اللون - تحتوي مجموعة البيانات هذه على 4242 صورة ملونة. يعتمد جمع البيانات على بيانات flicr وصور Google وصور Yandex.
  • سعر السوق اليومي لكل عملة مشفرة - أسعار العملة المشفرة التاريخية لجميع الرموز.
  • تصنيف الشوكولاتة - تقييم خبير لأكثر من 1700 قطعة شوكولاتة.
  • سوق التأمين الطبي - بيانات عن خطط الصحة والأسنان لسوق التأمين الصحي في الولايات المتحدة.
  • أصوات نبضات القلب - تصنيف تشوهات نبضات القلب بواسطة سماعة الطبيب.
  • قاعدة بيانات توصيات منتديات - توصيات من 76000 مستخدم على myanimelist.net
  • صور خلايا الدم - 12500 صورة: 4 أنواع مختلفة من الخلايا.
  • الأشعة السينية للصدر - أكثر من 112000 صورة شعاعية للصدر من أكثر من 30000 مريض فريد من نوعه.
  • تقارير القتل ، 1980-2014 - مشروع قتل المسؤولية هو قاعدة بيانات القتل الأكثر شمولية في الولايات المتحدة المتاحة حاليا ..
  • قاعدة بيانات السيارات المستعملة - أكثر من 370،000 سيارة مستعملة. محتوى البيانات باللغة الألمانية ، لذلك يجب عليك أولاً ترجمته إذا كنت لا تتحدث الألمانية.
  • بيت البيانات المفتوح للحكومة الأمريكية - البيانات والأدوات والموارد اللازمة لإجراء البحوث وتطوير تطبيقات الويب والتطبيقات المحمولة وتطوير تصورات البيانات.
  • المركز الوطني للوقاية من الأمراض المزمنة وتعزيز الصحة (NCCDPHP). يعمل المركز على الحد من عوامل الخطر للأمراض المزمنة.
  • أكبر مجموعة في المملكة المتحدة من الموارد الاجتماعية والاقتصادية والديمغرافية.
  • EconData - n عدة آلاف من السلاسل الزمنية الاقتصادية ، من إعداد عدد من الوكالات الحكومية الأمريكية وتوزيعها في أشكال ووسائل الإعلام المختلفة.
  • مركز أبحاث الساحل - بيانات مثيرة للاهتمام عن البحر وتكوينه البيولوجي. هنا يمكنك العثور على مجموعات البيانات من تحليل البيانات من نموذج البحر الأحمر إلى دراسة درجة الحرارة والتيارات على الجرف الجنوبي الضيق لكاليفورنيا.
  • مجموعة بيانات أرقام لغة الإشارة - تركيا وأنقرة وأيرانجي وأنادولو. مجموعة بيانات لغة الإشارة في المدرسة الثانوية.
  • جودة النبيذ الأحمر - مجموعة بيانات عملية بسيطة وواضحة لنمذجة الانحدار أو التصنيف.
  • جداول الدوري الإنجليزي لكرة القدم (1968-2019).
  • HotspotQA Dataset - مجموعة البيانات مع الأسئلة والأجوبة ، مما يتيح لك إنشاء نظام للإجابة على الأسئلة بطريقة أكثر قابلية للفهم.
  • xView - واحدة من أكبر مجموعات متاحة للجمهور من الصور الجوية للأرض. أنه يحتوي على صور لمشاهد مختلفة من جميع أنحاء العالم ، مشروح مع مربعات المحيطة.
  • Labelme - مجموعة بيانات الصور المشروحة الكبيرة.
  • ImageNet - مجموعة بيانات الصور للخوارزميات الجديدة ، المنظمة وفقًا لتسلسل هرمي WordNet ، حيث تمثل مئات وآلاف الصور كل عقدة من التسلسل الهرمي.
  • LSUN. - مجموعات بيانات الصور ، مقسمة إلى مشاهد وفئات مع بيانات وسم جزئية.
  • MS COCO - مجموعة بيانات واسعة النطاق للكشف عن الأشياء وتقسيمها.
  • COIL100 - 100 جسم مختلف مبين في كل زاوية في دوران دائري.
  • الجينوم المرئي - مجموعة البيانات مع حوالي 100 ألف. صور مفصلة مشروحة.
  • صور جوجل المفتوحة. - مجموعة من 9 ملايين عنوان URL للصور "الموسومة بأكثر من 6000 فئة" بموجب ترخيص المشاع الإبداعي.
  • Labeled Faces in the Wild - مجموعة من 13000 صورة وجهية واضحة للأشخاص لاستخدامها في التطبيقات التي تنطوي على استخدام تقنية التعرف على الوجوه.
  • مجموعة بيانات Stanford Dogs - تحتوي على 20،580 صورة من 120 سلالة من الكلاب.
  • التعرف على المشهد الداخلي. - مجموعة بيانات للتعرف على المباني الداخلية. يحتوي على 15،620 صورة و 67 فئة.
  • سيارة روبوت أكسفورد - أكثر من 100 تكرار لطريق واحد عبر أكسفورد ، تم تصويرها خلال العام. مجموعات مختلفة من الظروف الجوية وحركة المرور والمشاة ، وكذلك التغييرات الأطول ، مثل أعمال الطرق ، دخلت في مجموعات البيانات.
  • Cityscape Dataset - مجموعة بيانات كبيرة تحتوي على سجلات لمئات مشاهد الشوارع في 50 مدينة.
  • KUL Belgium Traffic Sign Dataset - أكثر من 10،000 شروح الآلاف من إشارات المرور المختلفة في بلجيكا.
  • مختبر ليزا للسيارات الذكية والآمنة - مجموعة بيانات تحمل علامات الطرق وإشارات المرور والمركبات المعترف بها ومسارات الحركة.
  • Bosch Small Traffic Light Dataset - التواريخ التي تحتوي على 24000 إشارة مرور مشروحة.
  • مجموعات بيانات WPI - مجموعة بيانات للتعرف على إشارات المرور والمشاة وعلامات الطرق.
  • Berkeley DeepDrive - مجموعة بيانات ضخمة للطيار الآلي. يحتوي على أكثر من 100000 مقطع فيديو مع أكثر من 1100 ساعة من سجلات القيادة في أوقات مختلفة من اليوم وفي ظروف الطقس المختلفة.
  • MIMIC-III - مجموعات البيانات التي تحتوي على بيانات غير شخصية عن الحالة الصحية لحوالي 40000 مريض في العناية المركزة (البيانات الديموغرافية والعلامات الحيوية والاختبارات المعملية والأدوية).
  • مراجعات Amazon - تحتوي على حوالي 35 مليون مراجعة من Amazon لمدة 18 عامًا. تتضمن البيانات معلومات المنتج والمستخدم ، تقييمات ونص المراجعة نفسها.

روابط مفيدة للبحث في مجموعات البيانات:


  • بالتأكيد Kaggle - مكان لقاء لجميع عشاق مسابقات التعلم الآلي.
  • Google Dataset Search - ابحث في مجموعات البيانات عبر الإنترنت. أيضا ، إذا لزم الأمر ، يمكنك إضافة مجموعات البيانات الخاصة .
  • مستودع التعلم الآلي - مجموعة من قواعد البيانات ونظريات المجال ومولدات البيانات التي يتم استخدامها بواسطة مجتمع التعلم الآلي للتحليل التجريبي لخوارزميات التعلم الآلي.
  • VisualData - مجموعة بيانات ابحث عن رؤية الماكينة ، مع تصنيف مناسب حسب الفئة.
  • DATA USA - مجموعة كاملة من البيانات الأمريكية المتاحة للجمهور مع التصور والوصف والرسوم البيانية.

على هذا ، وصل اختيارنا القصير إلى نهايته. إذا كان لدى شخص ما ما تضيفه أو تشاركه - اكتب التعليقات.

شكرا!

Source: https://habr.com/ru/post/ar452740/


All Articles