مجموعة مختارة من مجموعات بيانات التعلم الآلي

مرحبا القارئ!

فيما يلي دليل مقال عن مجموعات البيانات المفتوحة للتعلم الآلي. في ذلك ، بالنسبة للمبتدئين ، سأجمع مجموعة مختارة من مجموعات البيانات المثيرة والجديدة (نسبيًا). علاوة على ذلك ، في نهاية المقالة ، سوف أرفق روابط مفيدة لمجموعات البحث الذاتي.

أقل الكلمات والمزيد من البيانات.

صورة

مجموعة مختارة من مجموعات البيانات للتعلم الآلي:


  • وفيات ومعارك Game of Thrones - تجمع مجموعة البيانات هذه ثلاثة مصادر للبيانات ، يعتمد كل منها على معلومات من سلسلة من الكتب.
  • قاعدة بيانات الإرهاب العالمية - أكثر من 180،000 هجوم إرهابي في جميع أنحاء العالم ، 1970-2017.
  • Bitcoin ، بيانات تاريخية - بيانات Bitcoin مع فاصل زمني مدته دقيقة واحدة من البورصات المحددة ، يناير 2012 - مارس 2019.
  • مجموعة بيانات FIFA 19 الكاملة للاعبين - 18 كيلو + لاعبو FIFA 19 ، حوالي 90 سمة تم استرجاعها من أحدث قاعدة بيانات FIFA.
  • إحصائيات فيديو YouTube - إحصائيات عامة عن مقاطع فيديو YouTube.
  • نظرة عامة على مؤشرات الانتحار من 1985 إلى 2016 - مقارنة المعلومات الاجتماعية والاقتصادية مع معدلات الانتحار حسب السنة والبلد.
  • مجموعة ضخمة من سوق الأوراق المالية - الأسعار اليومية التاريخية وأحجام جميع الأسهم وصناديق الاستثمار المتداولة في الولايات المتحدة.
  • مؤشرات التنمية العالمية - مؤشرات تنمية البلدان من جميع أنحاء العالم.
  • Kaggle Machine Learning & Science Science Survey 2017 - رؤية عظيمة لحالة علم البيانات والتعلم الآلي.
  • بيانات العنف والأسلحة - تقرير كامل عن أكثر من 260،000 حادث أسلحة أمريكي في 2013-2018.
  • الأشعة السينية للصدر (الالتهاب الرئوي) - 5863 صورة ، فئتان.
  • التعرف على الصوت عن طريق الصوت - تم إنشاء قاعدة البيانات هذه لتعريف الصوت على أنه ذكر أو أنثى استنادًا إلى الخصائص الصوتية للصوت والكلام. تتكون مجموعة البيانات من 3،168 عينة صوتية مسجلة تم جمعها من الرجال والنساء.
  • استهلاك الكحول للطالب - تم الحصول على البيانات من دراسة استقصائية للطلاب في الرياضيات والبرتغالية في دورات المدرسة الثانوية. أنه يحتوي على الكثير من المعلومات الاجتماعية والجنسانية والتعليمية المثيرة للاهتمام حول الطلاب.
  • مجموعة بيانات خلية الملاريا - الصور الخلوية للكشف عن الملاريا.
  • مسوحات الشباب - بيانات عن تفضيلات الشباب ومصالحهم وعاداتهم وآرائهم ومخاوفهم.
  • تصنيفات الجامعات العالمية - استكشف أفضل الجامعات في العالم.
  • كشف الاحتيال على بطاقة الائتمان - مجموعات بيانات معاملات بطاقات الائتمان المجهولة التي تحمل علامة احتيالية أو أصلية.
  • تاريخ الإصابة بأمراض القلب - تحتوي قاعدة البيانات هذه على 76 سمة ، مثل العمر والجنس ونوع الألم في الصدر وضغط الدم المرتاح وغيرها.
  • قاعدة كرة القدم الأوروبية - أكثر من 25000 مباراة وسمات للاعبين وفرق كرة القدم الاحترافية الأوروبية.
  • النبيذ مراجعات - 130k مراجعات النبيذ مع مجموعة متنوعة ، والموقع ، الخمرة ، السعر والوصف.
  • بايدو Apolloscapes . مجموعة بيانات كبيرة للتعرف على 26 كائنًا مختلفًا تمامًا مثل السيارات والدراجات والمشاة والمباني ومصابيح الشوارع ، إلخ.
  • Comma.ai . أكثر من سبع ساعات على الطريق السريع. تتضمن مجموعة البيانات معلومات حول سرعة السيارة والتسارع وزاوية التوجيه وإحداثيات GPS.
  • التعرف على الألوان - تحتوي مجموعة البيانات هذه على 4242 صورة ملونة. يعتمد جمع البيانات على بيانات flicr وصور Google وصور Yandex.
  • سعر السوق اليومي لكل عملة مشفرة هو سعر العملة المشفر التاريخي لجميع الرموز.
  • تقييم الشوكولاتة - تقييم خبير لأكثر من 1700 قطعة شوكولاتة.
  • سوق التأمين الصحي - بيانات عن خطط الصحة وطب الأسنان في سوق التأمين الصحي في الولايات المتحدة.
  • أصوات نبضات القلب - تصنيف تشوهات نبضات القلب حسب سماعة الطبيب.
  • قاعدة بيانات توصيات أنيمي - توصيات من 76000 مستخدم على myanimelist.net
  • صور خلايا الدم - 12500 صورة: 4 أنواع مختلفة من الخلايا.
  • الأشعة السينية للصدر - أكثر من 112000 صورة شعاعية للصدر من أكثر من 30000 مريض فريد من نوعه.
  • تقارير القتل 1980-2014 - مشروع Killing Responsibility هو قاعدة بيانات القتل الأكثر شمولية في الولايات المتحدة المتاحة حاليًا.
  • قاعدة بيانات السيارات المستعملة - أكثر من 370،000 سيارة مستعملة. محتوى البيانات باللغة الألمانية ، لذلك تحتاج إلى ترجمتها أولاً إذا كنت لا تتحدث الألمانية.
  • بيت البيانات المفتوح للحكومة الأمريكية - بيانات وأدوات وموارد للبحث وتطوير تطبيقات الويب والجوال وتصور البيانات.
  • المركز الوطني للوقاية من الأمراض المزمنة وتعزيز الصحة (NCCDPHP). يعمل المركز على الحد من عوامل الخطر للأمراض المزمنة.
  • أكبر مجموعة في المملكة المتحدة من الموارد الاجتماعية والاقتصادية والديمغرافية.
  • EconData - عدة آلاف من السلاسل الزمنية الاقتصادية ، أعدها عدد من الوكالات الحكومية الأمريكية ووزعت في أشكال ووسائل إعلام مختلفة
  • مركز البحوث الساحلية - بيانات مثيرة للاهتمام عن البحر وتكوينه البيولوجي. هنا يمكنك العثور على مجموعات بيانات تتراوح من تحليل البيانات من نموذج البحر الأحمر إلى دراسة درجة الحرارة والتيارات على الجرف الجنوبي الضيق لكاليفورنيا.
  • مجموعة بيانات أرقام لغة الإشارة - تركيا وأنقرة وأيرانجي وأنادولو. مجموعة بيانات لغة الإشارة في المدرسة الثانوية.
  • نوعية النبيذ الأحمر هي مجموعة بيانات عملية بسيطة ومفهومة لنمذجة الانحدار أو التصنيف.
  • جداول الدوري الإنجليزي لكرة القدم (1968-2019).
  • HotspotQA Dataset - مجموعة بيانات تحتوي على أسئلة وإجابات ، تتيح لك إنشاء أنظمة للإجابة على الأسئلة بطريقة أكثر قابلية للفهم.
  • يعد xView واحدًا من أكبر مجموعة صور الأرض المتاحة للجمهور. أنه يحتوي على صور لمشاهد مختلفة من جميع أنحاء العالم ، مشروح باستخدام مربعات مربوطة.
  • Labelme - مجموعة كبيرة من الصور المشروحة.
  • ImageNet - مجموعة بيانات الصور للخوارزميات الجديدة ، المنظمة وفقًا لتسلسل هرمي WordNet ، حيث تمثل مئات وآلاف الصور كل عقدة في التسلسل الهرمي.
  • LSUN. - مجموعة من الصور مقسمة حسب المشهد والفئة مع ترميز جزئي للبيانات.
  • MS COCO عبارة عن مجموعة بيانات واسعة النطاق للكشف عن الكائنات وتقسيمها.
  • COIL100 - 100 كائن مختلف ، موضحة في كل زاوية في ثورة دائرية.
  • الجينوم المرئي - مجموعة بيانات تحتوي على حوالي 100 ألف صورة مشروحة مفصلة.
  • صور جوجل المفتوحة. - مجموعة من 9 ملايين عنوان URL للصور "تم تصنيفها على أكثر من 6000 فئة" بموجب ترخيص المشاع الإبداعي.
  • Labeled Faces in the Wild - مجموعة من 13000 صورة وجهية تحمل أسماء الأشخاص لاستخدام التطبيقات التي تنطوي على استخدام تقنية التعرف على الوجوه.
  • مجموعة بيانات Stanford Dogs - تحتوي على 20،580 صورة من 120 سلالة من الكلاب.
  • التعرف على المشهد الداخلي. - مجموعة بيانات للاعتراف الداخلية للمباني. يحتوي على 15 620 صورة و 67 فئة.
  • سيارة أكسفورد الآلية - أكثر من 100 تكرار لطريق أكسفورد تم التقاطه خلال العام. مجموعات مختلفة من الظروف الجوية وحركة المرور والمشاة ، وكذلك التغييرات على المدى الطويل مثل أعمال الطرق ، دخلت في مجموعة البيانات.
  • Cityscape Dataset عبارة عن مجموعة بيانات كبيرة تحتوي على سجلات لمائة مشاهد في 50 مدينة.
  • KUL Belgium Traffic Sign Dataset - أكثر من 10،000 شروح الآلاف من إشارات المرور المختلفة في بلجيكا.
  • مختبر ليزا للسيارات الذكية والآمنة - مجموعة بيانات تحمل علامات المرور وإشارات المرور والمركبات والمسارات المعترف بها.
  • مجموعة بيانات إشارة المرور الصغيرة من بوش - مجموعة بيانات بها 24000 إشارة مرور مشروحة.
  • مجموعات بيانات WPI - مجموعة بيانات للتعرف على إشارات المرور والمشاة وعلامات الطرق.
  • Berkeley DeepDrive - مجموعة بيانات ضخمة للطيار الآلي. يحتوي على أكثر من 100000 مقطع فيديو مع أكثر من 1100 ساعة من تسجيلات القيادة في أوقات مختلفة من اليوم وفي مختلف الظروف الجوية.
  • MIMIC-III - مجموعة بيانات تحتوي على بيانات مجهولة عن الحالة الصحية لحوالي 40000 مريض يخضعون للعناية المركزة (البيانات الديموغرافية والعلامات الحيوية والاختبارات المعملية والأدوية).
  • مراجعات Amazon - تحتوي على حوالي 35 مليون مراجعة من Amazon على مدى 18 عامًا. تتضمن البيانات معلومات المنتج والمستخدم ، والتقييمات ، ونص المراجعة نفسه.

روابط مفيدة للعثور على مجموعات البيانات:


  • بالطبع ، تعد Kaggle ملتقى لجميع عشاق مسابقات التعلم الآلي.
  • Google Dataset Search - ابحث في مجموعات البيانات عبر الإنترنت. أيضًا ، إذا لزم الأمر ، يمكنك إضافة مجموعات البيانات الخاصة بك .
  • مستودع Learning Machine عبارة عن مجموعة من قواعد البيانات ، ونظريات الموضوعات ، ومولدات البيانات التي يستخدمها مجتمع التعلم الآلي في تحليل خوارزميات التعلم الآلي.
  • VisualData - البحث عن مجموعات البيانات لرؤية الجهاز ، مع تصنيف مناسب.
  • DATA USA - مجموعة كاملة من البيانات المتاحة للجمهور من التصور والوصف والرسوم البيانية في الولايات المتحدة.

في هذا وصل اختيارنا القصير إلى نهايته. إذا كان لدى شخص ما ما يكمله أو يشاركه - اكتب التعليقات.

كل المعرفة!
اشترك في قناة Neuron في Telegram (neurondata) - هناك مقالات وأخبار جديدة تظهر من عالم علم البيانات كل أسبوع. شكراً لكل من ساعد في روابط مفيدة ، وخاصة إيجور ماريارتي وأندري بوندارينكو وماتي كوشرين.

Source: https://habr.com/ru/post/ar452392/


All Articles