52 مجموعة بيانات لمشاريع التدريب

  1. مجموعة بيانات العملاء من مول - بيانات زوار المتجر: الهوية والجنس والعمر والدخل وتصنيف الإنفاق. ( استخدام حالة : مشروع تجزئة العملاء مع التعلم الآلي )
  2. Iris Dataset - مجموعة بيانات للمبتدئين ، تحتوي على أحجام من sepals وبتلات للزهور المختلفة.
  3. MNIST Dataset - مجموعة بيانات الأرقام المكتوبة بخط اليد. 60000 صورة تدريب و 10000 صورة اختبار.
  4. مجموعة بيانات بوسطن للإسكان هي مجموعة بيانات للتعرف على الأنماط الشائعة. أنه يحتوي على معلومات حول المنازل في بوسطن: عدد الشقق ، سعر الإيجار ، مؤشر الجريمة.
  5. تحتوي مجموعة بيانات الكشف عن الأخبار وهمية - على 7796 مُدخلاً مع ترميز الأخبار: صواب أو خطأ. ( استخدم الحالة مع مصدر Python: Faith News Detection Python Project )
  6. مجموعة بيانات جودة النبيذ - تحتوي على معلومات عن النبيذ: 4898 سجلًا يحتوي على 14 معلمة.
  7. بيانات SOCR - مجموعة بيانات مرتفعات وأوزان هي بداية جيدة. يحتوي على 25000 سجل طول ووزن 18 سنة.
    إديسون البرمجيات - تطوير الشبكة
    تمت ترجمة هذه المقالة بدعم من EDISON Software ، وهي شركة تنفذ طلبيات ممتازة من جنوب الصين ، وتطور أيضًا تطبيقات الويب والمواقع .
  8. باركنسون داتاسيت - 195 سجلًا للمرضى المصابين بمرض باركنسون ، مع 25 معلمة تحليل. يمكن استخدامه لتقييم أولي للفرق بين المرضى والأشخاص الأصحاء. ( استخدم حالة مع بيثون المصدر: مشروع التعلم الآلي على اكتشاف مرض الشلل الرعاش )
  9. Titanic Dataset - يحتوي على معلومات حول الركاب (العمر والجنس والأقارب على متن الطائرة ، إلخ) 891 في مجموعة التدريب و 418 في مجموعة الاختبار.
  10. مجموعة بيانات Uber Pickups - معلومات عن 4.5 مليون رحلة إلى Uber 2014 و 14 مليون 2015. ( استخدم الحالة مع المصدر في R: مشروع تحليل بيانات Uber في R )
  11. Chars74k Dataset - يحتوي على صور للشخصيات البريطانية والكندية من 64 فئة: 0-9 ، AZ ، az. 7700 7.7k صور طبيعية ، 3400k مكتوبة بخط اليد ، 62000 خطوط توليفها الكمبيوتر.
  12. تحتوي مجموعة بيانات الكشف عن الاحتيال في بطاقة الائتمان - على معلومات حول معاملات بطاقات الائتمان المعرضة للخطر. ( استخدم الحالة مع المصدر: مشروع تعلم آلة كشف الاحتيال على بطاقة الائتمان )
  13. ملف Chatbot Intents Dataset - ملف JSON الذي يحتوي على عدة علامات: تحيات ، وداعًا ، hospital_search ، pharmacy_search ، إلخ. يحتوي على مجموعة من قوالب الأسئلة والأجوبة. ( استخدم الحالة مع المصدر في Python: مشروع Chatbot في Python )
  14. مجموعة بيانات Enron Email - تحتوي على نصف مليون رسالة بريد إلكتروني من 150 مديرًا لشركة Enron.
  15. يحتوي Yelp Dataset - على 1.2 مليون توصية من 1.6 مليون مستخدم ، أي حوالي 1.2 مليون مؤسسة.
  16. Jeopardy Dataset - أكثر من 200000 سؤال وجواب من لعبة تلفزيونية شهيرة.
  17. إن "ريكورد سيستمز داتا" هي بوابة تحتوي على مجموعة من مجموعات البيانات من جامعة UCSD. يحتوي على مراجعات على المواقع المشهورة (Goodreads ، Amazon). عظيم لإنشاء أنظمة التوصية. ( استخدام حالة مع مصدر في R: مشروع نظام توصية الفيلم في R )
  18. UCI Spambase Dataset - مجموعة بيانات التدريب للكشف عن البريد العشوائي. يحتوي على 4601 حرفًا مع 57 معلمة بيانات أولية.
  19. Flickr 30k Dataset - أكثر من 30000 صورة وتعليق. ( Flickr 8k Dataset - 8000 images. مشروع مع مصدر في Python: Image Caption Generator Python Project )
  20. مراجعات IMDB - 25000 مراجعات فيلم في مجموعة التدريب و 25000 مراجعات في مجموعة الاختبار. ( استخدم الحالة مع المصدر في R: مشروع علوم تحليل بيانات الشعور )
  21. مجموعة بيانات MS COCO - 1.5 مليون صورة موسومة.
  22. تحتوي مجموعة بيانات CIFAR-10 و CIFAR-100 - CIFAR-10 على 60000 صورة صغيرة 32 * 32 بكسل من الأرقام من 0 إلى 9. CIFAR-100 - على التوالي ، 0-100.
  23. GTSRB (علامة التعرف على إشارة المرور الألمانية) Dataset - 50000 صورة لـ 43 علامة طريق. ( استخدم حالة مع بيثون المصدر: مشروع بيثون التعرف على علامات المرور )
  24. مجموعة بيانات ImageNet - تحتوي على أكثر من 100000 عبارة وحوالي 1000 صورة لكل عبارة.
  25. صور التشريح المرضي للثدي - مجموعة البيانات - تحتوي مجموعة البيانات على صور لعينات سرطان الثدي. ( استخدم حالة مع مصدر في مشروع بيثون لتصنيف سرطان الثدي )
  26. Cityscapes Dataset - يحتوي على تعليقات توضيحية عالية الجودة لتسلسلات الفيديو في شوارع مدن مختلفة.
  27. Kinetics Dataset - يحتوي على رابط URL لحوالي 6.5 مليون مقطع فيديو عالي الجودة.
  28. مجموعة بيانات MPII البشرية تشكل - تحتوي مجموعة البيانات على 25000 صورة لمواقع الإنسان مع شروح للمفاصل.
  29. مجموعة بيانات v2 سعة 20 مليار - شيء ما - شيء ما هي مجموعة من مقاطع الفيديو عالية الجودة تُظهر كيفية قيام شخص ما بتنفيذ إجراءات معينة.
  30. Object 365 Dataset - مجموعة بيانات الصور عالية الجودة مع مربعات الكائنات المحيطة.
  31. مجموعة بيانات رسم الصور - تحتوي على أكثر من 1000 صورة مع رسومات الخطوط العريضة الخاصة بهم.
  32. CQ500 Dataset - تحتوي مجموعة البيانات على 491 CT بالاشعة من الرأس مع 193317 شريحة.
  33. IMDB-Wiki dataset - مجموعة بيانات بها أكثر من 5 ملايين صورة لأشخاص مميزين حسب الجنس والعمر. ( استخدم حالة مع مصدر في مشروع بيثون للكشف عن الجنس والعمر )
  34. Youtube 8M Dataset - مجموعة بيانات فيديو مصنفة تحتوي على 6.1 مليون معرّف فيديو Youtube
  35. مجموعة بيانات Urban Sound 8K - مجموعة من بيانات صوت المدينة (تحتوي على 8732 صوتًا من المدينة من 10 فصول).
  36. LSUN Dataset هي مجموعة بيانات تضم ملايين الصور الملونة للمشاهد والكائنات (حوالي 59 مليون صورة و 10 فئات مختلفة من المشاهد و 20 فئة مختلفة من الكائنات).
  37. RAVDESS Dataset هي قاعدة بيانات سمعية بصرية للكلام العاطفي. ( استخدام حالة مع مصدر في مشروع بيثون التعرف على العاطفة الكلام )
  38. يحتوي Librispeech Dataset - Dataset على 1000 ساعة من التحدث باللغة الإنجليزية مع لهجات مختلفة.
  39. بايدو Apolloscape Dataset - مجموعة بيانات لتطوير تكنولوجيا القيادة الذاتية.
  40. Quandl Data Portal - مستودع للبيانات الاقتصادية والمالية (يوجد محتوى مجاني ومدفوع).
  41. بوابة البيانات المفتوحة للبنك الدولي - معلومات عن القروض التي أصدرها البنك الدولي للبلدان النامية.
  42. بوابة بيانات صندوق النقد الدولي هي بوابة دولية للصندوق النقدي تنشر بيانات عن التمويل الدولي ، ومعدلات الديون ، والاستثمارات ، واحتياطيات النقد الأجنبي والسلع.
  43. بوابة بيانات الرابطة الاقتصادية الأمريكية (AEA) هي مورد للعثور على بيانات الاقتصاد الكلي في الولايات المتحدة.
  44. بوابة بيانات Google Trends - يمكن استخدام بيانات Google Trends لفحص البيانات وتحليلها بشكل مرئي.
  45. Financial Data Market Portal - مصدر للحصول على معلومات محدثة عن الأسواق المالية من جميع أنحاء العالم.
  46. بوابة Data.gov هي بوابة بيانات مفتوحة تابعة للحكومة الأمريكية (الزراعة ، الصحة ، المناخ ، التعليم ، الطاقة ، المالية ، العلوم والأبحاث ، إلخ).
  47. بوابة البيانات: بيانات الحكومة المفتوحة (الهند) هي منصة البيانات الحكومية المفتوحة في الهند .
  48. بيئة الغذاء Atlas Data Portal - يحتوي على بيانات أبحاث التغذية الأمريكية.
  49. بوابة بيانات الصحة هي بوابة وزارة الصحة والخدمات الإنسانية الأمريكية.
  50. بوابة بيانات مراكز السيطرة على الأمراض والوقاية منها - تحتوي على مجموعة واسعة من البيانات المتعلقة بالصحة.
  51. London Datastore Portal - بيانات عن حياة الناس في لندن.
  52. بوابة البيانات المفتوحة للحكومة الكندية - بوابة لفتح البيانات حول الكنديين (الزراعة ، الفن ، الموسيقى ، التعليم ، الحكومة ، الصحة ، إلخ)


اقرأ المزيد





اقرأ أيضا بلوق
شركة إديسون:


20 مكتبة لل
مذهلة تطبيق دائرة الرقابة الداخلية

Source: https://habr.com/ru/post/ar480408/


All Articles