52 مجموعة بيانات لمشاريع التدريب
- مجموعة بيانات العملاء من مول - بيانات زوار المتجر: الهوية والجنس والعمر والدخل وتصنيف الإنفاق. ( استخدام حالة : مشروع تجزئة العملاء مع التعلم الآلي )
- Iris Dataset - مجموعة بيانات للمبتدئين ، تحتوي على أحجام من sepals وبتلات للزهور المختلفة.
- MNIST Dataset - مجموعة بيانات الأرقام المكتوبة بخط اليد. 60000 صورة تدريب و 10000 صورة اختبار.
- مجموعة بيانات بوسطن للإسكان هي مجموعة بيانات للتعرف على الأنماط الشائعة. أنه يحتوي على معلومات حول المنازل في بوسطن: عدد الشقق ، سعر الإيجار ، مؤشر الجريمة.
- تحتوي مجموعة بيانات الكشف عن الأخبار وهمية - على 7796 مُدخلاً مع ترميز الأخبار: صواب أو خطأ. ( استخدم الحالة مع مصدر Python: Faith News Detection Python Project )
- مجموعة بيانات جودة النبيذ - تحتوي على معلومات عن النبيذ: 4898 سجلًا يحتوي على 14 معلمة.
- بيانات SOCR - مجموعة بيانات مرتفعات وأوزان هي بداية جيدة. يحتوي على 25000 سجل طول ووزن 18 سنة.

تمت ترجمة هذه المقالة بدعم من EDISON Software ، وهي شركة تنفذ طلبيات ممتازة من جنوب الصين ، وتطور أيضًا تطبيقات الويب والمواقع .
- باركنسون داتاسيت - 195 سجلًا للمرضى المصابين بمرض باركنسون ، مع 25 معلمة تحليل. يمكن استخدامه لتقييم أولي للفرق بين المرضى والأشخاص الأصحاء. ( استخدم حالة مع بيثون المصدر: مشروع التعلم الآلي على اكتشاف مرض الشلل الرعاش )
- Titanic Dataset - يحتوي على معلومات حول الركاب (العمر والجنس والأقارب على متن الطائرة ، إلخ) 891 في مجموعة التدريب و 418 في مجموعة الاختبار.
- مجموعة بيانات Uber Pickups - معلومات عن 4.5 مليون رحلة إلى Uber 2014 و 14 مليون 2015. ( استخدم الحالة مع المصدر في R: مشروع تحليل بيانات Uber في R )
- Chars74k Dataset - يحتوي على صور للشخصيات البريطانية والكندية من 64 فئة: 0-9 ، AZ ، az. 7700 7.7k صور طبيعية ، 3400k مكتوبة بخط اليد ، 62000 خطوط توليفها الكمبيوتر.
- تحتوي مجموعة بيانات الكشف عن الاحتيال في بطاقة الائتمان - على معلومات حول معاملات بطاقات الائتمان المعرضة للخطر. ( استخدم الحالة مع المصدر: مشروع تعلم آلة كشف الاحتيال على بطاقة الائتمان )
- ملف Chatbot Intents Dataset - ملف JSON الذي يحتوي على عدة علامات: تحيات ، وداعًا ، hospital_search ، pharmacy_search ، إلخ. يحتوي على مجموعة من قوالب الأسئلة والأجوبة. ( استخدم الحالة مع المصدر في Python: مشروع Chatbot في Python )
- مجموعة بيانات Enron Email - تحتوي على نصف مليون رسالة بريد إلكتروني من 150 مديرًا لشركة Enron.
- يحتوي Yelp Dataset - على 1.2 مليون توصية من 1.6 مليون مستخدم ، أي حوالي 1.2 مليون مؤسسة.
- Jeopardy Dataset - أكثر من 200000 سؤال وجواب من لعبة تلفزيونية شهيرة.
- إن "ريكورد سيستمز داتا" هي بوابة تحتوي على مجموعة من مجموعات البيانات من جامعة UCSD. يحتوي على مراجعات على المواقع المشهورة (Goodreads ، Amazon). عظيم لإنشاء أنظمة التوصية. ( استخدام حالة مع مصدر في R: مشروع نظام توصية الفيلم في R )
- UCI Spambase Dataset - مجموعة بيانات التدريب للكشف عن البريد العشوائي. يحتوي على 4601 حرفًا مع 57 معلمة بيانات أولية.
- Flickr 30k Dataset - أكثر من 30000 صورة وتعليق. ( Flickr 8k Dataset - 8000 images. مشروع مع مصدر في Python: Image Caption Generator Python Project )
- مراجعات IMDB - 25000 مراجعات فيلم في مجموعة التدريب و 25000 مراجعات في مجموعة الاختبار. ( استخدم الحالة مع المصدر في R: مشروع علوم تحليل بيانات الشعور )
- مجموعة بيانات MS COCO - 1.5 مليون صورة موسومة.
- تحتوي مجموعة بيانات CIFAR-10 و CIFAR-100 - CIFAR-10 على 60000 صورة صغيرة 32 * 32 بكسل من الأرقام من 0 إلى 9. CIFAR-100 - على التوالي ، 0-100.
- GTSRB (علامة التعرف على إشارة المرور الألمانية) Dataset - 50000 صورة لـ 43 علامة طريق. ( استخدم حالة مع بيثون المصدر: مشروع بيثون التعرف على علامات المرور )
- مجموعة بيانات ImageNet - تحتوي على أكثر من 100000 عبارة وحوالي 1000 صورة لكل عبارة.
- صور التشريح المرضي للثدي - مجموعة البيانات - تحتوي مجموعة البيانات على صور لعينات سرطان الثدي. ( استخدم حالة مع مصدر في مشروع بيثون لتصنيف سرطان الثدي )
- Cityscapes Dataset - يحتوي على تعليقات توضيحية عالية الجودة لتسلسلات الفيديو في شوارع مدن مختلفة.
- Kinetics Dataset - يحتوي على رابط URL لحوالي 6.5 مليون مقطع فيديو عالي الجودة.
- مجموعة بيانات MPII البشرية تشكل - تحتوي مجموعة البيانات على 25000 صورة لمواقع الإنسان مع شروح للمفاصل.
- مجموعة بيانات v2 سعة 20 مليار - شيء ما - شيء ما هي مجموعة من مقاطع الفيديو عالية الجودة تُظهر كيفية قيام شخص ما بتنفيذ إجراءات معينة.
- Object 365 Dataset - مجموعة بيانات الصور عالية الجودة مع مربعات الكائنات المحيطة.
- مجموعة بيانات رسم الصور - تحتوي على أكثر من 1000 صورة مع رسومات الخطوط العريضة الخاصة بهم.
- CQ500 Dataset - تحتوي مجموعة البيانات على 491 CT بالاشعة من الرأس مع 193317 شريحة.
- IMDB-Wiki dataset - مجموعة بيانات بها أكثر من 5 ملايين صورة لأشخاص مميزين حسب الجنس والعمر. ( استخدم حالة مع مصدر في مشروع بيثون للكشف عن الجنس والعمر )
- Youtube 8M Dataset - مجموعة بيانات فيديو مصنفة تحتوي على 6.1 مليون معرّف فيديو Youtube
- مجموعة بيانات Urban Sound 8K - مجموعة من بيانات صوت المدينة (تحتوي على 8732 صوتًا من المدينة من 10 فصول).
- LSUN Dataset هي مجموعة بيانات تضم ملايين الصور الملونة للمشاهد والكائنات (حوالي 59 مليون صورة و 10 فئات مختلفة من المشاهد و 20 فئة مختلفة من الكائنات).
- RAVDESS Dataset هي قاعدة بيانات سمعية بصرية للكلام العاطفي. ( استخدام حالة مع مصدر في مشروع بيثون التعرف على العاطفة الكلام )
- يحتوي Librispeech Dataset - Dataset على 1000 ساعة من التحدث باللغة الإنجليزية مع لهجات مختلفة.
- بايدو Apolloscape Dataset - مجموعة بيانات لتطوير تكنولوجيا القيادة الذاتية.
- Quandl Data Portal - مستودع للبيانات الاقتصادية والمالية (يوجد محتوى مجاني ومدفوع).
- بوابة البيانات المفتوحة للبنك الدولي - معلومات عن القروض التي أصدرها البنك الدولي للبلدان النامية.
- بوابة بيانات صندوق النقد الدولي هي بوابة دولية للصندوق النقدي تنشر بيانات عن التمويل الدولي ، ومعدلات الديون ، والاستثمارات ، واحتياطيات النقد الأجنبي والسلع.
- بوابة بيانات الرابطة الاقتصادية الأمريكية (AEA) هي مورد للعثور على بيانات الاقتصاد الكلي في الولايات المتحدة.
- بوابة بيانات Google Trends - يمكن استخدام بيانات Google Trends لفحص البيانات وتحليلها بشكل مرئي.
- Financial Data Market Portal - مصدر للحصول على معلومات محدثة عن الأسواق المالية من جميع أنحاء العالم.
- بوابة Data.gov هي بوابة بيانات مفتوحة تابعة للحكومة الأمريكية (الزراعة ، الصحة ، المناخ ، التعليم ، الطاقة ، المالية ، العلوم والأبحاث ، إلخ).
- بوابة البيانات: بيانات الحكومة المفتوحة (الهند) هي منصة البيانات الحكومية المفتوحة في الهند .
- بيئة الغذاء Atlas Data Portal - يحتوي على بيانات أبحاث التغذية الأمريكية.
- بوابة بيانات الصحة هي بوابة وزارة الصحة والخدمات الإنسانية الأمريكية.
- بوابة بيانات مراكز السيطرة على الأمراض والوقاية منها - تحتوي على مجموعة واسعة من البيانات المتعلقة بالصحة.
- London Datastore Portal - بيانات عن حياة الناس في لندن.
- بوابة البيانات المفتوحة للحكومة الكندية - بوابة لفتح البيانات حول الكنديين (الزراعة ، الفن ، الموسيقى ، التعليم ، الحكومة ، الصحة ، إلخ)
اقرأ المزيد

اقرأ أيضا بلوق
شركة إديسون:
20 مكتبة لل
مذهلة تطبيق دائرة الرقابة الداخليةSource: https://habr.com/ru/post/ar480408/
All Articles