علم البيانات للمبتدئين1. تحليل المشاعر

راجع التنفيذ الكامل لمشروع علوم البيانات باستخدام الكود المصدري -
مشروع تحليل المعنويات في R.تحليل المشاعر هو تحليل للكلمات لتحديد الحالة المزاجية والآراء التي يمكن أن تكون إيجابية أو سلبية. هذا هو نوع من التصنيف يمكن أن تكون فيه الصفوف ثنائية (إيجابية وسلبية) أو متعددة (سعيدة ، شر ، حزينة ، سيئة ...). سننفذ مشروع علوم البيانات هذا بلغة البحث وسوف نستخدم مجموعة البيانات في حزمة janeaustenR. سنستخدم قواميس للأغراض العامة ، مثل AFINN و bing و loughran ، لإجراء صلة داخلية ، وفي النهاية سننشئ سحابة كلمات لعرض النتيجة.
اللغة: ر
مجموعة البيانات
/ الحزمة: janeaustenR

تمت ترجمة هذه المقالة بدعم من EDISON Software ، وهي شركة تقوم بصنع غرف تركيب افتراضية للمتاجر متعددة العلامات التجارية ، وكذلك اختبارات البرمجيات .
2. كشف أخبار وهمية
انتقل بمهاراتك إلى المستوى التالي من خلال العمل في مشروع "علوم البيانات" للمبتدئين -
اكتشاف أخبار وهمية باستخدام Python .

الأخبار المزيفة هي معلومات كاذبة يتم نشرها عبر الشبكات الاجتماعية ووسائل الإعلام الأخرى عبر الإنترنت لتحقيق أهداف سياسية. في فكرة مشروع Data Science ، سوف نستخدم Python لبناء نموذج يمكنه أن يحدد بدقة ما إذا كانت الأخبار حقيقية أم مزيفة. سنقوم بإنشاء TfidfVectorizer واستخدام PassiveAggressiveClassifier لتصنيف الأخبار إلى "حقيقية" و "وهمية". سنستخدم مجموعة بيانات النموذج 7796 × 4 وننفذ كل شيء في Jupyter Lab.
اللغة: بيثون
مجموعة البيانات
/ الحزمة: news.csv
3. الكشف عن مرض باركنسون (الكشف عن مرض باركنسون)
المضي قدمًا في فكرة مشروع علم البيانات -
تحديد مرض الشلل الرعاش باستخدام XGBoost .

بدأنا في استخدام Data Data لتحسين الرعاية الصحية والخدمات - إذا استطعنا التنبؤ بالمرض في مرحلة مبكرة ، فسنحصل على العديد من الفوائد. لذلك ، في فكرة مشروع Data Science ، سنتعلم كيفية اكتشاف مرض الشلل الرعاش باستخدام بيثون. هذا هو مرض تنكس عصبي ، تدريجي للجهاز العصبي المركزي الذي يؤثر على الحركة ويسبب ارتعاشًا وتصلبًا. إنه يؤثر على الخلايا العصبية المنتجة للدوبامين في المخ ، وكل عام يصيب أكثر من مليون شخص في الهند.
اللغة: بيثون
مجموعة البيانات
/ الحزمة: مجموعة بيانات UCI ML Parkinsons
مشاريع علوم البيانات متوسطة التعقيد4. خطاب التعرف على العاطفة
تحقق من التنفيذ الكامل لمشروع نموذج علم البيانات -
التعرف على الكلام مع Librosa .

دعونا الآن نتعلم كيفية استخدام مكتبات مختلفة. يستخدم مشروع علوم البيانات هذا برصا للتعرف على الكلام. SER هي عملية تحديد المشاعر الإنسانية والحالات العاطفية من الكلام. نظرًا لأننا نستخدم الملعب والملعب للتعبير عن المشاعر في الصوت ، فإن SER مناسب. ولكن نظرًا لأن المشاعر ذاتية ، فإن الصوت التوضيحي يعد مهمة شاقة. سنستخدم وظائف mfcc و chroma و mel ونستخدم مجموعة بيانات RAVDESS للتعرف على المشاعر. سنقوم بإنشاء مصنف MLPC لهذا النموذج.
اللغة: بيثون
مجموعة البيانات
/ الحزمة: RAVDESS dataset
5. الجنس وكشف العمر
أذهل أصحاب العمل بأحدث مشروع لعلوم البيانات -
تحديد الجنس والعمر مع OpenCV .

هذا هو علم البيانات مثيرة للاهتمام مع بيثون. باستخدام صورة واحدة فقط ، سوف تتعلم التنبؤ بجنس الشخص وعمره. في هذا سوف نقدم لك رؤية الكمبيوتر ومبادئها. سنقوم ببناء
شبكة عصبية تلافيفية وسنستخدم نماذج تم تدريبها بواسطة Tal Hassner و Jill Levy لمجموعة بيانات Adience. على طول الطريق ، سوف نستخدم بعض ملفات .pb و .pbtxt و .prototxt و .caffemodel.
اللغة: بيثون
مجموعة البيانات
/ الحزمة: Adience
6. اوبر تحليل البيانات
شاهد التنفيذ الكامل لمشروع علوم علوم المصدر ،
مشروع تحليل بيانات أوبر في ر.
هذا هو مشروع لتصور البيانات مع ggplot2 ، والذي سنستخدم فيه R ومكتباته ونحلل المعلمات المختلفة. سنستخدم مجموعة بيانات Uber Pickups في نيويورك وننشئ تصورات لأطر زمنية مختلفة من السنة. هذا يخبرنا كيف يؤثر الوقت على سفر العملاء.
اللغة: ر
مجموعة البيانات
/ الحزمة: Uber Pickups في مجموعة بيانات مدينة نيويورك
7. سائق كشف النعاس
عزز مهاراتك أثناء العمل على مشروع Top Data Science Project -
وهو نظام للكشف عن النوم باستخدام OpenCV & Keras .

القيادة أثناء النوم خطيرة للغاية ، وهناك كل عام حوالي ألف حادث بسبب حقيقة أن السائقين ينامون أثناء القيادة. في مشروع Python هذا ، سنقوم بإنشاء نظام يمكنه اكتشاف برامج التشغيل النائمة ، بالإضافة إلى إخطارهم بإشارة صوتية.
تم تنفيذ هذا المشروع باستخدام Keras و OpenCV. سنستخدم OpenCV للكشف عن الوجه والعينين ، ومع Keras سنقوم بتصنيف حالة العين (مفتوحة أو مغلقة) باستخدام تقنيات الشبكة العصبية العميقة.
8. تشاتبوت
قم بإنشاء
chatbot باستخدام Python
وخطو خطوة إلى الأمام في حياتك المهنية -
Chatbot مع NLTK & Keras .

تعد Chatbots جزءًا لا يتجزأ من العمل. يتعين على العديد من الشركات تقديم الخدمات لعملائها ، وتتطلب خدمتهم الكثير من العمل والوقت والجهد. يمكن لـ Chatbots أتمتة معظم تفاعلات العملاء من خلال الإجابة على بعض الأسئلة الشائعة التي يطرحها العملاء. هناك نوعان أساسيان من chatbots: المجال المحدد والمجال المفتوح. غالبًا ما يتم استخدام روبوت الدردشة المخصص للنطاق لحل مشكلة محددة. وبالتالي ، تحتاج إلى تكوينه للعمل بفعالية في مجال عملك. يمكن طرح برامج الدردشة على النطاق المفتوح أية أسئلة ، لذلك يلزم توفير قدر كبير من البيانات لتدريبهم.
مجموعة البيانات
: Intents json file
اللغة: بيثون
مشاريع علوم البيانات المتقدمة9. صورة توضيحية مولد
تحقق من تنفيذ المشروع بالكامل باستخدام شفرة المصدر -
Image Caption Generator مع CNN & LSTM .

يعد وصف المحتوى الموجود في الصورة مهمة سهلة للأشخاص ، ولكن بالنسبة لأجهزة الكمبيوتر ، فإن الصورة هي مجرد مجموعة من الأرقام التي تمثل قيمة اللون لكل بكسل. هذه مهمة صعبة لأجهزة الكمبيوتر. يعد فهم المحتوى الموجود في الصورة ثم إنشاء وصف باللغة الطبيعية (على سبيل المثال ، باللغة الإنجليزية) مهمة صعبة أخرى. يستخدم هذا المشروع أساليب دراسة متعمقة ننفذ فيها شبكة عصبية متكررة (CNN) مع شبكة عصبية متكررة (LSTM) لإنشاء منشئ وصف الصورة.
مجموعة البيانات: Flickr 8K
اللغة: بيثون
الإطار: كراس
10. كشف الاحتيال في بطاقة الائتمان (تعريف الاحتيال في بطاقة الائتمان)
بذل قصارى جهدك من خلال العمل على فكرة مشروع "علوم البيانات" -
اكتشاف الاحتيال في بطاقات الائتمان باستخدام التعلم الآلي .

الآن ، لقد بدأت في فهم الأساليب والمفاهيم. دعنا ننتقل إلى بعض مشاريع علوم البيانات المتقدمة. في هذا المشروع ، سوف نستخدم لغة البحث (R) مع خوارزميات مثل
أشجار القرار ، والانحدار اللوجستي ، والشبكات العصبية الاصطناعية ، ومصنف زيادة التدرج. سنستخدم مجموعة بيانات معاملات البطاقة لتصنيف معاملات بطاقات الائتمان على أنها احتيالية وحقيقية. سنختار نماذج مختلفة لهم وننشئ منحنيات الأداء.
اللغة: ر
مجموعة البيانات
/ الحزمة: مجموعة بيانات معاملات البطاقات
11. نظام توصية الفيلم
تعرف على كيفية تنفيذ أفضل مشروع لعلوم البيانات باستخدام Source Code -
نظام توصيات الأفلام في R
في مشروع علوم البيانات هذا ، سوف نستخدم R لتحقيق توصيات الفيلم من خلال التعلم الآلي. يرسل نظام التوصية اقتراحات إلى المستخدمين من خلال عملية تصفية تستند إلى تفضيلات المستخدمين الآخرين وسجل التصفح. إذا كانت A و B تحب Home Alone ، و B تحب Mean Girls ، فيمكنك تقديم A - قد يعجبهن أيضًا. هذا يتيح للعملاء التفاعل مع المنصة.
اللغة: ر
مجموعة البيانات
/ الحزمة: مجموعة بيانات MovieLens
12. تجزئة العملاء
اعجاب أرباب العمل بمشروع علوم البيانات (بما في ذلك الكود المصدري) -
تقسيم العملاء باستخدام التعلم الآلي .

تجزئة العملاء هو تطبيق
تعليمي غير مراقب مشهور. باستخدام التجميع ، تحدد الشركات قطاعات العملاء للعمل مع قاعدة مستخدمين محتملة. وهي تقسم العملاء إلى مجموعات وفقًا للخصائص الشائعة ، مثل الجنس والعمر والمصالح وعادات الإنفاق ، حتى يتمكنوا من بيع منتجاتهم بشكل فعال لكل مجموعة. سوف نستخدم
المجموعات K- يعني ، وكذلك تصور التوزيع حسب الجنس والعمر. ثم نقوم بتحليل دخلهم السنوي ومستوى النفقات.
اللغة: ر
مجموعة البيانات
/ الحزمة: Mall_Customers dataset
13. تصنيف سرطان الثدي
انظر التنفيذ الكامل لمشروع علم البيانات في بيثون -
تصنيف سرطان الثدي مع التعلم العميق .

بالعودة إلى المساهمة الطبية لعلم البيانات ، دعونا نتعلم كيفية اكتشاف سرطان الثدي باستخدام بيثون. سنستخدم IDC_regular dataset للكشف عن سرطان القناة الغازية ، وهو أكثر أشكال سرطان الثدي شيوعًا. يتطور في قنوات الحليب ، ويخترق النسيج الليفي أو الدهني للغدة الثديية خارج القناة. في هذه الفكرة لمشروع جمع البيانات العلمية ، سوف نستخدم
التعلم العميق ومكتبة Keras للتصنيف.
اللغة: بيثون
مجموعة البيانات
/ الحزمة: IDC_regular
14. التعرف على إشارات المرور
تحقيق الدقة في تقنية القيادة الذاتية من خلال مشروع
التعرف على الإشارات في علوم البيانات
باستخدام CNN Open Source.

تعد إشارات المرور وقواعد المرور مهمة جدًا لكل سائق لتجنب الحوادث. لمتابعة القاعدة ، عليك أولاً أن تفهم شكل علامة الطريق. يجب أن يتعلم الشخص جميع علامات الطريق قبل أن يحصل على الحق في قيادة أي مركبة. لكن عدد المركبات ذاتية الحكم في تزايد الآن ، وفي المستقبل القريب ، لن يكون الناس قادرين على التحكم في الماكينة بشكل مستقل. في مشروع "التعرف على إشارة المرور" ، ستتعلم كيف يمكن للبرنامج التعرف على نوع إشارات المرور من خلال قبول صورة كإشارة إدخال. تُستخدم قائمة التحقق من علامات الطرق الألمانية (GTSRB) لإنشاء شبكة عصبية عميقة للتعرف على الفئة التي تنتمي إليها علامة الطريق. نقوم أيضًا بإنشاء واجهة رسومية بسيطة للتفاعل مع التطبيق.
اللغة: بيثون
مجموعة البيانات
: GTSRB (علامة التعرف على إشارة المرور الألمانية)
اقرأ المزيد

اقرأ أيضا بلوق
شركة إديسون:
20 مكتبة لل
مذهلة تطبيق دائرة الرقابة الداخلية