تبين الممارسة أن العديد من شركات الشركات تواجه صعوبات في تنفيذ المشاريع التحليلية.
الشيء هو أنه ، على عكس المشاريع الكلاسيكية لتزويد الحديد أو إدخال حلول البائعين التي تتناسب مع نموذج التنفيذ الخطي ، من الصعب للغاية إضفاء الطابع الرسمي على المهام المتعلقة بالتحليلات المتقدمة (علم البيانات) في شكل مواصفات فنية واضحة لا لبس فيها في شكل كافٍ للتوصيل المؤدي. يتفاقم الموقف من حقيقة أن تنفيذ المهمة يتطلب تكامل مجموعة من مختلف أنظمة تكنولوجيا المعلومات الداخلية ومصادر البيانات ، قد لا تظهر بعض الأسئلة والأجوبة إلا بعد بدء العمل مع البيانات والكشف عن حالة حقيقية ، والتي تختلف اختلافًا كبيرًا عن الصورة الوثائقية للعالم. كل هذا يعني أنه لكتابة المعارف التقليدية المختصة ، من الضروري القيام بجزء أولي من العمل مشابه لنصف المشروع ، المكرس لدراسة وإضفاء الطابع الرسمي على الاحتياجات الحقيقية ، وتحليل مصادر البيانات ، وعلاقاتها ، وهيكلها وثغراتها. في إطار المنظمات ، الموظفين غير القادرين على القيام بمثل هذا العمل الواسع النطاق غير موجودين من الناحية العملية. لذلك اتضح أن المتطلبات الخام تماما وضعت للمسابقات. في أفضل الأحوال ، يتم إلغاء المسابقات (يتم إرسالها للمراجعة) بعد سلسلة من الأسئلة التوضيحية. في أسوأ السيناريوهات - بالنسبة للميزانية الضخمة وللفترات الطويلة من الزمن ، يتضح شيء مختلف تمامًا عن خطط واضعي المتطلبات. وظلوا بلا شيء.
البديل المعقول هو إنشاء فريق لعلوم البيانات (DS) داخل الشركة. إذا لم تكن تهدف إلى بناء الأهرامات المصرية ، فيمكن لفريق و 2-3 متخصصين أكفاء فعل الكثير. ولكن هنا يطرح سؤال آخر ، كيف يتم إعداد هؤلاء المتخصصين. أدناه ، أريد مشاركة مجموعة من الاعتبارات التي تم اختبارها بنجاح لإعداد هذه "القوات الخاصة" بسرعة باستخدام سلاح آر.
إنه استمرار للمنشورات السابقة .
العدد
في الوقت الحالي ، يعد البحث في السوق عن مهنيين مناسبين مشكلة كبيرة. لذلك ، من المفيد للغاية التفكير في استراتيجية تعلم تتميز بالقراءة والكتابة. في نفس الوقت ، تتم ملاحظة تفاصيل التدريب المطلوب:
- لا توجد فرصة للتعلم لعدة أشهر ، يجب الحصول على النتيجة في أسرع وقت ممكن ؛
- من الضروري التركيز على المهام الحقيقية للشركة ؛
- في DS الصناعية هناك العديد من المهام المرتبطة بمعالجة البيانات أكثر من AI \ ML؛
- لا يعد DS الصناعي دارًا للفن ، ولكنه نشاط منظم يترجم إلى رمز تطبيق ثابت.
مع كل ما يميز Coursera و Datacamp والكتب المتنوعة بالإضافة إلى برامج ML ، فإن أيا من مجموعات الدورات لم تسمح بالحصول على مجموعة الخصائص المطلوبة. أنها بمثابة مصادر ممتازة لتعزيز المهارات ، ولكن من الصعب أن تبدأ بسرعة. المهمة الرئيسية في بداية سريعة هي الإشارة إلى المسارات والمستنقعات والفخاخ ؛ التعرف على مجموعة الأدوات الموجودة ؛ أظهر كيف يمكن حل مهام الشركة باستخدام الأداة ؛ رمي في البحيرة من قارب والسباحة.
من المهم إظهار أن R ليس أداة فحسب ، بل هو أيضًا مجتمع مناسب. لذلك ، استخدام عدد كبير من التطورات ذات الصلة ، بما في ذلك العرض التقديمي ، هو أحد أشكال العمل مع المجتمع. يمكن هادلي حتى كتابة الأسئلة في مكبر الصوت أو جيثب. للأسئلة الجديرة ، يمكنك الحصول على إجابات شاملة.
نتيجة للتجارب المختلفة ، تم الحصول على مقاربة هيكلية "Deep Dive Into R" لتزويد المواد الأساسية.
الغوص في ص
- مدة الدورة المثلى هي 50 ساعة (~ 7-9 أيام لمدة 7-6 ساعات).
- الهدف الرئيسي من الدورة هو تكوين مهارات عملية للكتابة السريعة للكود عالي الجودة والفعال باستخدام الخوارزميات المثالية.
- من الأفضل إنشاء عروض توضيحية شاملة في مهام محددة - وبهذه الطريقة يمكنك التعرف على الأدوات والأساليب بشكل أسرع بكثير.
- يعمل عدد كبير من المشكلات التي يتم النظر فيها على تكوين تمثيل و "إشارات مرجعية" حول قدرات النظام البيئي.
- انهيار اليوم ليس عقيدة ، لكنه عنصر تحكم مخطط للتركيز.
- لكل يوم ، لإظهار وتعزيز المواد ، يتم تحليل المهام العملية بدرجات متفاوتة من التعقيد والحجم.
كل طالب ، قبل البدء ، يتلقى من قيادته مهمة عملية ("ورقة مصطلح") في شكل مهمة حقيقية سيتعين عليه إكمالها أثناء الغوص والحماية في نهاية الدورة.
يوم 1
باختصار حول بناء جملة R. وهيكل اللغة. أساسيات استخدام RStudio IDE للتحليل والتطوير. الأنواع الأساسية والبيانات. الحوسبة التفاعلية وتنفيذ كود البرنامج. مقدمة موجزة عن R Markdown و R notebook. مبادئ العمل مع المكتبات. التحضير للعمل التحليلي ، تثبيت المكتبات اللازمة ، إنشاء مشروع. مبادئ تحديد ملامح الحسابات ، والبحث عن أماكن الاختناقات (طويلة للغاية) والقضاء عليها.
- تاريخ وعلم البيئة من ر
- RStudio Cheatsheets
- الشروع في العمل مع R- تخفيض السعر
- معايير جودة التدريب / العمل: نكتب بسرعة رمزًا سريعًا وصغيرًا باستخدام خوارزميات مثالية
- الموجه
- تقييم سرعة تنفيذ التعليمات البرمجية:
system.time
، tictoc
، benchmark
، bench
، profvis
- تقييم أداء النظام:
benchmarkme
- النظام البيئي R ، أساسيات اللغة
- القيم
NA
، NULL
، NaN
. - عوامل التشغيل
=
، ==
، <-
- الدوال هي
is.na()
، is.null()
، is.nan()
، ( is.finite()
، is.infinite()
) - Subsetting وتقطيع
اليوم 2
مفهوم والنظام الإيكولوجي للحزم 'tidyverse' ( https://www.tidyverse.org/ ). لمحة موجزة عن الحزم المدرجة فيه (الاستيراد / المعالجة / التصور / التصدير). مفهوم tidy data
كأساس لأساليب العمل في tidyverse
. "tibble" كتنسيق لتمثيل البيانات. (حزم من النظام الإيكولوجي). التحولات ومعالجة البيانات. بناء الجملة ومبادئ معالجة تيار (الأنابيب). - -
. ( tidyr
tibble
، dplyr
، tidyr
.)
اليوم 3
تشكيل تمثيلات رسومية باستخدام ggplot ( https://ggplot2.tidyverse.org/reference/index.html ). استخدام أدوات رسومية لتحليل بيانات الأعمال.
يوم 4
العمل مع سلسلة وأنواع تعداد. أساسيات التعبيرات العادية. العمل مع التواريخ. (حزم stringi
، stringr
، forcats
، re2r
، lubridate
، في anytime
)
يوم 5
استيراد البيانات المتقدمة. txt، csv، json، odbc، scrapping web (REST API)، xlsx.
(حزم readr
و opexlsx
و jsonlite
و curl
و rvest
و httr
و readtext
و DBI
و data.table
)
- دليل العمل.
getwd()
، setwd()
. حزمة التطبيق here
- الوظيفة الإضافية
rspivot
. rspivot هي أداة لامعة لـ RStudio لعرض إطارات البيانات. - حزمة و
datapasta
الوظيفة الإضافية. - مقدمة للقراء . تخطى ميزات مواصفات العمود.
- العمل مع Excel:
- تخريد الويب على عرض توضيحي:
يوم 6
تصدير البيانات. rds ، csv ، json ، xlsx ، docx ، pptx ، odbc. أساسيات R تخفيض السعر و R دفتر الملاحظات.
(حزم opexlsx
، officer
، DBI
، jsonlite
، readr
، data.table
، knitr
)
بما في ذلك
- إنشاء العروض التقديمية باستخدام
officer
R. - تصدير إلى PDF عبر متماسكة -> LaTeX
- تصدير مباشرة إلى كلمة
يوم 7
أساسيات البرمجة في R. إنشاء وظائف. نطاق المتغيرات. عرض الكائنات. عرض الكائنات ، هيكلها. مبادئ العملية "عن طريق الروابط".
- مفهوم الوظيفة. إنشاء وظائف خاصة بك.
- مفهوم البيئة. بيئات متقدمة R. 7
- للحلقة ، في حين أن الحلقة
- purrr تعليمي
- مفهوم الحسابات "الآمنة" ، واستخدامها في تحليل الدُفعات (
safely
) - Profvis - أدوات التنميط لرمز R أسرع
- نهج Lazy_evaluation ، تقييم غير قياسي ، حزمة
lobstr
يوم 8
نهج التحقق من النتائج المتوسطة والنهائية. مبادئ التعاون وتشكيل الحوسبة القابلة للتكرار. عرض للتطبيقات اللامعة كواجهة مستهدفة للمستخدمين النهائيين. ( reprex
الحزم ، reprex
، futile.logger
، shiny
)
- البرمجة الدفاعية. التحقق من صحة المعلمات. حزمة
checkmate
، والسرعة هي كل شيء لدينا . - التحقق من صحة المدخلات:
futile.logger
مع futile.logger
.- 2018-09_reprex-rstudio-webinar
يوم 9
طرق وأساليب التعامل مع البيانات ذات الحجم "المتوسط". حزمة data.table
. المهام الرئيسية. التحليل التجريبي المقارن.
نظرة عامة على الأسئلة الإضافية التي ظهرت في 1-8 أيام.
يوم 10
حماية بالطبع
ويندوز 10 عضو وظائف المتطلبات
كتب
الخاتمة
- تسلسل التغذية المقترح ليس عقيدة. قد يكون هناك العديد من الاستثناءات و مدفوع. المواد ، بما في ذلك إدراج الرياضية. يتم تحديد كل شيء عن طريق القضايا الموضعية الحقيقية والمهام التي سيتم تحديدها للدورة وقائمة مشكلات الإنتاج الشائعة. الأكثر شيوعًا هي خوارزميات الانحدار والتجميع والتعدين للنصوص والسلاسل الزمنية.
- قضايا الحوسبة المتوازية ، وإنشاء تطبيقات لامعة ، باستخدام خوارزميات ML والمنصات الخارجية لا تنسجم مع مفهوم "الانغماس السريع" ، ولكنها يمكن أن تكون استمرارًا بعد بدء العمل العملي.
PS HR عادة ما يكون صعوبة في صياغة متطلبات الوظيفة.
هنا مثال ممكن على البذور. كل يكمل والقواعد بناء على توقعاتهم.
علم البيانات (DS): البيانات الكبيرة والتحليلات. متطلبات الوظيفة
- التعليم:
- تقنية علمية أو طبيعية أعلى.
- نرحب بشهادات المقررات الدراسية (كورسيرا ، داتكامب).
- اللغة الإنجليزية هي أحد الأصول (قراءة مجانية للأدب الفني ، وفهم واثق للكلام الشفهي غير المكيف ، واللغة المنطوقة على مستوى الاتصال التقني).
- الخبرة:
- في مجال DS - 1 سنة على الأقل.
- على الأقل 2 سنوات من الخبرة في تطوير الفريق في منهجيات رشيقة.
- خبرة في تطوير واجهات المستخدم (WEB + JS).
- خبرة في تطوير الوثائق.
- معرفة قوية بالتقنيات التالية (على الأقل 30٪ من القائمة):
- SQL + No-SQL backend (واحد على الأقل من كل نوع من قواعد البيانات).
- لغات البرمجة مفتوحة المصدر لمهام DS (Python أو R أو كليهما).
- منصات لتخزين ومعالجة البيانات الكبيرة (Hadoop ومشتقاته ، Spark \ Ignite ، ClickHouse ، Vertica ، ELK stack ...)
- أساسيات HTML + JS + CSS لتطوير واجهة المستخدم الرسومية على الويب للمستخدمين النهائيين.
- إجادة أساسيات الإحصاء الرياضي والجبر الخطي.
- سلسلة زمنية (بما في ذلك التنبؤ والبحث الشاذ).
- تعلم الآلة ، الشبكات العصبية.
- التعدين النص والتعبيرات العادية.
- أساسيات إدارة أنظمة windows + nix.
- أدوات وخوارزميات لمعالجة وتصور المعلومات الجغرافية (ESRI ، و OpenStreet ، و Yandex Maps ، وخرائط Google ، والنشرة ، ..) ، والعمل مع ملفات shap و GPX.
- يتم استيراد البيانات إلى أدوات علم البيانات وتطبيعها (ملفات ، ODBC ، واجهة برمجة تطبيقات REST ، زحف الويب).
- التصور (Tableau ، QlikView ، Excel ، Shiny \ Dash).
- الحزم الرياضية التجارية (Wolfram Mathematica، Maple، Matlab).
- مسؤوليات الوظيفة:
- التفتيش وإعداد البيانات المصدر.
- تطوير الفرضيات والتحقق منها على البيانات المصدر.
- تطوير النماذج الرياضية واختبارها.
- تطوير حلول تصميم البرمجيات.
- تطوير تطبيقات الويب ولوحات المعلومات التفاعلية.
- تطوير التقارير المطبوعة.
- ضبط واختبار وتطوير وصيانة الدوائر التحليلية.
- تحديث وثائق المشروع.
الوظيفة السابقة - "ما مدى سرعة البحث عن الإنتاجية؟" .