حضرت هذا العام مؤتمر Data Crunch في بودابست المخصص لتحليلات البيانات وهندسة البيانات. المتحدثون من Linkedin و Uber و Github والعديد من شركات الدرجة الثانية مدعوون لحضور هذا المؤتمر ، حيث يشارك الناس تجاربهم أو يتحدثون عن أدوات البيانات. حسنًا ، ما يهمني هو التحدث إلى المشاركين في المؤتمر لفهم كيف يختلف واقعنا الروسي عن أوروبا والولايات المتحدة.
لكي ألاحظ هذا:
- برنامج Full Stack Data Sceince - تم تخصيص تقريرين لنفس الموضوع تقريبًا الذي كتبته من قبل . اجعل DS / DA شخصًا يمكنه حل المشكلات من البداية إلى النهاية. لا تقسم العمل إلى "وظائف" ، ولكن قسم DS إلى "مواضيع". أي العمل مع البيانات ليس تقسيمًا إلى أجزاء بين أولئك الذين يعدون ، يعالجون ، يحللون ، يبنون النماذج ويتخيلون ، ولكن هذا التقسيم للموضوعات بين المتخصصين الذين يمكنهم القيام بكل شيء بشكل كامل.
- من الصفر إلى البطل - تحدث الرجال عن كيفية بناء قسم DS الخاص بهم من البداية. بشكل عام ، كالعادة ، تعمل الأفكار الصوتية العادية:
- 2 DS كحد أدنى لحجم الفريق.
- و 2 مهندس بيانات لهم.
- ب ـ صاحب المنتج الذي سيتواصل مع العمل.
- بناء نظام بيئي جيد. عادة ما يغرق المتحدثون للمصادر المفتوحة. عادة ما يذكر كل تقرير Hadoop. المشكلة صحيحة في كثير من النواحي في ذلك المشروع الذي أعمل فيه ، وكذلك العديد من القراء ، لا حاجة Hadoop ، لأنه ليس هناك هذا القدر من البيانات حيثما يكون هناك ربح. بشكل عام ، فإن موقفي من المصدر المفتوح هو المحاولة والدراسة ، ولكن إذا اشترت شركتك شيئًا بالفعل ، فإن الاستمرار في العيش في النظام البيئي للبرامج الاحتكارية قد يكون أكثر ربحية من الاندفاع إلى التقنيات الأخرى ثم "إقرانها" أو تعلمها من الصفر.
- اختبر ما تفعله. اختبارات أ / ب وتقييم النتائج. من الغريب ، لكن النصيحة البسيطة لا تفعل كل شيء عمليًا.
- دمقرطة البيانات في أوبر - حول هذا كتبت بالفعل مقالة منفصلة
- أخلاقيات الذكاء الاصطناعي - ناقش أن العديد من المهام لها خيارات مختلفة بشكل أساسي. بشكل مشروط ، قد يكون لديك قرار "فعال" و "قرار أخلاقي". والمشكلة هي أن تعظيمها يحدث في ظل ظروف مختلفة. ولا يوجد حل صحيح في الرياضيات أو الخوارزميات. هو للناس أن يقرروا ما يريدون من "سياراتهم". على سبيل المثال ، قال المتحدث أن خوارزمية تقييم مخاطر انتكاس الجريمة تميل إلى إعطاء تقييم مخاطر متزايد للأميركيين السود. يستخدم تقييم المخاطر هذا لاتخاذ قرارات بشأن الإفراج المشروط. المعضلة هي أن "التمييز" غير المقبول اجتماعياً ضد السود يصطدم بزيادة لاحقة غير مقبولة موضوعياً في الجريمة من أولئك الذين تم الإفراج عنهم قبل الموعد المحدد دون جدوى. ومن المستحيل الجمع بين كلا الحلين في خوارزمية واحدة. ومن المثير للاهتمام أن المجتمع الأسود في الولايات المتحدة يرتكب بشكل رئيسي جرائم ضد "إخوانه وأخواته" السود ، لذا فإن محاولة "مساواة" البيض والسود ليست في خطر ، ولكن وفقًا لعدد المفرج عنهم ، سيؤدي ذلك إلى زيادة غير متناسبة في عدد ضحايا العنف بين السود.
- ML وحرب المعلومات - أخبر المتأنق كيف أنه من خلال تحليل النص والروابط مع بعضها البعض وعلى Facebook وجد بعض النشاط المريب على Facebook قبل انتخابات ترامب. ويدعي أن شخصًا أشرف بشكل كبير على الأجندة "الروسية" ، بحيث أصبحت اللغة التي تتحدثها الجماعات المحافظة أكثر عنصرية. درس هذا من خلال تحليل المفردات المستخدمة في مجموعات النازيين الجدد ، ثم قارنها بلغة المحافظين. ووجد أن المعجم بدأ يقترب جدًا قبل انتخاب ترامب ، على الرغم من أنه لم يلاحظ شيء من هذا القبيل من قبل. بشكل عام ، ألمح إلى أن بوتين هو المسؤول :)
من المحادثات مع الأشخاص في المؤتمر:
- R vs Python. يعيش الناس بأداتين وعادة ما يكون R محبوبًا من قبل أشخاص من خلفيات علمية ورياضيات ، والثعبان محبوب من قبل أشخاص من خلفيات قيد التطوير. الاستخدام الأكثر شيوعًا لـ R هو للاستكشاف ، Python لخط الأنابيب. كتابة النماذج على كليهما. لدي خبرة شخصية في إنتاج نماذج الإنتاج على R ، على سبيل المثال.
- اختبارات A / B - لا يزال تنفيذ تقييم منتظم لإجراءاتك واختيار الحلول استنادًا إلى اختبارات A / B ممارسة نادرة للشركات (من بين اثني عشر مجموعة تحدثت إليها ، هناك 1 فقط لديها اختبارات A / B). لا يرغب الناس في إنفاق الطاقة على اختبارات A / B ، يقولون أنهم يعرفون بالفعل أو أن الرئيس التنفيذي "يرى" كيفية ...
- كل شخص لديه مشاكل في الاتصال - مع المديرين ، والعملاء ، داخل الشركة ، إلخ. تحسين الاتصالات هو نقطة نمو لجميع الفرق تقريبًا.
- لا يسير العمل الرئيسي في تعلُّم الآلة على طول خط اختيار أفضل النماذج ، ولكنه يتميز بالهندسة وإعداد البيانات. لا يحتوي google أو facebook على نماذج "سرية" ، ولكن فعالية الخوارزميات الخاصة بهم أكثر ترجيحًا في معالجة البيانات وإعدادها لهذه النماذج. هذه أخبار جيدة بشكل عام ، لأنها تعني أن xgboost العام أو الانحدار هو خوارزمية متطورة لمعظم المهام.