لبرنامج الماجستير بدون امتحانات: اتجاه جديد "Big Data" في الأولمبياد "أنا محترف"

نواصل قصة الأولمبياد للماجستير والماجستير والمتخصصين " أنا محترف ". مدعوم من أقوى الجامعات. سنتحدث اليوم عن الاتجاه التنافسي الجديد ، الذي تشرف عليه جامعة ITMO - "البيانات الكبيرة".

الشريك العام للأولمبياد في مجالات جامعة ITMO هو "البرمجة وتكنولوجيا المعلومات" ، "المعلومات والأمن السيبراني" ، " Big Data " - Sberbank.


كريستوف شولز / فليكر / سيسي بي-سا

بضع كلمات عن الأولمبياد "أنا محترف"


يقام الأولمبياد للطلاب من مختلف التخصصات.

تم تسجيل 54 منطقة هذا العام: هناك الرياضيات والذكاء الاصطناعي وهندسة البرمجيات وإنترنت الأشياء والضوئيات والعديد من المجالات الأخرى.

لماذا المشاركة . يحصل الفائزون على فرصة لدخول الجامعات الروسية بدون امتحانات والحصول على تدريب في الشركات الشريكة الرئيسية للأولمبياد: ياندكس ، سبيربنك ، MRG وما إلى ذلك. ستتاح الفرصة للطلاب الذين يظهرون نتائج جيدة لحضور المدارس الشتوية . هناك يمكنك مقابلة خبراء الصناعة.

شكل المشاركة . التسجيل - حتى 22 نوفمبر. من 24 نوفمبر إلى 9 ديسمبر ، ستقام جولة تأهيل عبر الإنترنت. يمكن تفويتها من قبل أولئك الذين أكملوا دورتين على الأقل من القائمة المعتمدة من قبل المنظمين. في فبراير 2019 ، ستبدأ المراحل النهائية.

سيتم عقدهم شخصيًا في مختلف الجامعات في الدولة. تشرف جامعة ITMO على خمسة مجالات في الأولمبياد. تحدثنا عن بعضها ، على وجه الخصوص ، عن الروبوتات في وقت سابق. اليوم ، تخيل اتجاه البيانات الضخمة. هذه هي حداثة الأولمبياد لهذا العام.

اتجاه البيانات الضخمة: ما تحتاج إلى معرفته


يستضيف العالم العديد من الأحداث والندوات حول البيانات الضخمة.

ومن الجدير بالذكر المؤتمرات الدولية SIGMOD أو SIGKDD أو ICML . المزيد والمزيد من هذه الأحداث تجري في بلدنا. على سبيل المثال ، DataFest ، مؤتمر البيانات الكبيرة من Rusbase والعديد من التأثيرات على تقنيات إدارة وتحليل البيانات الضخمة.

تشارك جامعة ITMO أيضًا في الأحداث المختلفة وتقيم الخاصة بها. مثل سلسلة من المؤتمرات YSC ( مؤتمر العلوم الشباب ) ، محاضرة من قبل German Gref وورشة عمل مغلقة عقدت مؤخرا في MRG. تحتل البيانات الضخمة مكانًا مهمًا في تطوير أنظمة وحلول تقنية المعلومات الجديدة في مجالات النشاط الأخرى. تعمل جامعة ITMO بنشاط مع تطبيق وتطوير تقنيات البيانات الضخمة في جميع المجالات.
على سبيل المثال ، قام موظفو قسم الحوسبة عالية الأداء في جامعة ITMO بإنشاء مستودع البيانات الموزعة الدلالية لشركة Exarch. يوفر الوصول السريع إلى البيانات ، ويحسن معالجتها. تسمح لك Exarch بتقليل الوقت المستغرق لإكمال المهام البسيطة إلى النصف مقارنة بأدوات مثل HDFS و Cassandra.
نظرًا للخبرة والاهتمامات العلمية للجامعة في مجال العمل باستخدام البيانات الضخمة ، لا يمكن أن نفوت فرصة فتح مثل هذا الاتجاه في إطار مشروع "أنا محترف". يشرف ألكسندر فاليريفيتش بوخانوفسكي ، دكتور العلوم التقنية ، مدير الكلية الضخمة لتقنيات المعلومات الإذاعية في جامعة ITMO ، على مسار الأولمبياد. الآن هو والفريق ، الذي يضم طلاب الدراسات العليا في الجامعة ، يعدون المهام.

يتضمن خط البيانات الكبيرة تحليل البيانات والإحصاءات والتعلم الآلي بالإضافة إلى الحوسبة الموزعة وتقنيات الأنظمة. يتعلق الاتجاه الأول بالرياضيات والأساليب لمعالجة كميات كبيرة من البيانات. والثاني مبني على البرمجة والحوسبة عالية الأداء التي تهدف إلى تحسين العمليات التحليلية.

سيستخدم المشاركون منصة Yandex.Conest ولغات البرمجة الأكثر شيوعًا للعمل مع البيانات الضخمة. هذه هي Java و Scala و Python.

يتم استخدام Java و Scala بشكل أكثر شيوعًا من قبل خبراء يدعون مهندس البيانات لـ ETL و ELT ولتنفيذ الخوارزميات الأساسية. غالبًا ما تعمل Python كأداة في أيدي أولئك الذين يدعون عالم البيانات. في الوقت نفسه ، يتم دعم جميع هذه اللغات بواسطة Apache Spark ، الحل الأكثر انتشارًا وشعبية لمعالجة البيانات الضخمة في الوقت الحالي.

لاحظ أنه في مرحلة المراسلات ، لن يتم عرض مهام البرمجة. هذا بسبب بعض القيود على موقع Yandex.Contest - لا توجد طريقة لربط صفائف البيانات الحقيقية للمعالجة. بحلول مرحلة التفرغ بدوام كامل ، سيتم حل هذه اللحظة.

التحضير للألعاب الأولمبية


تم إعداد برنامج خاص للمشاركين يضم ثلاث ندوات عبر الإنترنت في المجال المتخصص. يتم إلقاء المحاضرات من قبل معلمي الجامعات الرائدة ، وشرح وتحليل أمثلة المهام الأولمبية.

فيما يلي مثال على أحد الأسئلة الأساسية للبيانات الضخمة.
يتم توزيع مجموعة كبيرة من صور الصور النقطية المختلفة بتنسيق bmp 64 بت بالتساوي عبر 1000 عقد تخزين مستقلة في شبكة محلية واحدة. لإبراز صور الوجوه على هذه الملفات ، يتم استخدام مجموعة تحتوي على 100 عقد حوسبة.

مع بداية واحدة لعملية المعالجة على جميع العقد ، مقارنةً بعقدة واحدة ، فإن تسريع المعالجة يبلغ 52 مرة فقط. هل يعني ذلك:

  • ج: الكتلة صغيرة جدًا ، وهناك حاجة إلى المزيد من العقد الحاسوبية لزيادة الكفاءة ؛
  • ب. أحجام الصور مختلفة ، وبسبب ذلك ، من الناحية الموضوعية ، لا يمكن تحقيق كفاءة أكبر ؛
  • أ. قناة الاتصال بين التخزين والكتلة ضعيفة للغاية ؛
  • G. لم يتضح بعد. من الضروري إجراء سلسلة من التجارب الإضافية في تكوينات مختلفة.

الجواب: G. على أساس قياس واحد ، من المستحيل تحديد السبب ، لأنه اعتمادًا على الظروف ، يمكن أن يكون هناك خياران A و B.

محاضرة ألقاها ألكسندر بوخانوفسكي:


المحاضرة الثانية عن الجوانب التكنولوجية لمعالجة البيانات الضخمة. أجراه أحد كبار الباحثين في معهد الأبحاث في جامعة NKT بجامعة ITMO Alexander Viseratin:


بشكل عام ، لحل مهام الأولمبياد ، من الضروري دراسة الآليات النموذجية التي تكمن وراء العمليات الأساسية لمعالجة البيانات الضخمة. نحن نتحدث عن الأنماط في إطار عمل Apache Spark و Apache Flink (على سبيل المثال ، المراوغة أو عمليات البث). سيكون من اللطيف دراسة تشغيل الخوارزميات التكرارية المستخدمة لتعلم الآلة على البيانات الضخمة ، مثل التوقع - التعظيم . لن تؤذي المعرفة بهياكل البيانات ومبادئ تنظيم تخزين البيانات المستخدمة في مخازن كاساندرا أو كليكهاوس الحديثة.

نوصي أيضًا بالاهتمام بالدورات من Yandex حول معالجة البيانات الضخمة:


بالمناسبة ، سيسمح لك اجتياز دورتين من هذه الدورات بتجاوز الجولة التأهيلية في اتجاه "البيانات الضخمة" والانتقال مباشرة إلى مرحلة التفرغ في الأولمبياد.

Source: https://habr.com/ru/post/ar429346/


All Articles