كيف نقوم ببناء نظام لمعالجة وتخزين وتحليل البيانات في SIBUR

في بداية عام 2018 ، بدأنا بنشاط عملية رقمنة الإنتاج والعمليات في الشركة. في قطاع البتروكيماويات ، ليس هذا مجرد اتجاه للأزياء ، ولكنه خطوة تطورية جديدة نحو زيادة الكفاءة والقدرة التنافسية. بالنظر إلى التفاصيل الخاصة بالعمل ، والتي ، بدون أي رقمنة ، تظهر نتائج اقتصادية جيدة ، يواجه العاملون في مجال التكنولوجيا الرقمية مهمة صعبة: تغيير العمليات الثابتة في الشركة مهمة شاقة للغاية.

بدأ رقمنتنا بإنشاء مركزين وكتل وظيفية مقابلة.

هذه هي "وظيفة التكنولوجيا الرقمية" ، والتي تشمل جميع مجالات المنتجات: رقمنة العمليات ، IIoT والتحليلات المتقدمة ، بالإضافة إلى مركز إدارة البيانات الذي أصبح منطقة مستقلة.



وتتمثل المهمة الرئيسية لمكتب البيانات في التنفيذ الكامل لثقافة اتخاذ القرارات على أساس البيانات (نعم ، نعم ، القرار القائم على البيانات) ، وكذلك ، من حيث المبدأ ، تبسيط كل ما يتعلق بالعمل مع البيانات: التحليلات ، المعالجة والتخزين والإبلاغ. الخصوصية هي أن جميع أدواتنا الرقمية لن تضطر فقط إلى استخدام بياناتهم الخاصة بنشاط ، أي تلك التي ينشئونها بأنفسهم (على سبيل المثال ، تحويلات الهاتف المحمول ، أو أجهزة استشعار IIoT) ، ولكن أيضًا البيانات الخارجية ، مع فهم واضح لمكان ولماذا هناك حاجة إليها للاستخدام.

اسمي Artyom Danilov ، أنا رئيس قسم البنية التحتية والتكنولوجيا في SIBUR ، وسأخبرك في هذا المنشور كيف وعلى ماذا نبني نظام معالجة وتخزين البيانات الكبير لكامل SIBUR. بادئ ذي بدء ، سنتحدث فقط عن بنية المستوى الأعلى وكيف يمكنك أن تصبح جزءًا من فريقنا.

فيما يلي المجالات التي تشمل العمل في مكتب البيانات:

1. العمل مع البيانات

الرجال الذين يشاركون بنشاط في جرد وفهرسة بياناتنا يعملون هنا. إنهم يفهمون الاحتياجات التي تحتاجها وظيفة معينة ، ويمكنهم تحديد نوع التحليلات التي قد تكون مطلوبة ، والمقاييس التي يجب مراقبتها لاتخاذ القرارات ، وكيفية استخدام البيانات في مجال عمل معين.

2. استقصاء المعلومات وتصور البيانات

يرتبط الاتجاه ارتباطًا وثيقًا بالأول ويسمح لك بتصور نتائج عمل اللاعبين من الفريق الأول.

3. اتجاه مراقبة جودة البيانات

هنا يتم تقديم أدوات مراقبة جودة البيانات ويتم تطبيق المنهجية الكاملة لهذه السيطرة. بمعنى آخر ، يقوم الأشخاص من هنا بتنفيذ البرامج ، وكتابة فحوصات واختبارات متنوعة ، وفهم كيفية حدوث عمليات الفحص التبادلي بين الأنظمة المختلفة ، ولاحظ وظائف هؤلاء الموظفين المسؤولين عن جودة البيانات ، وكذلك وضع منهجية مشتركة.

4. إدارة NSI

نحن شركة كبيرة. لدينا العديد من الأنواع المختلفة من الأدلة - والمقاولين ، والمواد ، ودليل للمؤسسات ... بشكل عام ، صدقوني ، هناك أكثر من أدلة كافية.

عندما تشتري شركة بنشاط شيء ما لأنشطتها ، فعادة ما يكون لديها عمليات خاصة لملء هذه الدلائل. وإلا ، ستصل الفوضى إلى مستوى يجعل من المستحيل العمل من كلمة "بالكامل". لدينا أيضا مثل هذا النظام (MDM).

ها هي المشاكل. لنفترض ، في أحد الأقسام الإقليمية ، التي لدينا الكثير منها ، أن الموظفين يجلسون ويدخلون البيانات في النظام. ساهم باليد ، مع كل العواقب الناجمة عن هذه الطريقة. أي أنهم بحاجة إلى إدخال البيانات ، والتحقق من أن كل شيء وصل إلى النظام في الشكل الصحيح ، دون تكرار. في نفس الوقت ، بعض الأشياء ، في حالة ملء بعض التفاصيل والحقول المطلوبة ، يجب عليك البحث بشكل مستقل و google. على سبيل المثال ، لديك شركة TIN ، وتحتاج إلى معلومات أخرى - يمكنك التحقق من الخدمات الخاصة والتسجيل.

كل هذه البيانات ، بالطبع ، موجودة بالفعل في مكان ما ، لذلك سيكون من الصواب سحبها تلقائيًا.

في السابق ، لم يكن لدى الشركة ، من حيث المبدأ ، أي منصب واحد ، فريق واضح من شأنه أن يفعل ذلك. كان هناك العديد من الانقسامات المتناثرة التي أدخلت البيانات يدوياً. ولكن من الصعب عادة على هذه الهياكل صياغة ما يجب تغييره بالضبط وفي أي مكان في عملية التعامل مع البيانات حتى يصبح كل شيء على ما يرام. لذلك ، نحن نراجع تنسيق وهيكل إدارة NSI.

5. تنفيذ مستودع البيانات (عقدة البيانات)

هذا هو بالضبط ما بدأنا القيام به في هذا المجال.

دعونا نحدد المصطلحات على الفور ، وإلا فإن العبارات التي أستخدمها قد تتقاطع مع بعض المفاهيم الأخرى. تحدث تقريبًا ، عقدة البيانات = بحيرة البيانات + مستودع البيانات. أبعد قليلا سأكشف عن هذا بمزيد من التفصيل.

العمارة


بادئ ذي بدء ، حاولنا معرفة نوع البيانات التي يجب التعامل معها - أي الأنظمة موجودة ، وأي أجهزة استشعار. لقد فهمنا ما يمكن أن يكون مثل تدفق البيانات (هذا هو ما تولده المؤسسات نفسها من جميع معداتها ، وهذا هو IIoT وما إلى ذلك) والأنظمة الكلاسيكية ، CRM مختلفة ، ERP وما شابه ذلك.

لقد أدركنا أن البيانات الموجودة في الأنظمة الحالية لن تكون كافية بشكل مباشر لتكون كبيرة الحجم ، ولكن مع إدخال الأدوات الرقمية و IIoT سيكون هناك الكثير منها. وسيكون هناك أيضا بيانات غير متجانسة للغاية من أنظمة المحاسبة الكلاسيكية. لذلك ، توصلوا إلى بنية مثل هذه الخطة.



مزيد من التفاصيل حول الكتل.

التخزين




هذا هو جوهر الأساسية من منصتنا. ما يستخدم لمعالجة وتخزين البيانات. يكمن التحدي في تنزيل البيانات من أكثر من 60 نظامًا مختلفًا عند بدء تسليمها. أي أن هناك عمومًا كل البيانات التي قد تكون مفيدة في اتخاذ بعض القرارات.

لنبدأ باستخراج ومعالجة البيانات. لهذه الأغراض ، نخطط لاستخدام أداة NiFi ETL لتدفق البيانات وحزمها ، بالإضافة إلى أدوات معالجة التدفق: Flume لاستقبال البيانات وفك تشفيرها ، و Kafka للتخزين المؤقت ، Flink و Spark Stream كأدوات معالجة دفق البيانات الرئيسية.

الأكثر صعوبة في العمل مع أنظمة مكدس SAP. يجب عليك استرداد البيانات من SAP باستخدام أداة ETL منفصلة - SAP Data Services.

كأدوات للتخزين ، نخطط لاستخدام منصة Cloudera Hadoop (HDFS ، HBASE ، Hive ، Impala نفسها) ، نظام إدارة قواعد البيانات التحليلي Vertica ، وبالنسبة للحالات الفردية ، البحث elastics.

في الأساس ، نحن نستخدم المكدس الأكثر تقدما. نعم ، يمكنك محاولة إلقاء الطماطم علينا والسخرية مما نسميه المكدس الأكثر حداثة ، ولكن في الواقع - إنه كذلك.

نحن لا نقتصر على التطوير القديم ، لكن لا يمكننا استخدام ميزة النزيف في حل صناعي بسبب التوجه الواضح للمشروع في منصتنا. لذلك ، ربما لا نقوم بسحب Horton ، لكننا نحصر أنفسنا في Clouder ، كلما كان ذلك ممكنًا ، نحاول بالتأكيد سحب أداة أحدث.



يتم استخدام SAS Data Quality للتحكم في جودة البيانات ، ويتم استخدام Airflow لإدارة كل هذا الخير. نحن نراقب النظام الأساسي بأكمله من خلال مكدس ELK. نحن نخطط لإجراء التصور في الجزء الأكبر على Tableau ، بعض التقارير ثابتة تمامًا على SAP BO.

نحن نفهم بالفعل أن جزءًا من المهام لا يمكن تحقيقه من خلال حلول BI القياسية ، حيث يتطلب الأمر تصوراً متطورًا في الوقت الفعلي مع الكثير من أدوات التحكم في الورق المقوى. لذلك ، سوف نكتب إطار التصور الخاص بنا ، والذي يمكن تضمينه في المنتجات الرقمية قيد التطوير.

حول المنصة الرقمية


إذا نظرت إلى نطاق أوسع قليلاً ، فإن زملائنا من وظيفة التكنولوجيا الرقمية يقومون الآن بإنشاء منصة رقمية واحدة ، تتمثل مهمتها في تطوير تطبيقاتنا بسرعة.

بحيرة البيانات هي واحدة من عناصر هذه المنصة.
كجزء من هذا النشاط ، نتفهم أننا سنحتاج إلى تنفيذ واجهة مريحة للوصول إلى البيانات التحليلية. لذلك ، نعتزم تطبيق واجهة برمجة تطبيقات البيانات ونموذج كائن الإنتاج للوصول بسهولة أكبر إلى بيانات الإنتاج.

ماذا نفعل وما الذي نحتاجه؟


بالإضافة إلى تخزين ومعالجة البيانات ، فإن جميع عمليات التعلم الآلي بالإضافة إلى إطار عمل IIoT ستعمل على نظامنا الأساسي. ستعمل البحيرة كمصدر للبيانات للتدريب ونماذج العمل ، وكقدرة على نماذج العمل. إطار ML الذي سيعمل على أعلى المنصة جاهز بالفعل.



لدي الآن فريق ، واثنين من المهندسين المعماريين و 6 مطورين ، لذلك نحن نبحث بنشاط عن أشخاص جدد (أحتاج إلى مهندسي البيانات ومهندسي البيانات ) الذين سيساعدوننا في تطوير النظام الأساسي. ليس عليك أن تتجول في الإرث القديم (الإرث موجود فقط عند مدخل الأنظمة) ، المكدس جديد.



هذا هو المكان الذي ستكون فيه التفاصيل الدقيقة - إنه في الدمج. إن توصيل القديم بالجديد ، بحيث يعمل بشكل جيد ويحل المشكلات ، يمثل تحديًا. بالإضافة إلى ذلك ، سيكون من الضروري ابتكار مجموعة من المقاييس المختلفة والعمل عليها وتعليقها.

يتم جمع البيانات من جميع الأنظمة الرئيسية - 1C و SAP ومجموعة من كل شيء آخر. بناءً على البيانات التي تم جمعها هنا ، وجميع التحليلات ، وجميع التنبؤات ، سيتم بناء جميع التقارير الرقمية.

باختصار ، نريد أن نجعل البيانات رائعة حقًا. على سبيل المثال ، التسويق والمبيعات - لديهم أشخاص يجمعون جميع الإحصاءات يدويًا. أي أنهم يجلسون ومن 5 أنظمة مختلفة يقومون بضخ البيانات المختلفة بتنسيقات مختلفة ، وتحميلها من 5 برامج مختلفة ، ثم تفريغ كل هذا في Excel. ثم يقومون بتلخيص المعلومات في جداول Excel موحدة ، ويحاولون بطريقة ما إجراء التصور.

بشكل عام ، يأخذ العربة كل هذا الوقت. نريد حل مثل هذه المشاكل مع منصتنا. وفي الوظائف التالية ، سنخبرك بالتفصيل عن كيفية ربطنا للعناصر معًا وإعداد التشغيل الصحيح للنظام.

بالمناسبة ، بالإضافة إلى المهندسين المعماريين ومهندسي البيانات في هذا الفريق ، سنكون سعداء لرؤية:

Source: https://habr.com/ru/post/ar436632/


All Articles