رؤية الكمبيوتر في الصناعة. محاضرة في ياندكس

يستمر التعلم الآلي في اختراق الصناعات خارج صناعة الإنترنت. في مؤتمر البيانات والعلوم " العالم من خلال عيون الروبوتات " ، تحدث ألكسندر بيلوجين من شركة "ديجيتال" عن النجاحات والصعوبات والمهام العاجلة بهذه الطريقة. يتطلب إدخال تقنيات مثل رؤية الكمبيوتر نهجًا تسلسليًا ونهجًا منتجًا لتقليل تكلفة عمليات التنفيذ الفردية. والحقيقة هي أن هناك الكثير من أنواع المهام في الإنتاج. من التقرير يمكنك التعرف على المنتجات والاتجاهات العالمية وتجربة فريق ألكسندر في مجالات السلامة الصناعية وأتمتة العمليات.


- صباح الخير. سعيد الجميع جاء إلى هذا المؤتمر المثير للاهتمام. سأتحدث أولاً باختصار عن شركة "ديجيتال" ، ثم قليلاً عن المهام الموجودة في الصناعة ، وعن الطرق النموذجية لحل مثل هذه المشاكل. هذه مهام بدون روبوتات ، وليست روبوتات تجميع ، بل مصانع معالجة مختلفة. في النهاية ، نظرة بسيطة على تجربتنا.

نحن نعمل في السوق لمدة عام الآن وهدفنا هو أتمتة الإنتاج الصناعي بالكامل ، مما سيسمح لنا بتحقيق زيادة في ربحيتها بنسبة 10-15 ٪. للقيام بذلك بالكامل ، من الضروري حل جميع المشاكل ، والانتهاء بنوع من التحسين المشترك لجميع العمليات والخدمات اللوجستية والمشتريات والإنتاج نفسه ، ولكن بدءًا من الأشياء الأساسية مثل إنترنت الأشياء وأجهزة الاستشعار وجمع المعلومات.



هذا يسمى الآن رقمنة الكلمة الطنانة. هذا هو نقل البيانات حول جميع العمليات في شكل رقمي ، بحيث يمكنك استخدامها لاحقًا لزيادة الكفاءة.



نتحدث اليوم أكثر عن رؤية الكمبيوتر. هناك أيضًا مصطلح "رؤية الآلة" ، الذي يشير إلى التكنولوجيا. هناك كاميرات فيديو مشابهة لتلك المستخدمة في المراقبة بالفيديو ، وهناك كاميرات ويب تستخدم للاتصالات ، وهناك كاميرات خاصة في الصناعة. وهي تختلف من حيث أنها لا تحتوي غالبًا على منفذ Ethernet عادي ، ويتم استخدام بروتوكولات خاصة ، يمكنها الإرسال ، على سبيل المثال ، 750 إطارًا في الثانية وليس في وضع الاندفاع ، ولكن بشكل مستمر ، دون ضغط. توجد كاميرات خاصة ذات حساسية للضوء في نطاقات أخرى غير مرئية بصريًا للعين. حتى أن الكاميرات التي تقرأ حارة واحدة ، تأخذ الكثير من الإطارات في الثانية ، ولكن بعرض بكسل واحد. تقف هذه الكاميرا فوق الناقل وتنظر إلى ما يحدث هناك.

السمة المميزة لمهام رؤية الكمبيوتر هي أن المخرج لا يجب أن يكون صورة - لا يهم أي شخص - ولكن رقمًا يميز جودة أو حجم ما نلاحظه.



أريد أن أسرد بعض المهام الأساسية. الكتلة الرئيسية الأولى هي ما يتعلق بالأمن. هناك تحكم محيط بحيث لا يتم إخراج أي شيء من المؤسسة. هذا مثال من عدد مهام تحليلات الفيديو التي تم حلها لمدة 15-20 عامًا ، وكل عام يتحسن. إذا كان هناك سياج وكاميرا فيديو ويحاول شخص ما التسلق ، فستلتقطه تحليلات الفيديو بالتأكيد.

هناك مهام أكثر تعقيدًا - التحكم في الحركة في بعض المناطق. على سبيل المثال ، في المؤسسة ، يمكنك دائمًا الحصول على حرق ، تجد نفسك في منطقة تحميل التفريغ أو على المسارات حيث تقود العربات. هناك بالفعل مهمة أكثر صعوبة ، يجب عليك مراعاة القيود الضيقة ، وفهم المسارات التي يمكن للناس السير عليها.

مثال آخر على مهمة تتعلق بالأمن هو الكشف عن الخوذات على رؤوسهم عندما يتم وضع الكاميرات على منصات. في روسيا ، يباع هذا الموضوع بشكل سيء للغاية. عندما يسمع الناس كم تكلفة هذه الأنظمة ، يقولون أن لدينا لائحة ، يجب على الشخص ارتداء خوذة وسيرتديها ، وإذا لم يكن كذلك ، فقد انتهك التنظيم ، مشكلته. بشكل عام ، يعد هذا حلًا شائعًا في العالم يتم الترويج له من قبل كل من البائعين والشركات الخاصة.

المجموعة التالية من المهام تتعلق بالمحاسبة. في الأساس ، هذا هو التعرف على بعض الملصقات. هناك ملصقات خاصة عند طباعة الباركود. ثم يعمل بشكل أسهل قليلاً. هناك مجموعة من البرامج الجاهزة للتعرف على الرموز الشريطية أو الأحرف المطبوعة بشكل واضح. غالبًا ما يحاولون توفير المال ، وليس لتغيير نظام الترميز ، ولكن لاستخدام رؤية الكمبيوتر للتعرف عليها. ثم يمكن ، على سبيل المثال ، أن تكون محشوة على عربة للسكك الحديدية وأرقام لا يمكن تمييزها بشكل سيء. ثم كل شيء أكثر تعقيدًا ، تحتاج إلى قضاء المزيد من الوقت في بناء كل هذا. هذا ضروري لمكافحة السرقة والسيطرة على البضائع - ما دخل في المؤسسة ، وكيف انتقلت داخلها وأين انتهى بها الأمر.



آخر مجموعة من المهام هي مراقبة الجودة. كما يمكن تقسيمها إلى مكونين. واحد يتعلق بمراقبة الجودة المادية. يمكنك مشاهدة أحجام الأشياء المختلفة. غالبًا ما يتعلق هذا بالأشياء الصغيرة: بعض الأغطية من العبوات بالحليب أو من الزجاجات. لديهم عملية إنتاج بسيطة ورخيصة إلى حد ما ، والكثير من العيوب ، يحتاجون فقط إلى التصفية ، مما يجعلها أفضل غير مربحة.

وهناك جزء في الصورة. هناك بالفعل مهام أكثر تعقيدًا. هذا عندما نحاول أن نفهم - وما إذا كانوا ، في الواقع ، يقومون بالإجراء الصحيح مع منتجنا. على سبيل المثال ، تحتاج إلى تقييم وضع الميكانيكي وفهم العملية التي يقوم بها. أو كانت هناك مهمة عندما يكون هناك منصة يتم فيها تجميع وتفكيك منصات الحفر. يتم تجميع أكبر حقل ، ويتم دفعه إلى العمل ، ثم يتم تفكيكه وإزالته. إن وضع شخص في الشمال لمتابعة هذه العمليات أمر مكلف للغاية ، على الرغم من حقيقة أنه سيكون خاملاً معظم الوقت. على كاميرا الفيديو أيضا. باستخدام كاميرا الفيديو ، يمكنك مشاهدة الأحداث التي تحدث تلقائيًا وتتبع جدول التجميع والتفكيك.



مثال آخر هو لقطة شاشة للبرامج التابعة ، والتحكم في الزواج في المسبوكات ، وجميع أنواع الأشياء البلاستيكية قبل رسمها ، مثل هذا يتم سكبه في مثل هذه الأشكال. يمكنك الكشف عن الزواج باستخدام الكاميرا.

هناك طريقتان رئيسيتان لحل هذه المشاكل. تم اختراع كلاهما لفترة طويلة ، ولكن الكلاسيكية هي العمل مع الصور باستخدام نوع من الخوارزميات.



الرافعة اليسرى ، حاول التعرف عليها. الحق ليس واضحا جدا. الدوائر عبارة عن لفات من صفائح فولاذية ملفوفة ، في الوسط ليس من الواضح ما. تتمثل الطرق في معالجة الصورة بطريقة ما ، وزيادة تباينها ، وربما جعلها بلونين ، وتحديد بعض الحواف ، وحواف الكائنات ، ومحاولة العثور على الكائنات نفسها ، ثم العمل معها.



الطريقة الثانية ، الأكثر حداثة ، المتعلقة بعلوم البيانات ، هي كل ما يتعلق بالشبكات العصبية. هناك مزايا معينة هنا. أولاً وقبل كل شيء ، من حيث الجودة ، من الممكن تحقيق نتائج أعلى في معظم المشاكل المعقدة التي لا يمكن حلها بالطرق الكلاسيكية. يتم سرد بعض المهام عينة.

هناك قابلية للتكيف ، يمكنك تكوين خوارزمية تعلم الشبكة العصبية ، والانتقال من المهمة إلى المهمة وليس الشبكة العصبية المدربة نفسها ، ولكن جميعها مع الخوارزمية ، ومن ثم يمكن حل المهام المختلفة قليلاً باستخدام نفس الأداة.

هناك سلبيات غالبا ما تلعب في الصناعة - نقص البيانات. للبدء في تحديد العيوب ، إذا كنا نتحدث عن الأساليب الكلاسيكية ، فنحن بحاجة إلى دفق فيديو يصور المنتجات النهائية ، نحتاج إلى رؤية العيوب الموجودة ، بأعيننا ، ونراها ونجعل رمزنا يراها. كرر على عدة معلمات ، لا يلزم الترميز اليدوي لهذا. في حالة الشبكة العصبية ، تحتاج إلى عدد كبير من الأمثلة ، إما لجمعها يدويًا ، أو استخدام الأساليب الفنية الحديثة لتوليدها. هذه عملية طويلة ومعقدة ، والتي قد تحتاج إلى تكرارها من وقت لآخر عند نقلها إلى مهام أخرى.



هنا مثال على هذه الصورة المتعلقة بالكشف عن العيوب. أحد الموضوعات الشائعة ، إذا نظرت إلى ما هي المقالات ، في أسفل الصورة يظهر زواجًا صغيرًا على الهياكل. باستخدام الشبكات العصبية ، من الممكن الكشف من 92٪ إلى 99٪ من جميع العيوب ، في وظائف مختلفة بطرق مختلفة ، مع نتائج إيجابية خاطئة على مستوى 3-4٪ ، نتائج مناسبة تمامًا. المستوى الطبيعي للزواج في الصناعات المختلفة من 0.5٪ إلى وحدات صغيرة في المئة. هذه المؤشرات مناسبة تمامًا لاستبدال الشخص الذي يكتشف هذه العيوب. أو حتى تحسين النتائج.



مثال آخر على المهام المتعلقة بالرقمنة ، وربط المعدات المختلفة التي لا تحتوي على واجهات رقمية ، حيث يكون السهم الأخضر هو الرافعة المالية. لقطة صغيرة من مكان عمل عامل الحفر ، الذي يتحكم في الحفر ، لديه بعض النفوذ الذي يبدله. الحفر مهم ، عملية باهظة الثمن ، مليونا روبل في اليوم. ولا يتم تسجيل هذا بأي شكل من الأشكال ، فهو يبدل بعض العتلات ، ولا يوجد أي سجل ، أو في أفضل الأحوال ، في مجلة يدوية ، والتي كانت تحدث فيها عمليات تبديل هذه العتلات. هذا أمر بالغ الأهمية.



هذا فرن يخفف السلك. في هذا المثال ، سلك ذهبي. يبلغ عمر الموقد حوالي 25 عامًا ، ويدخل الذهب الخالص إلى الداخل ، ويذوب ، ويصب في خيط رفيع ، ويتم تخفيفه بالحرارة ، والحرق ، وتحويله إلى مادة صلبة. من المعروف أنه في بعض الأحيان يتبين أن هذا السلك موثوق به في بعض الأحيان ، حيث يتم نسج جميع أنواع السلاسل منه ، وأحيانًا تؤدي كمية معينة من الأسلاك إلى الزواج ، أثناء نسج السلاسل التي تنكسر أو تتكسر أو تنكسر. يبدو أن هذا يعتمد على أنظمة المعالجة الحرارية ، بالنظر إلى أن المواد الخام تتغير قليلاً. مسجل البيانات مكتوب هنا ، على يمين الإطار يوجد مسجل يمكنه كتابة معلماته على لفافة من الورق. هناك ثلاث معلمات: درجة الحرارة في الكوب الذي يذوب فيه الذهب ، ودرجة حرارة التسخين هي وضع الفرن ، والسرعة التي يمر بها كل هذا.

لفهم ما يرتبط الزواج وما إذا كان من الممكن تعديل الموقد بحيث يمكن تقليل الزواج ، يجب رقمنة هذه المعلمات. كيف؟ لديها موصلات صناعية ، ولكن قبل 25 عامًا ، ستكون باهظة الثمن ، إما أن تتصل بهندسة عكسية أو تدفع لشركة تصنيع الفرن ، إذا لم تكن الشركة قد أفلست بعد ، للتوصيل. يمكن أن يكلف توصيل هذه المعدات بنظام USP أو MS [00:14:24] ، على سبيل المثال ، مليون روبل. أو ربما مئات الآلاف. خاصة بالنظر إلى أن هناك مواقدان فقط ، وليس مائة.



كيف يمكننا حل هذه المشكلة بالأدوات التي تحدثنا عنها؟ لا يعمل النهج الكلاسيكي باستخدام OpenCV في هذه الحالة ، هناك الكثير من الوهج ، والصورة ضبابية ، حتى لا يميز الشخص حقًا الأرقام الموجودة. كما أن OCR والمكتبات الجاهزة للتعرف على النص ليست مناسبة أيضًا.

يبقى الخيار الثاني - الشبكات العصبية. في هذه الحالة ، يعمل ، ولكنه يتضمن عددًا كبيرًا من الخطوات. بالتأكيد تحتاج إلى جمع بعض الترميز للتدريب على الشبكة والاختبار والتقاط بعض الشبكات وتدريبها. كل هذا يجب القيام به واختباره. أحسب تكاليف العمالة. هنا يمكنك أن تناقش ، يمكنك أن تفعل ذلك بشكل أسرع أو أبطأ ، ولكن بشكل عام يتبين 72 ساعة. بمعدل أخصائي جيد ، يمكن أن يكلف هذا الكثير. في الوقت نفسه ، لم نتلق أي بنية تحتية أو برامج. لقد حصلنا للتو على شبكة مضبوطة ومختبرة تتعرف على هذه الأرقام جيدًا.

زائد من النهج هو أنه يعمل. الجانب السلبي هو أنه لا يوجد أحد مستعد لتطبيقه أيضًا. تحتاج أولاً إلى معرفة كيفية جمع هذه البيانات ، وفقط عندها فقط تفهم ما إذا كانت هناك بالفعل علاقة بين هذه البيانات والزواج. إذا كان الأمر كذلك ، فأنت بحاجة إلى معرفة كيف وما الذي يجب تغييره لتقليل نسبة الزواج. ماذا لو كان هناك الكثير منه؟ ودفع ثمن الإصدار التجريبي ، من أجل الأتمتة والاتصال ، تحتاج على الأقل بنفس القدر. حتى ، على الأرجح ، أكثر.



لذلك ، على مدى السنوات الثلاث الماضية ، من خلال تجربتنا ، لم تتمكن مثل هذه المشاريع من بيع واحدة. إذا كان هذا ماسورة معيبة حيث يقف الشخص ، فإن الشخص أرخص بكثير. إذا كان هذا أمرًا معقدًا ، فإن المخاطر التي يواجهها العملاء كبيرة جدًا.

الخلاصة - أنت بحاجة إلى إنتاجها.

الآن في العالم ، في أسواق التعلم الآلي ، هناك الكثير من الحركة نحو الإنتاج. جميع أنواع حلول ML التلقائية التي تسمح لك باستبدال عالم البيانات جزئيًا ، والمنتجات أو الحلول النهائية لتطبيقات محددة. أبسط مثال على ذلك هو التوصيات في التجارة الإلكترونية. لفترة طويلة هناك منتجات حيث يتم ربط البيانات بتنسيق قياسي ، وهم أنفسهم يصدرون توصيات.

حاولنا أن نفعل نفس الشيء في مجال رؤية الكمبيوتر. لتقديم منتج يسمح لك بأتمتة وتقليل العمل اليدوي من حيث الحجم لتوصيل المعدات القديمة مع التعرف على الأرقام: مؤشرات الاتصال وغيرها.



المهمة الأولى التي تحتاج إلى حل هي تقليل تكاليف الإعداد. عندما تضع الكاميرا ، تحتاج إلى السماح للأشخاص بتسليط الضوء على منطقة الاهتمام. على سبيل المثال ، ضع دائرة مثل هذا مع مستطيل وقل ما أريد التعرف عليه في هذه المنطقة.



السؤال التالي هو أن جميع المهام مختلفة ، وفي هذا المكان فقط تحتاج إلى تعلم بعض الشبكات العصبية حتى تعمل بشكل جيد هنا.


رابط من الشريحة

نحن نعلم أن هناك شبكات عصبية مختلفة. إذا كنا نتحدث عن الأرقام ، فإن العديد منهم لديهم مترجمون أوتوماتيكيون في الهواتف الذكية: نشير إلى أي نص ، ويبدأ في ترجمته بشكل أو بآخر ، بغض النظر عن الخط أو الزاوية. هناك مثل هذه الحلول ، مما يعني استخدام لوحة النتائج يمكنك تدريب شبكة تعمل بشكل جيد مع أي لوحة نتائج. ولكن سيكون لها عيوب - ستكون صعبة ، صعبة ، ستعمل ببطء ، ولأنها عالمية ، ستعاني الجودة في مهمة محددة. لذلك ، استخدمنا نهجًا يسمى Tutor-Student ، حيث يتم تضمين مجموعة من الشبكات القوية لمهام محددة في الحل. على سبيل المثال - بشكل منفصل للنصوص ، لبعض العتلات ، لمؤشرات الطلب. لا توجد أنواع كثيرة من هذه الأجهزة. يعمل هذا النظام في حد ذاته ، ويتعرف على شيء ما ، ثم يمنح المشغل الفرصة للقيام بترميز إضافي ، والنظر من خلال عينيه وتصحيح 3-5٪ من الأخطاء التي يراها. وبعد ذلك ، على أساس هذه الطريقة الصريحة للترميز المولد ، لتدريب شبكة خفيفة الوزن بالفعل تتكيف مع المهمة المحددة للعميل ، وفقًا لبياناته. هذا النهج يمكن أن يقلل بشكل كبير من تكلفة التنفيذ ، مع جعل الجودة كما لو كان العمل يسير.



هناك حاجة إلى شبكة خفيفة الوزن لاحقًا ، لأنه ليس في كل مكان في المؤسسات هناك القدرة على توصيل كاميرات الفيديو بنوع من نظام إدارة الفيديو. إذا كان هناك مثل VMS ، فيمكنك القيام بكل شيء على الخادم ، حيث يرتبط حد الموارد بالتكلفة فقط. وهناك رقائق مدمجة في كاميرا الفيديو مثل Nvidia Jetson ، وحلول منفصلة. على وجه الخصوص ، يعمل حلنا على Orange PI ، وهو نوع من الحواسيب الصغيرة Raspberry PI ، وينتج 8-10 إطارات في الثانية ، يتلقى صورة عالية الدقة بالكامل عند الإدخال.



التالي هو أيضًا جزء البقالة. يجب وضع كل هذه البيانات في مكان ما. يوفر على الفور مجموعة من الموصلات القياسية.



لتلخيص. يسمح لك هذا الإنتاج بنقل التعلم الآلي ورؤية الكمبيوتر إلى الجماهير ، إلى سوق واسع ، بسبب التكلفة المنخفضة وتكاليف التنفيذ المنخفضة ، دون استخدام المتخصصين الباهظين وعلماء البيانات. أعتقد أن هذا هو المستقبل ، بما في ذلك في الصناعة.

Source: https://habr.com/ru/post/ar422087/


All Articles