हमने ड्राइवरों के ध्यान की निगरानी के लिए एक उपकरण कैसे विकसित किया। अनुभव यैंडेक्स। टेक्सी



टैक्सी आरामदायक और सुरक्षित होनी चाहिए। और यह न केवल कार और सेवा की गुणवत्ता पर निर्भर करता है, बल्कि चालक के ध्यान की एकाग्रता पर भी निर्भर करता है, जो ओवरवर्क के दौरान गिरता है। इसलिए, सेवा स्तर पर, हम उस समय को सीमित करते हैं जो चालक पहिया के पीछे खर्च करता है।

लेकिन कभी-कभी ड्राइवरों को पहले से ही थका हुआ लाइन पर मिलता है - उदाहरण के लिए, एक व्यक्ति पूरे दिन दूसरी नौकरी में व्यस्त था, और शाम को "स्टीयरिंग" का फैसला किया। इसके बारे में क्या करना है? कैसे समझें कि चालक नींद में बदलाव किए बिना हस्तक्षेप करता है? उदाहरण के लिए, आप यह आकलन करने का प्रयास कर सकते हैं कि वह सड़क की कितनी बारीकी से निगरानी करता है, और थकान के संकेतों को निर्धारित करता है, उदाहरण के लिए, निमिष की प्रकृति से। क्या वह सरल है? सब कुछ लगता है की तुलना में अधिक जटिल है।

आज हम सबसे पहले हैबर के पाठकों को बताएंगे कि हम कैसे आए और ऐसा कैमरा विकसित किया जो ऐसा कर सके।

तो, यह दिया गया है: पलक की आवृत्ति और अवधि थकान की डिग्री पर निर्भर करती है। जब हम थके हुए होते हैं, सिर कम मोबाइल होता है, तो हमारे टकटकी की दिशा कम बार बदल जाती है, हम अधिक बार झपकाते हैं और लंबे समय तक अपनी आँखें बंद रखते हैं - अंतर को एक दूसरे या कई डिग्री रोटेशन के अंशों में मापा जा सकता है, लेकिन यह मौजूद है। हमारा कार्य एक ऐसे उपकरण को डिजाइन करना था जो हमें पलक का विश्लेषण करने की अनुमति देता है, साथ ही साथ चालक के ध्यान और थकान के स्तर का आकलन करने के लिए हमारे टकटकी, जम्हाई और सिर की चाल की दिशा भी बताता है।

सबसे पहले, हमने फैसला किया: चलो एक लैपटॉप एप्लिकेशन बनाते हैं, इसे कर्मचारियों में से स्वयंसेवकों पर डालते हैं, और क्या यह उन संकेतों को ट्रैक करने के लिए अंतर्निहित कैमरे का उपयोग करेगा जिनकी हमें ज़रूरत है? तो हम तुरंत विश्लेषण के लिए जानकारी का एक बड़ा शरीर इकट्ठा करेंगे और जल्दी से अपनी परिकल्पना का परीक्षण करेंगे।

Spoiler: कुछ नहीं हुआ! बहुत जल्दी यह स्पष्ट हो गया कि कंप्यूटर पर काम करने वाले अधिकांश लोग लगातार कीबोर्ड को देखते हैं और अपने सिर को झुकाते हैं। यही है, आंखें दिखाई नहीं दे रही हैं, और यह भी स्पष्ट नहीं है कि वे बंद हैं या खुले हैं, एक व्यक्ति झपकाता है या बस स्क्रीन से कीबोर्ड और इसके विपरीत दिखता है।



तब हमें महसूस हुआ कि प्रोटोटाइप बनाने के लिए भी हमें किसी तरह के उपकरण की जरूरत होती है। हमने पहला उपलब्ध आईपी-कैमरा मॉडल खरीदा, जो इंफ्रारेड रेंज में काम करता है।

हमें अवरक्त की आवश्यकता क्यों है? प्रकाश अलग हो सकता है, कभी-कभी उपयोगकर्ता छाया में होता है, कभी-कभी प्रकाश पीछे से, ऊपर से होता है, या कोई भी नहीं होता है। यदि हम एक मापने वाला उपकरण बनाते हैं, तो इसे किसी भी परिस्थिति में समान काम करना चाहिए।

प्रयोग के लिए, Xiaomi का एक काफी लोकप्रिय कैमरा सामने आया - CHUANGMI।



यह पता चला कि वह 15 फ्रेम प्रति सेकंड की आवृत्ति पर शूट करती है, और हमें दो बार उतना ही चाहिए: 30 से 150 एमएस तक ब्लिंकिंग, 15 फ्रेम प्रति सेकंड पर हमने 60-70 एमएस से कम ब्लिंक नहीं देखने का जोखिम उठाया। इसलिए, हमें आईआर फर्मवेयर को जबरन चालू करने, वीडियो स्ट्रीम तक सीधे पहुंच प्राप्त करने और आवश्यक 30 फ़्रेम प्रति सेकंड लेने के लिए इसके फ़र्मवेयर को संशोधित करना पड़ा। कैमरे को लैपटॉप से ​​जोड़ा और आरटीएसपी प्रोटोकॉल के माध्यम से वीडियो स्ट्रीम प्राप्त करने के लिए कॉन्फ़िगर किया, हमने पहले वीडियो रिकॉर्ड करना शुरू किया। कैमरे को लैपटॉप के कैमरे से 15 सेमी नीचे रखा गया था, और इससे उपयोगकर्ता की आंखों को बेहतर ढंग से "देखना" संभव हो गया।

सफलता? और फिर से, नहीं। कई सौ वीडियो एकत्र करने के बाद, हमने महसूस किया कि कुछ भी नहीं हो रहा था। दिन के दौरान लैपटॉप उपयोगकर्ता का व्यवहार ड्राइवर के व्यवहार से अलग होता है: एक व्यक्ति किसी भी समय उठ सकता है, काटने के लिए आगे बढ़ सकता है, बस चल सकता है और एक वार्म-अप कर सकता है, जबकि ड्राइवर एक बैठने की स्थिति में बहुत अधिक समय बिताता है। इसलिए, ऐसा डेटा हमें शोभा नहीं देता है।

यह स्पष्ट हो गया कि एकमात्र तरीका एक उपयुक्त कैमरा बनाना या खरीदना और इसे कार में स्थापित करना है।

ऐसा लगता है कि सब कुछ प्राथमिक है: हम एक डीवीआर खरीदते हैं, हम ड्राइवर की ओर मुड़ते हैं, कार में जकड़ते हैं और सप्ताह में एक बार हम वीडियो रिकॉर्डिंग के साथ एसडी-कार्ड उठाते हैं। लेकिन यहाँ, वास्तव में, सब कुछ इतना आसान नहीं निकला।

सबसे पहले, आईआर रोशनी के साथ एक डीवीआर खोजना बेहद मुश्किल है, और हमें चेहरे को अच्छी तरह से देखने की जरूरत है, खासकर रात में।

दूसरे, सभी डीवीआर में एक वाइड-एंगल लेंस होता है, इसलिए ड्राइवर के चेहरे वाला क्षेत्र काफी छोटा हो जाता है और आप रिकॉर्ड पर कुछ भी नहीं कर सकते। हां, और लेंस से विरूपण सिर की स्थिति और देखने की दिशा के विश्लेषण को बहुत खराब कर देता है।

तीसरा, यह उद्यम दस, एक सौ या अधिक मशीनों पर अच्छी तरह से पैमाना नहीं करता है। हमें उनका विश्लेषण करने और निष्कर्ष निकालने के लिए विभिन्न ड्राइवरों से बहुत सारे डेटा एकत्र करने की आवश्यकता है। हर हफ्ते या हर दिन सौ मशीनों पर मैन्युअल रूप से मेमोरी कार्ड बदलना समय की भारी बर्बादी है। हमने एक ऐसा कैमरा खोजने की भी कोशिश की, जो क्लाउड पर वीडियो अपलोड करे, लेकिन बाजार में ऐसा कुछ नहीं था।

यहां तक ​​कि रास्पबेरी पाई से "अपना खुद का डीवीआर" बनाने का भी विचार था, आईआर रोशनी और माउंट के साथ एक कैमरा।



परिणाम काफी नहीं था जो हमें उम्मीद थी: बोझिल, कैमरे को कंप्यूटर से अलग से स्थापित करना असंभव है। तथ्य यह है कि 50 सेमी से अधिक की केबल लंबाई के साथ, सिग्नल के साथ समस्याएं शुरू हुईं, और सीएसआई केबल स्वयं काफी नाजुक है, बहुत व्यापक है और इसलिए एक मशीन में स्थापना के लिए बहुत उपयुक्त नहीं है।

हमें हांगकांग जाना चाहिए, हमने तय किया। यात्रा का उद्देश्य काफी सार था: यह देखने के लिए कि चालक व्यवहार का विश्लेषण करने के लिए विभिन्न निर्माता क्या कर रहे हैं, यदि हम पाते हैं, तो उत्पाद के नमूने खरीदें और उपयुक्त तकनीकी समाधान / घटकों की तलाश करें जिन्हें हम कारों में स्थापित कर सकते हैं।

हम इलेक्ट्रॉनिक्स और घटकों की दो लोकप्रिय प्रदर्शनियों के लिए तुरंत गए। ऑटोमोटिव इलेक्ट्रॉनिक्स मंडप में, हमने वीडियो रिकॉर्डर, रियर-व्यू कैमरा और ADAS सिस्टम का एक अभूतपूर्व प्रभुत्व देखा, लेकिन लगभग कोई भी ड्राइवर के व्यवहार का विश्लेषण करने में नहीं लगा था। कई निर्माताओं के प्रोटोटाइप ने सोते हुए, व्याकुलता, धूम्रपान और फोन पर बात करते हुए निर्धारित किया, लेकिन किसी ने भी थकान के बारे में नहीं सोचा।

नतीजतन, हमने कैमरे और एकल-बोर्ड कंप्यूटर के कई नमूने खरीदे। यह स्पष्ट हो गया कि 1) हमारे लिए कोई उपयुक्त तैयार उत्पाद नहीं हैं; 2) कंप्यूटर और कैमरे को अलग करना आवश्यक है ताकि ड्राइवर के दृश्य को अस्पष्ट न किया जा सके। इसलिए, हमने एक USB इंटरफ़ेस के साथ एक कैमरा बोर्ड लिया, और एक कंप्यूटिंग यूनिट, एक एकल-बोर्ड बनाना पाई कंप्यूटर, और एक ही समय में कई एंड्रॉइड खिलाड़ियों को Amlogic प्रोसेसर पर आधारित किया।



"खिलाड़ी क्यों हैं?" - आप पूछें। वास्तव में, S912 और यहां तक ​​कि S905 प्रदर्शन के मामले में काफी शक्तिशाली हैं और वे मौके पर ही छवि विश्लेषण के साथ हमारे उद्देश्यों के लिए वीडियो रिकॉर्डिंग को आसानी से खींच सकते हैं। पूरे वीडियो स्ट्रीम को सर्वर पर नहीं भेजने के लिए ऑन-साइट छवि विश्लेषण की आवश्यकता थी।

आइए गिनते हैं: 640.2 480 (30 एफपीएस) के एच .264 रिज़ॉल्यूशन में एक मिनट का अच्छी तरह से संकुचित वीडियो कम से कम 5 मेगाबाइट लेता है। तो, एक घंटे में 300 मेगाबाइट होंगे, और मानक 8 घंटे की शिफ्ट के लिए - लगभग 2-3 गीगाबाइट।

LTE मॉडेम की मदद से हर दिन 3 गीगाबाइट वीडियो अपलोड करना बहुत ही महंगा है। इसलिए, हमने समय-समय पर 5-मिनट के वीडियो रिकॉर्ड करने का निर्णय लिया, और कार में होने वाली हर चीज का विश्लेषण किया और घटनाओं की एक विस्तृत धारा के रूप में अपने सर्वर पर अपलोड किया: चेहरे का एक बिंदु, देखने की दिशा, एक सिर मोड़, आदि।

हम एक अच्छे मूड में प्रदर्शनियों से लौटे, आवश्यक (और अनावश्यक) कबाड़ का एक गुच्छा लाया और महसूस किया कि हम कैसे प्रोटोटाइप बनाना जारी रखेंगे।

हॉन्गकॉन्ग में पाया गया यूएसबी कैमरा हमारे लिए लगभग सही था: आकार 38 × 38 मिमी, मानक लेंस (12 मिमी), आईआर रोशनी को सीधे बोर्ड पर मिलाप करने की क्षमता।



इसलिए, हमने तुरंत निर्माता से हमें आवश्यक घटकों के साथ एक प्रोटोटाइप बनाने के लिए कहा। अब हम समझ गए हैं: हमें बैकलाइट के साथ एक यूएसबी कैमरा और वीडियो प्रसंस्करण के लिए एकल-बोर्ड पीसी की आवश्यकता है। हमने बाजार पर प्रस्तुत की गई हर चीज को आजमाने का फैसला किया, और AliExpress पर खरीदारी सत्र की व्यवस्था की। हमने चार दर्जन अलग-अलग कैमरे, एक दर्जन एकल-बोर्ड पीसी, एंड्रॉइड खिलाड़ी, 12 मिमी लेंस का संग्रह और कई अन्य अजीब डिवाइस खरीदे।



हार्डवेयर के साथ समस्या हल हो गई थी। और सॉफ्टवेयर के बारे में क्या?

काफी जल्दी, हम OpenCV पर आधारित एक सरल प्रोटोटाइप प्राप्त करने में सक्षम थे, जो एक वीडियो लिखता है, चालक का चेहरा पाता है, इसका विश्लेषण करता है, चेहरे पर 68 प्रमुख बिंदुओं को चिह्नित करता है, पलक झपकना, जम्हाई लेना, सिर को मोड़ना आदि पहचानता है।

अगला कार्य एक सिंगल-पीसी पीसी पर हमारे प्रोटोटाइप का काम करना था। रास्पबेरी पीआई तुरंत गिर गया: कुछ कोर, एक कमजोर प्रोसेसर, सात फ्रेम प्रति सेकंड से अधिक इसे बाहर नहीं निकाला जा सकता है। और एक साथ एक वीडियो कैसे लिखें, एक चेहरे को पहचानें और इसका विश्लेषण करें, कोई सवाल नहीं था। उन्हीं कारणों से, ऑलविनर (एच 2, एच 3, एच 5), एमलॉजिक एस 905 और रॉकचिप आरके 3328 पर सेट-टॉप बॉक्स और सिंगल-बोर्ड कंप्यूटर हमें फिट नहीं थे, हालांकि बाद वाला वांछित प्रदर्शन के बहुत करीब था। नतीजतन, हमारे पास अभी भी दो संभावित SoCs हैं: Amlogic S912 और Rockchip RK3399।

Amlogic में, उपकरणों का विकल्प छोटा था: एक टीवी बॉक्स या खड्ग VIM2। सब कुछ टीवी बॉक्स और खडास पर समान रूप से काम करता है, लेकिन सेट-टॉप बॉक्स की कूलिंग वांछित होने के लिए बहुत कुछ बचा है, और उन पर लिनक्स स्थापित करना अक्सर दिल के बेहोश करने के लिए नहीं होता है: वाई-फाई, बीटी को काम करना, ओएस को सभी मेमोरी बनाना, - यह लंबा, कठिन और अप्रत्याशित है। नतीजतन, हमने खादस वीआईएम 2 चुना: इसमें एक मानक शीतलन रेडिएटर है, और मशीन के डैशबोर्ड के पीछे इसे छिपाने के लिए बोर्ड पर्याप्त कॉम्पैक्ट है।



इस समय तक, कैमरा बोर्ड के निर्माता ने हमें पहले से ही एक सौ टुकड़ों का एक परीक्षण बैच भेजा था, और हम लड़ाई के लिए उत्सुक थे: एक प्रोटोटाइप बनाकर, इसे एक कार में डालकर और डेटा एकत्र किया।

हमारे पास एक कैमरा था, सॉफ्टवेयर था, एक सिंगल-बोर्ड पीसी था, लेकिन इस बात का ज़रा भी अंदाज़ा नहीं था कि कार में यह सब कैसे रखा जाए और इसे ऑन-बोर्ड पावर सप्लाई से जोड़ा जाए।

जाहिर है, कैमरे को एक शरीर और माउंट की जरूरत थी। हमने दो 3 डी प्रिंटर खरीदे हैं एक बार भागों को प्रिंट करने के लिए, और ठेकेदार ने हमें मामले का पहला आदिम मॉडल बनाया।



अब चुनाव का कठिन कार्य उत्पन्न हो गया है: जहां एक अच्छी तस्वीर पाने के लिए कार में कैमरा माउंट करना है, लेकिन ड्राइवर की दृष्टि को अस्पष्ट करने के लिए नहीं। तीन विकल्प थे:

  1. विंडशील्ड के बीच में।
  2. बाएँ रैक पर।
  3. रियरव्यू मिरर पर।



उस समय, यह हमें लग रहा था कि कैमरे को सीधे रियर-व्यू मिरर से जोड़ना सबसे अच्छा है: यह हमेशा ड्राइवर के चेहरे पर निर्देशित होता है, इसलिए कैमरा ठीक वही शूट करेगा जो हमें चाहिए। दुर्भाग्य से, रियर-व्यू मिरर के निर्माताओं ने यह सुनिश्चित नहीं किया कि कुछ आसानी से और मज़बूती से जुड़ा हो सकता है। कैमरे अच्छी तरह से पकड़ में नहीं आए, गिर गए और समीक्षा बंद कर दी।



फिर भी, हमने कई मशीनों को सुसज्जित किया और उनसे डेटा एकत्र करना शुरू किया। यह स्पष्ट हो गया कि डिजाइन अपूर्ण था, और प्रदर्शन और हीटिंग से जुड़ी समस्याएं एक साथ रिकॉर्डिंग और चेहरे का विश्लेषण करते समय चढ़ गई थीं।

फिर हमने बाएं रैक पर आंख के स्तर पर कैमरे को माउंट करने का फैसला किया: हम समीक्षा को कम बंद करते हैं और कैमरे के लिए एक अच्छा कोण रखते हैं ताकि चालक को देखा जा सके। मामले को फिर से तैयार करना पड़ा, क्योंकि फास्टनरों के साथ टिका बेहद अविश्वसनीय साबित हुआ: वे हिलते हुए टूटते हैं, टूटते हैं, और सक्शन कप कांच से छील जाते हैं।



हमने तय किया कि प्रोटोटाइप और डेटा संग्रह के लिए कैमरों को मजबूती से ग्लास से चिपका देना बेहतर है ताकि कोई भी झटकों और बाहरी प्रभावों से उनकी स्थिति में बदलाव न हो। हमने मामले को थोड़ा संशोधित किया और एक ही समय में एक विशेष डबल-पक्षीय टेप का उपयोग करके अधिष्ठापन का लोड परीक्षण किया। परीक्षण के लिए, जटिल और उच्च परिशुद्धता उपकरण का उपयोग किया गया था।



प्रदर्शन के मुद्दों के कारण, हमने SoC को एक और अधिक शक्तिशाली में बदलने का फैसला किया, इसलिए हमने रॉकचिप RK3399 प्रोसेसर पर NanoPI M4 सिंगल-बोर्ड पीसी को चुना।

खदास VIM2 की तुलना में, यह लगभग एक तिहाई अधिक उत्पादक है, इसमें हार्डवेयर संपीड़न और वीडियो डिकोडिंग है, और यह कठिन तापमान स्थितियों में बहुत अधिक स्थिर व्यवहार करता है। हां, हमने फ्रीज़र में कैमरे और सर्किट बोर्ड चलाने की कोशिश की, उन्हें ओवन में गरम किया और कई अन्य अमानवीय परीक्षण किए।



चूंकि हम वीडियो को न केवल रिकॉर्ड करते हैं, बल्कि पूरे दिन की गतिशीलता में, यह महत्वपूर्ण था कि डिवाइस पर सिस्टम का समय सटीक था। दुर्भाग्य से, अधिकांश एकल बोर्ड कंप्यूटर स्व-संचालित घड़ी से सुसज्जित नहीं हैं। हम भाग्यशाली थे कि हमारे नैनोपीआई में एक बैटरी कनेक्टर था।

मुझे एक कंप्यूटर के लिए एक केस डिजाइन करना था जो शारीरिक रूप से उसकी रक्षा करेगा और वाईफाई और बीटी एंटेना के लिए एक धारक के रूप में कार्य करेगा। वहां हमने एक धारक के साथ वॉच बैटरी को माउंट करने के लिए एक जगह प्रदान की।



इसके अलावा, हमने एक सौ मशीनों को प्रोटोटाइप से लैस करने की योजना बनाई जो वीडियो रिकॉर्ड करेगी और सभी टेलीमेट्री को क्लाउड पर ऑनलाइन प्रसारित करेगी: क्या कोई ड्राइवर है, कितनी बार और लंबे समय तक वह झपकाता है, जम्हाई लेता है, सड़क से विचलित होता है, अपना सिर घुमाता है, आदि। ये सब ( और न केवल) पैरामीटर हमें एक मॉडल को प्रशिक्षित करने की अनुमति देते हैं जो मूल्यांकन करता है कि चालक सड़क पर कितना केंद्रित है, चाहे वह विचलित हो या थका हुआ हो। कार में डिवाइस पर सीधे यह सब करने के लिए, हमें कोड को पूरी तरह से फिर से लिखना पड़ा, हार्डवेयर वीडियो संपीड़न, रोटेट लॉग और वीडियो रिकॉर्डिंग करना, नियमित रूप से सर्वर पर भेजना, दूरस्थ रूप से अपडेट सॉफ़्टवेयर, और बहुत कुछ करना।

उसी समय, यह हमारे लिए स्पष्ट हो गया कि हमारे गणना और एल्गोरिदम अधिक सटीक बुनियादी चेहरे के विश्लेषण के साथ बहुत बेहतर काम करेंगे। पहले प्रोटोटाइप में, हमने ओआरसीवी में निर्मित हरेक कैस्केडिंग मॉडल के आधार पर फेस डिटेक्टर का उपयोग किया और dlib लाइब्रेरी के आधार पर 68 फेस पॉइंट को चिह्नित करने के लिए मॉडल का उपयोग किया। हमने फोकल तल पर चेहरे के बिंदुओं के प्रक्षेपण की गणना करके स्वयं सिर की स्थिति की गणना की । चेहरों को पहचानने और चिह्नित करने के लिए ओपन-सोर्स समाधान उन फ़्रेमों पर अच्छी तरह से काम करते हैं जहां चेहरे को सामने या प्रोफ़ाइल में गोली मार दी जाती है, लेकिन मध्यवर्ती स्थितियों में अक्सर उनसे गलती होती है।

इसलिए, हमने एक अच्छे थर्ड-पार्टी फेस रिकग्निशन और मार्किंग सॉल्यूशन को लाइसेंस देने का फैसला किया - विजनलैब्स एसडीके। पिछले एल्गोरिदम की तुलना में, यह अधिक संसाधन-गहन है, लेकिन यह चेहरे की पहचान और अंकन की गुणवत्ता में एक उल्लेखनीय वृद्धि देता है, जिससे मशीन सीखने के लिए कारकों का अधिक सटीक निष्कर्षण होता है। VisionLabs के सहकर्मियों की मदद से, हम जल्दी से अपने एसडीके पर स्विच करने में सक्षम हो गए और हमें वह प्रदर्शन प्राप्त हुआ जिसकी हमें आवश्यकता थी: 30 फ्रेम / सेकंड। 640x480 के एक संकल्प पर।

VisionLabs SDK चेहरे की पहचान के लिए तंत्रिका नेटवर्क का उपयोग करता है। प्रौद्योगिकी प्रत्येक फ्रेम को संसाधित करती है, उस पर चालक का चेहरा ढूंढती है और आंखों, नाक, मुंह और अन्य प्रमुख बिंदुओं के निर्देशांक को बाहर निकालती है। प्राप्त डेटा का उपयोग एक सामान्यीकृत फ्रेम 250x250 आकार में बनाने के लिए किया जाता है, जहां चेहरा केंद्र में सख्ती से स्थित होता है। यह फ्रेम पहले से ही तीन अक्षों के साथ डिग्री में सिर की स्थिति की गणना करने के लिए इस्तेमाल किया जा सकता है: जबड़ा, पिच और रोल। ड्राइवर की आंखों की स्थिति को ट्रैक करने के लिए, सिस्टम आंखों की छवि का विश्लेषण करता है और प्रत्येक आंख के लिए यह तय करता है कि वह बंद है या खुली है। सिस्टम आईआर लीनिंग तकनीक का उपयोग करके यह निर्धारित करने में सक्षम है कि क्या कोई जीवित व्यक्ति कैमरे के सामने है या ड्राइवर ने एक फोटो संलग्न किया है। विश्लेषण के लिए, एक सामान्यीकृत फ्रेम का उपयोग किया जाता है, और आउटपुट में हमें परिणाम जीवित या नोटिव मिलता है।

निष्कर्ष


जब हम सॉफ्टवेयर का पुनर्लेखन और डिबगिंग कर रहे थे, हमारे 3D प्रिंटर ने दिन-रात पीसी और कैमरों के लिए मामलों को प्रिंट किया। किट को प्रिंट करना (कैमरा बॉडी + पीसी केस) में प्रिंटर ऑपरेशन के बारे में 3-4 घंटे लगते थे, इसलिए हमें उत्पादन क्षमता का विस्तार करना पड़ा: हमने चार प्रिंटर का उपयोग किया। लेकिन हम सब कुछ तय समय पर करने में कामयाब रहे।



दो हफ्तों में, हमने कई टैक्सी बेड़े में पहली सौ कारों को पूरी तरह से सुसज्जित किया है - Yandex.Taxi पार्टनर्स। अब उनकी मदद से हम वीडियो एकत्र करते हैं, ड्राइवर के व्यवहार, थकान के संकेतों का विश्लेषण करते हैं, एल्गोरिदम और ट्रेन मॉडल में सुधार करते हैं जो ध्यान और थकान के स्तर का मूल्यांकन करते हैं। और उसके बाद ही (सभी डेटा, ड्राइवरों और यात्रियों की प्रतिक्रिया को ध्यान में रखते हुए) हम अगले चरण में आने के लिए तैयार होंगे - बड़े पैमाने पर उत्पादन और कार्यान्वयन।

दुर्भाग्य से, कई हजार या दसियों हजार प्रतिष्ठानों के पैमाने पर, वर्तमान तकनीकी समाधान कई कारणों से बहुत उपयुक्त नहीं है। इस लेख में हमने जिन सभी के बारे में बात की है वह एक त्वरित प्रयोग है, जिसका उद्देश्य यह था कि मॉडल को प्रशिक्षित करने के लिए मशीनों से सीधे डेटा कैसे इकट्ठा किया जाए। हमारे लिए अगला बड़ा चरण समान आयामों के एक उपकरण का विकास और उत्पादन शुरू करना है, लेकिन एक इकाई से मिलकर: कैमरा, सेंसर और मॉडेम एक कॉम्पैक्ट मामले में स्थित होगा, जिसे हम मशीनों में बड़े पैमाने पर स्थापित करेंगे।

Source: https://habr.com/ru/post/hi461137/


All Articles