न्यूरल नेटवर्क ने वॉयस रिकॉर्डिंग रिकॉग्निशन एल्गोरिथ्म का उपयोग करके होठों पर भाषण पहचानना सिखाया


हैल 9000 ने होठों को पूरी तरह से पढ़ा, हालाँकि अंग्रेजी में

तंत्रिका नेटवर्क अब बहुत कुछ करने में सक्षम हैं, और धीरे-धीरे उन्हें अधिक से अधिक कौशल सिखाया जा रहा है। दूसरे दिन यह ज्ञात हो गया कि संयुक्त राज्य अमेरिका और चीन के शोधकर्ताओं की एक संयुक्त टीम उच्च स्तर की सटीकता के साथ होठों द्वारा भाषण को पहचानने के लिए तंत्रिका नेटवर्क को प्रशिक्षित करने में सक्षम थी।

यह एक अतिरिक्त तत्व के लिए धन्यवाद प्राप्त किया गया था - ऑडियो रिकॉर्डिंग के लिए भाषण मान्यता एल्गोरिथ्म । इसके अलावा, एल्गोरिथ्म का उपयोग दूसरे एल्गोरिथ्म के लिए एक प्रशिक्षण प्रणाली के रूप में किया गया था, जिसने वीडियो रिकॉर्डिंग द्वारा भाषण को मान्यता दी थी।

वैज्ञानिकों के अनुसार, यह विधि अतिरिक्त लिप रीडिंग तकनीकों को मास्टर करना संभव बनाती है जो पारंपरिक तरीकों से प्रशिक्षित एक तंत्रिका नेटवर्क "सीख" नहीं सकता है। छवियों का एक सरल अनुक्रम केवल मूल होंठ पढ़ने की तकनीक में महारत हासिल करना संभव बनाता है।

इसके अलावा, डेवलपर्स ने तंत्रिका नेटवर्क के प्रशिक्षण की एक विधि का उपयोग किया, जिसे "ज्ञान का आसवन" कहा जाता है। यह आपको एक मॉडल के छोटे आकार को बचाने की अनुमति देता है जो एक जटिल कार्य करता है। एक सामान्य स्थिति में, एक तंत्रिका नेटवर्क जो होंठ पढ़ सकता है, काफी आकार का होगा, जो स्मार्टफोन या अन्य मोबाइल उपकरणों पर उपयोग करना मुश्किल होगा।

लेकिन ज्ञान आसवन नामक एक मॉडल इन सीमाओं को दूर करना संभव बनाता है। इस मॉडल के साथ काम करने के दौरान, डेवलपर को पहले से प्रशिक्षित एक बुनियादी तंत्रिका नेटवर्क का उपयोग करने की आवश्यकता होती है, और इसके आधार पर एक बहुत छोटा मॉडल बनाता है जो पहले के आधार पर "प्रशिक्षित" होता है। दोनों नेटवर्क लगभग एक ही स्रोत डेटा प्राप्त करते हैं। लेकिन छोटे नेटवर्क बड़े के परिणामों को दोहराने की कोशिश कर रहा है, आउटपुट परत पर और सभी मध्यवर्ती लोगों पर। यह विचार पहली बार 2006 में कारुआना द्वारा पेश किया गया था।

झेजियांग विश्वविद्यालय के मिंगली सांग के नेतृत्व में वैज्ञानिकों ने होंठों को पढ़ने के लिए तंत्रिका नेटवर्क को सिखाने के लिए "आसवन" का उपयोग किया है। जैसा कि ऊपर उल्लेख किया गया है, यहां शिक्षक ऑडियो रिकॉर्डिंग के लिए भाषण मान्यता एल्गोरिथ्म है। यह कई सूक्ष्म होंठ आंदोलनों और भाषण पैटर्न का अध्ययन करने का पर्याप्त अवसर प्रदान करता है।



परिणामस्वरूप सर्किट सममित है, दो आवर्तक तंत्रिका नेटवर्क एक दूसरे के समानांतर स्थित हैं। एक दृढ़ तंत्रिका नेटवर्क वीडियो फ्रेम को संसाधित करता है और दूसरे के लिए डेटा प्रदान करता है। शोधकर्ता केवल कई ब्लॉकों के रूप में ज्ञान के आसवन की कल्पना कर सकता है, जिनमें से प्रत्येक एक विशिष्ट कार्य के लिए जिम्मेदार था। उनमें से एक प्रति फ्रेम है, दूसरा डेटा के अनुक्रम के लिए है, तीसरा सबसे बड़ा समग्र अनुक्रम के लिए है।

बेशक, सामान्य ऑपरेशन के लिए, इस तरह के एक तंत्रिका नेटवर्क को हजारों तत्वों के दसियों पर सावधानीपूर्वक प्रशिक्षण की आवश्यकता होती है। वैज्ञानिकों ने LRS2 डेटासेट का उपयोग किया है, जिसमें बीबीसी उद्घोषकों द्वारा बोली जाने वाली लगभग 50,000 व्यक्तिगत वाक्य, साथ ही साथ CMLR डेटासेट, मंदारिन में होंठ पढ़ने के लिए तंत्रिका नेटवर्क सिखाने के लिए सबसे व्यापक सेट है। उत्तरार्द्ध के डेटाबेस में CNTV के लगभग 100 हजार प्रस्ताव हैं।



परिणामी प्रणाली की मान्यता सटीकता अन्य न्यूरल नेटवर्क की तुलना में लगभग 8% अधिक है जो CMLR पर प्रशिक्षित है, और LRS2 पर प्रशिक्षित तंत्रिका नेटवर्क की तुलना में 3% बेहतर है।

Source: https://habr.com/ru/post/hi479092/


All Articles