बुद्धिमान CPaaS: उद्योग समाचार और एआई / एमएल ने उसे क्या दिया है


एम्स्टर्डम में जून में, पिछले नियमित APIDays सम्मेलन उन सभी के लिए था जो किसी न किसी तरह से विभिन्न एपीआई बनाते हैं और उनका उपयोग करते हैं। सम्मेलन का विषय था "प्रासंगिक संचार की उमंग", यानी संचार, जिसमें दोनों पक्ष तुरंत और संचार के संदर्भ को पूरी तरह से समझते हैं। यह सार लगता है, इसलिए कुछ उदाहरण हैं: वे आपको एक अपरिचित संख्या से बुलाते हैं। तदनुसार, आप नहीं जानते कि कौन कॉल कर रहा है, कहां और किस उद्देश्य से। इसके विपरीत, यदि आप इंटरनेट बैंकिंग एप्लिकेशन में किसी तरह का ऑपरेशन कर रहे हैं और कुछ कदम पर कुछ गलत हो गया है, तो आप इस कदम से सही समर्थन कह सकते हैं - स्थिति का संदर्भ आपके और ऑपरेटर दोनों के लिए स्पष्ट हो जाएगा । ऐसी जागरूकता प्रदान करने के लिए, व्यवसाय संचार प्लेटफ़ॉर्म (CPaaS, संचार प्लेटफ़ॉर्म एक सेवा के रूप में ) का उपयोग करते हैं, और वे, बदले में, AI और मशीन लर्निंग का उपयोग करते हैं। यह वही है जो हमारे सीईओ एलेक्सी आयिलारोव ने एपीआईडीएस में बोलते हुए बात की थी, और आज हम जून के भाषण का एक अनुकूलन प्रकाशित कर रहे हैं।

सफलता CPaaS


CPaaS एक तेजी से बढ़ता व्यवसाय है। क्यों? CPaaS अवधारणा की सफलता के कई कारण हैं।

सबसे पहले, CPaaS का उदय बड़े पैमाने पर "नए उद्यम" के उदय के कारण हुआ - जब उबेर और लिफ़्ट जैसी कंपनियों ने अपनी व्यवहार्यता साबित की, तो यह अचानक सभी के लिए स्पष्ट हो गया कि ये सभी स्टार्टअप कल क्लाउड-आधारित प्लेटफॉर्म का उपयोग कर रहे थे। जब बाजार ने इसे समझना शुरू किया, तो CPaaS की मांग बढ़ने लगी, क्योंकि क्लाउड समाधान आपको पैसे बनाने की शुरुआत करने के लिए तैयार किए गए "बॉक्सिंग समाधान" को बहुत जल्दी अपने आधार पर इकट्ठा करने की अनुमति देते हैं।

दूसरी बात, हमें याद रखना चाहिए कि CPaaS प्लेटफ़ॉर्म हमेशा डेवलपर्स के उद्देश्य से होते हैं। और हर आधुनिक स्टार्टअप में हमेशा डेवलपर्स होते हैं जिनके लिए CPaaS का उपयोग करना मुश्किल नहीं है।

तीसरा, बादल - बादल हैं, जिसका अर्थ है दुनिया भर में सेवा तक पहुंच, स्केलेबिलिटी और मांग पर क्षमता में वृद्धि। और सीपीएएस का उपयोग करने वाले किसी व्यक्ति के लिए सिरदर्द के बिना यह सब।

और अंत में, अधिकांश प्लेटफ़ॉर्म पे-एज़-यू-गो पेमेंट के सिद्धांत की पेशकश करते हैं, जब आपको केवल उसी चीज़ का भुगतान करना होता है जो आप उपयोग करते हैं: टेक्स्ट में वाक् पहचान और अनुवाद है - ये फ़ंक्शन चार्ज किए जाते हैं, लेकिन कोई मान्यता नहीं है - ठीक है, आप समझते हैं। यह बहुत लचीला और पारदर्शी है।

उद्योग में नया


यहाँ उल्लेख करने वाली पहली चीज़ सर्वर रहित है, जो CPaaS को अगले स्तर पर ले जाती है। एक बार जब हमने इस विषय पर विस्तार से लिखा , तो अब हम खुद को मुख्य थीसिस तक सीमित रखेंगे: सर्वरलेस का मतलब यह नहीं है कि सर्वर बिल्कुल भी नहीं हैं, लेकिन क्लाइंट की तरफ उनकी अनुपस्थिति है। उपयोग किए गए कंप्यूटिंग संसाधनों के दृष्टिकोण से, यह वही पे-अस-यू-गो है, क्योंकि कंप्यूटिंग प्रदाता पर लोड के अनुसार शुल्क लिया जाता है। सर्वर रहित का एक और महत्वपूर्ण बिंदु यह है कि क्लाइंट को प्लेटफॉर्म के रनटाइम तक पहुंच दी जा सकती है, जिससे कम विलंबता और बढ़ी हुई विश्वसनीयता होती है।

एक और प्रवृत्ति है WYSIWYG संपादक। यह एक व्यापारिक दर्शकों की ओर एक कदम है जो (अधिकतर अक्सर) पता नहीं है कि कोड कैसे किया जाता है, लेकिन एक ही समय में एक दृश्य संपादक में बॉट / कॉल सेंटर तर्क एकत्र कर सकते हैं। कार्यान्वयन के दृष्टिकोण थोड़े भिन्न होते हैं (देखें स्मार्टकॉल्स विक्सिमप्लांट, ट्विलियो से स्टूडियो, मैसेजबर्ड से फ़्लोबर्स्ट, आदि), लेकिन सार समान है - उपयोगकर्ता कोड का उपयोग नहीं करता है, लेकिन विज़ुअल ब्लॉक, उनके बीच उनके स्थान और कनेक्शन को बदलते हैं। वैसे, इन संपादकों में से कुछ अभी भी आपको एक उन्नत सुविधा के रूप में कोड का उपयोग करने की अनुमति देते हैं, उदाहरण के लिए, हमारे स्मार्टकॉल, लेकिन यह थोड़ी अलग कहानी है।

अंत में, क्लाउड-आधारित आईडीई। बेशक, जबकि वे सशर्त IDEA के साथ तुलना कर सकते हैं, लेकिन VS कोड के साथ यह आसान है । यदि CPaaS डेवलपर को कोड के साथ काम करने के लिए एक शक्तिशाली उपकरण देता है, तो ऐसे डेवलपर को सबसे अधिक प्रसन्नता होगी। सामान्य डिबगर, स्मार्ट ऑटो-कम्प्लीट, कोड हाइलाइटिंग, कस्टम स्टाइल, टैब आदि। - जब यह वेब इंटरफ़ेस में होता है और जल्दी से काम करता है, तो मंच अपने लचीलेपन के लिए कर्म में अतिरिक्त अंक प्राप्त करता है।

लेकिन हमारा आनंद पूरा नहीं होगा ...


... अगर एआई के लिए नहीं। मशीन लर्निंग संचार प्लेटफार्मों को स्वतंत्रता की नई डिग्री देता है, अर्थात्:

मान्यता


भाषण मान्यता और संश्लेषण - कोई उन्हें स्वतंत्र रूप से विकसित करता है, लेकिन यह बहुत समय लेने वाला है। आप इसके लिए Google, Amazon, Yandex जैसे बड़े खिलाड़ियों की ओर रुख कर सकते हैं - उनके मॉडल पहले से ही मानव भाषण को बहुत अच्छी तरह से पहचानते हैं, साथ ही इसकी नकल करते हैं (वेवनेट की ओर इशारा करते हैं)।

एनएलयू / एनएलपी ऑटोमेशन


नेचुरल लैंग्वेज अंडरस्टैंडिंग (प्रोसेसिंग) - नेचुरल लैंग्वेज प्रोसेसिंग अब संचार की दुनिया का सबसे गर्म विषय है। और अगर व्यापार समाधान एनएलयू पर निर्भर करता है, तो, एक विकल्प के रूप में, भाषण संश्लेषण वहां होता है, फिर व्यक्ति कुछ उत्तर देता है, उसका भाषण अनूदित होता है, यह पाठ रोबोट को वापस दिया जाता है और वह प्रतिक्रिया करने के लिए प्रतिक्रिया पाठ का चयन करता है, जो फिर से आवश्यक है संश्लेषित करना। यह रॉकेट साइंस की तरह नहीं है, लेकिन यहां स्वचालन का उपयोग करने के लिए अभी भी बुद्धिमान है - Google डायलॉगफ़्लो, आईबीएम वाटसन, अमेज़ॅन लेक्स, आदि।

संचालक संवर्द्धन


जब कॉल सेंटर ऑपरेटर क्लाइंट के साथ संवाद करता है, तो आप पृष्ठभूमि में भाषण का विश्लेषण कर सकते हैं और ऑपरेटर को अतिरिक्त जानकारी दे सकते हैं ताकि वह अपना समय बर्बाद न करे। उदाहरण के लिए, एक ग्राहक पूछ सकता है कि निकटतम एटीएम कहां है - सिस्टम सवाल को पहचान लेगा और ऑपरेटर की स्क्रीन पर उत्तर प्रदर्शित करेगा; बाद वाले को केवल ग्राहक को इंतजार करने के लिए कहने के बजाय उत्तर को पढ़ना होगा।

भावना विश्लेषण


लगभग हर किसी को इसमें दिलचस्पी है, लेकिन यह इस समय CPaaS में सबसे कठिन दिशा है, क्योंकि लोग एक ही जानकारी को अलग-अलग तरीकों से पेश करते हैं, और अक्सर भाषण में सांस्कृतिक संदर्भों का भी उपयोग करते हैं। अब कई कंपनियां पाठ का उपयोग करके भावनाओं का विश्लेषण करती हैं। अब इस दिशा में समाधान हैं, लेकिन यह नहीं कहा जा सकता है कि वे सफल होंगे, क्योंकि आप केवल पाठ का विश्लेषण करने में दूर नहीं जा सकते हैं; यह स्पष्ट है कि भावनाएं न केवल वास्तव में कही जाती हैं, बल्कि HOW भी हैं। इसलिए, वास्तविक समय में भावनाओं का एक ठोस विश्लेषण (निकट?) भविष्य का सवाल है।

ऑडियो / वीडियो एन्हांसमेंट


सभी को शोर में कमी के बारे में पता है - जब आप फोन पर बात करते हैं, तो प्रशिक्षित मॉडल पृष्ठभूमि के शोर को "हटा देता है" ताकि दूसरा व्यक्ति केवल आपको सुनता है। कभी-कभी स्पीकर की आवाज़ स्वयं पीड़ित होती है, क्योंकि मॉडल हमेशा सफलतापूर्वक यह नहीं बता सकते हैं कि कौन सी आवृत्ति पृष्ठभूमि से संबंधित है और कौन सी आवाज़ में है। लेकिन कुल मिलाकर यह पहले से ही बहुत अच्छा काम करता है। तस्वीर के बारे में बात करते हुए, हम जानते हैं कि आधुनिक स्मार्टफोन AI का उपयोग करके बोकेह (पृष्ठभूमि को धुंधला) कैसे बनाते हैं। इस तरह के एक दृष्टिकोण, लेकिन पहले से ही वीडियो कॉल के ढांचे के भीतर भी मांग होगी - कल्पना करें कि आपको सही पृष्ठभूमि की तलाश करने की आवश्यकता नहीं है, क्योंकि एआई आपके पीछे किसी भी वातावरण को धुंधला कर देगा। यद्यपि "कल्पना" क्यों - स्काइप में पहले से ही ऐसी कार्यक्षमता है

वीडियो विश्लेषण


वीडियो स्ट्रीम या वीडियो का विश्लेषण यह समझने में मदद करता है कि फ्रेम में क्या है। अब तक, यह एक बहुत ही संसाधन-गहन कार्य है, इसलिए आज जिनके पास कंप्यूटिंग शक्ति बहुत अधिक है - Google, Microsoft और अन्य प्रमुख खिलाड़ी, इसके साथ सबसे अच्छा सामना करते हैं।

कॉल एनालिटिक्स


इसमें न केवल वर्गीकरण और डेटा विभाजन शामिल है। कल्पना करें कि आपके पास हजारों कॉल रिकॉर्ड हैं, और आप उन्हें पाठ में अनुवाद कर सकते हैं, और फिर उस पर खोज कर सकते हैं। लेकिन यह अधिक प्रभावी है यदि एआई इन रिकॉर्ड्स के माध्यम से जाता है और उन्हें समूहों में वितरित करता है (ये बिक्री कॉल हैं, और ये गारंटी वाले हैं), यह प्रकट करेगा कि कॉल सेंटर ऑपरेटर ने सही तरीके से कहां व्यवहार किया है और यह बहुत ज्यादा नहीं है (प्लस आप वास्तव में कैसे पहचान सकते हैं व्यक्ति ने व्यवहार किया, क्या भावनाएं थीं), यहां ग्राहक ने केवल कार खरीदने के बारे में पूछा, और यहां - कार के बारे में, और बीमा के बारे में, और टेस्ट ड्राइव के बारे में। आप मशीन लर्निंग का उपयोग करके इस तरह के डेटा से किसी भी जानकारी को निकाल सकते हैं।

आंसरिंग मशीन परिभाषा


एक विशेष मामला, लेकिन यह भी एक अच्छा उदाहरण है: हमारे मंच में, हमने एक उत्तर देने वाली मशीन की परिभाषा को लागू किया। अब मंच रूसी में उत्तर देने वाली मशीनों को पहचान सकता है - हमने मॉडल को कई कॉल पर प्रशिक्षित किया, अब यह एक जीवित व्यक्ति को रिकॉर्ड किए गए संदेश से अलग कर सकता है। पारंपरिक पता लगाने के तरीके बहुत प्रभावी नहीं हैं (उदाहरण के लिए, एक ऑडियो सिग्नल द्वारा), लेकिन एआई ने हमें 99% तक सटीकता प्राप्त करने में मदद की, और मान्यता में केवल 2 सेकंड लगते हैं।

कठिनाइयों


मशीन लर्निंग के लिए बहुत सारे संसाधनों की आवश्यकता होती है। और यह न केवल कंप्यूटिंग शक्ति के बारे में है, बल्कि विशेष कौशल वाले लोगों के बारे में भी है - डेटा वैज्ञानिक जो प्रशिक्षण मॉडल बनाते और अनुकूलित करते हैं, और यह भी जानते हैं कि डेटा की आवश्यकता क्या है। ऐसे लोगों को ढूंढना आसान नहीं है और उनका काम महंगा है। वे प्रमुख खिलाड़ियों में भी काफी मांग में हैं, और काम पर रखने के मामले में सशर्त Google के साथ प्रतिस्पर्धा करना मुश्किल है, हालांकि संभव है। इसलिए, प्रतिस्पर्धा करने के बजाय, दिग्गजों के साथ सहयोग चुनना बेहतर है - अधिकांश सीपीएएएस खिलाड़ी बड़ी कंपनियों की उपलब्धियों का उपयोग करते हैं, और यह सामान्य है। दूसरी ओर, यह इस तथ्य की ओर जाता है कि विशाल साथी अन्य खिलाड़ियों के खर्चों का प्रबंधन करता है - भाषण मान्यता और संश्लेषण के लिए दरों को सेट / बदलता है (Google से वेवनेट याद रखें)। यही है, यदि आप विशाल के समाधान का उपयोग करते हैं, और वह अचानक कीमतों को बदलने का फैसला करता है, तो आपको वही करने के लिए मजबूर किया जाता है, जो वास्तव में आपके उपयोगकर्ताओं को खुश नहीं कर सकता है। यहां जोड़ें कि आप इस विशाल को डेटा भेजेंगे - कुछ व्यवसायों के लिए यह एक समस्या है। हालांकि, आप हमेशा केवल एक साथी पर निर्भर नहीं रह सकते हैं, समान कार्यक्षमता वाले कई दिग्गजों के समाधान का उपयोग करें। अंत में, सीपीएएस खिलाड़ियों के लिए ऐसा सहयोग सुविधाजनक और फायदेमंद है।

एक निष्कर्ष के बजाय


नई प्रौद्योगिकियां आ रही हैं जो उसी समय संचार को प्रभावित करेंगी जो WebRTC को नियत समय में प्रभावित करती हैं - ये 5G और AV1 हैं।

5 जी का लक्ष्य "हमेशा ऑनलाइन" के सिद्धांत को जीवंत करना है - यह अंतिम लक्ष्य है, लेकिन यह स्पष्ट है कि यह एक दिन में नहीं होगा। इस तकनीक के आने से CPaaS के पास अधिक अवसर होंगे, क्योंकि जो लोग पहले मोबाइल डेटा ट्रांसफर का उपयोग नहीं करते थे, वे भी ऐसा करने लगेंगे। संचार अवसंरचना बदल जाएगी, और इसके साथ परिचित दूरसंचार व्यवसाय बदल जाएंगे।

AV1 वीडियो कोडेक CPaaS के लिए भी उपयोगी होगा, क्योंकि यह मुफ़्त है, जिसका अर्थ है कि आपको लाइसेंस के बारे में चिंता करने की ज़रूरत नहीं है। एक मुफ्त कोडेक जो H.265 से अधिक प्रभावी है और सभी के लिए उपलब्ध होगा, संचार की दुनिया को भी बदल देगा।

भविष्य हमारी आंखों के सामने हो रहा है, और वोक्सिमप्लांट न केवल यह देख रहा है कि क्या हो रहा है, बल्कि इस प्रक्रिया में भी भाग ले रहे हैं।

Source: https://habr.com/ru/post/hi459368/


All Articles