CPaaS الذكي: أخبار الصناعة وما أعطاها لها الذكاء الاصطناعي / ML


في شهر يونيو في أمستردام ، كان آخر مؤتمر APIDays منتظم لكل من قام بطريقة ما باستخدام واجهات برمجة التطبيقات المختلفة. كان موضوع المؤتمر "ذروة الاتصالات السياقية" ، أي الاتصالات التي يفهم فيها الطرفان على الفور وفهمًا تامًا سياق الاتصال. يبدو مجردة ، لذلك بعض الأمثلة: يتصلون بك من عدد غير مألوف. وفقًا لذلك ، لا تعرف من يتصل ، وأين ولأي غرض. وعلى العكس من ذلك ، إذا كنت تقوم ببعض العمليات في تطبيق الخدمات المصرفية عبر الإنترنت وحدث خطأ ما في خطوة ما ، فيمكنك الاتصال بالدعم مباشرةً من هذه الخطوة - سيكون سياق الموقف واضحًا لك وللمشغل. . لتوفير هذا الوعي ، تستخدم الشركات أنظمة الاتصالات (CPaaS ، و Platform Communications كخدمة ) ، وتلك بدورها تستخدم الذكاء الاصطناعي والتعلم الآلي. تحدث رئيسنا التنفيذي أليكسي أيلاروف عن هذا بالضبط عندما تحدث في APIDays ، واليوم ننشر تعديلًا لأداء يونيو.

نجاح CPaaS


CPaaS هي الأعمال سريعة النمو. لماذا؟ هناك عدة أسباب لنجاح مفهوم CPaaS.

أولاً ، حدث ذروة CPaaS إلى حد كبير بسبب ذروة "المشروع الجديد" - عندما أثبتت شركات مثل Uber و Lyft جدواها ، أصبح من الواضح للجميع فجأة أن جميع الشركات الناشئة هذه كانت تستخدم منصات التواصل القائمة على السحابة. عندما بدأ السوق في فهم ذلك ، بدأ الطلب على CPaaS في النمو ، لأن الحلول السحابية تسمح لك بجمع "الحلول المعبأة" الجاهزة على أساسك بسرعة كبيرة من أجل البدء في جني الأموال.

ثانياً ، يجب أن نتذكر أن منصات CPaaS كانت دائمًا موجهة للمطورين. وكل بدء تشغيل حديث لديه دائمًا مطورون ليس من الصعب عليهم استخدام CPaaS.

ثالثًا ، السحب - هناك السحب ، مما يعني الوصول إلى الخدمة في جميع أنحاء العالم ، وإمكانية التوسع وزيادة القدرة على الطلب. وكل هذا دون صداع لشخص يستخدم CPaaS.

وأخيرًا ، تقدم معظم الأنظمة الأساسية مبدأ الدفع أثناء التنقل ، عندما يتعين عليك الدفع مقابل ما تستخدمه فقط: هناك التعرف على الكلام والترجمة إلى نص - هذه الوظائف مشحونة ، لكن لا يوجد اعتراف - حسنًا ، فهمت. انها مرنة جدا وشفافة.

الجديد في الصناعة


أول شيء يجب ذكره هنا هو Serverless ، والذي ينقل CPaaS إلى المستوى التالي. بمجرد أن كتبنا بالتفصيل حول هذا الموضوع ، سنقصر أنفسنا الآن على الأطروحة الرئيسية: Serverless لا يعني أنه لا توجد خوادم على الإطلاق ، ولكن غيابها من جانب العميل. من وجهة نظر موارد الحوسبة المستخدمة ، هذا هو نفس نظام الدفع عند الاستخدام ، لأنه يتم فرض الرسوم وفقًا للحمل على مزود الحوسبة. هناك نقطة مهمة أخرى بدون خادم وهي أنه يمكن منح العملاء إمكانية الوصول إلى وقت تشغيل المنصة ، مما يؤدي إلى تقليل زمن الوصول وزيادة الموثوقية.

اتجاه آخر هو المحررين WYSIWYG. هذه هي إحدى الخطوات نحو جمهور الأعمال التي (في معظم الأحيان) لا تعرف كيفية الترميز ، ولكن في نفس الوقت يمكنها جمع منطق مركز bot / call في محرر مرئي. تختلف أساليب التنفيذ قليلاً (انظر Smartcalls من Voximplant ، Studio من Twilio ، FlowBuilder من MessageBird ، وما إلى ذلك) ، ولكن الجوهر متشابه - المستخدم لا يستخدم الكود ، ولكن الكتل المرئية ، ويغير موقعهم والصلات بينهم. بالمناسبة ، لا يزال بعض هؤلاء المحررين يسمحون لك باستخدام الشفرة كميزة متقدمة ، على سبيل المثال ، Smartcalls لدينا ، ولكن هذه قصة مختلفة قليلاً.

وأخيرا ، IDE المستندة إلى مجموعة النظراء. بالطبع ، على الرغم من أنه بالكاد يمكن مقارنة مع IDEA الشرطية ، ولكن مع VS Code ، فمن السهل . إذا أعطت CPaaS للمطور أداة قوية للتعامل مع الشفرة ، فمن المرجح أن يكون هذا المطور سعيدًا جدًا. مصحح أخطاء عادي ، الإكمال التلقائي الذكي ، تمييز الرموز ، الأنماط المخصصة ، علامات التبويب ، إلخ. - عندما تكون في واجهة الويب وتعمل بسرعة ، تتلقى المنصة نقاطًا إضافية في karma لمرونتها.

لكن فرحتنا لن تكتمل ...


... إن لم يكن لمنظمة العفو الدولية. التعلم الآلي يمنح درجات جديدة من الحرية لمنصات التواصل ، وهي:

اعتراف


التعرف على الكلام وتوليفه - يقوم شخص ما بتطويره بشكل مستقل ، ولكنه يستغرق وقتًا طويلاً للغاية. يمكنك اللجوء إلى لاعبين كبار مثل Google و Amazon و Yandex لهذا - نماذجهم بالفعل تتعرف جيدًا على الكلام البشري ، وتقليده (إيماءة تجاه WaveNet).

أتمتة NLU / NLP


فهم اللغة الطبيعية (المعالجة) - تعد معالجة اللغة الطبيعية الآن الموضوع الأكثر سخونة في عالم الاتصالات. وإذا كان حل الأعمال مبنيًا على NLU ، كخيار ، يتم توليف الكلام هناك ، ثم يجيب الشخص على شيء ، يتم ترجمة خطابه ، ويتم إعادة هذا النص إلى الروبوت ويقوم بتحديد نص الاستجابة للرد ، وهو أمر ضروري مرة أخرى لتوليف. لا يبدو هذا مثل علم الصواريخ ، ولكن لا يزال من الحكمة استخدام الأتمتة هنا - Google Dialogflow و IBM Watson و Amazon Lex ، إلخ.

تعزيز المشغل


عندما يتصل مشغل مركز الاتصال بالعميل ، يمكنك تحليل الكلام في الخلفية وإعطاء المشغل معلومات إضافية حتى لا يضيع وقته. على سبيل المثال ، قد يسأل العميل أين يوجد أقرب جهاز صراف آلي - حيث سيتعرف النظام على السؤال ويعرض الإجابة على شاشة المشغل ؛ سوف يقوم الأخير بقراءة الإجابة ببساطة ، بدلاً من مطالبة العميل بالانتظار.

تحليل العاطفة


الجميع مهتم بهذا الأمر تقريبًا ، لكن هذا هو الاتجاه الأكثر صعوبة في CPaaS في الوقت الحالي ، لأن الناس يميلون إلى تقديم نفس المعلومات بطرق مختلفة ، وغالبًا ما يستخدمون المراجع الثقافية في الكلام. الآن العديد من الشركات تحليل العواطف باستخدام النص. توجد الآن حلول في هذا الاتجاه ، لكن لا يمكن القول إنها ستنجح ، حيث لا يمكنك المضي قدمًا في تحليل النص فقط ؛ من الواضح أن العواطف ليست فقط ما يقال بالضبط ، ولكن أيضا كيف. لذلك ، فإن التحليل المقنع للعواطف في الوقت الفعلي هو مسألة المستقبل (القريب؟).

تحسين الصوت / الفيديو


يعلم الجميع حول تقليل الضوضاء - عندما تتحدث على الهاتف ، "يزيل" النموذج المدرب ضوضاء الخلفية بحيث يسمعك الشخص الآخر فقط. أحيانًا ما يكون صوت المتكلم نفسه يعاني ، نظرًا لأن النماذج لا يمكنها دائمًا التمييز بنجاح بين الترددات التي تنتمي إلى الخلفية وتلك التي في الصوت. ولكن عموما أنه يعمل بشكل جيد بالفعل. عند الحديث عن الصورة ، نحن نعرف كيف تجعل الهواتف الذكية الحديثة خوخه (طمس الخلفية) باستخدام الذكاء الاصطناعي. مثل هذا النهج ، ولكن بالفعل في إطار مكالمات الفيديو ستكون أيضًا مطلوبة - تخيل أنك لست بحاجة إلى البحث عن الخلفية المثالية ، لأن الذكاء الاصطناعى سوف يطمس أي بيئة خلفك. على الرغم من السبب وراء "التخيل" - لدى Skype بالفعل هذه الوظائف .

تحليل الفيديو


يساعد تحليل دفق الفيديو أو مقاطع الفيديو على فهم المحتوى الموجود في الإطار. حتى الآن ، هذه مهمة كثيفة الاستخدام للموارد ، لذلك اليوم ، أولئك الذين لديهم الكثير من القوة الحاسوبية - Google و Microsoft وغيرهم من اللاعبين الرئيسيين - يتعاملون معها بشكل أفضل.

تحليلات الدعوة


وهذا لا يشمل التصنيف وتجزئة البيانات فقط. تخيل أن لديك عشرات الآلاف من سجلات المكالمات ، ويمكنك ترجمتها إلى نص ، ثم القيام بالبحث عنها. لكنها أكثر فاعلية إذا مرت منظمة العفو الدولية بهذه السجلات ووزعتها في مجموعات (هذه مكالمات مبيعات ، وهذه مكالمات ضمان) ، وسوف تكشف عن المكان الذي تصرف فيه مشغل مركز الاتصال بشكل صحيح وأين لا يكون كذلك (بالإضافة إلى أنه يمكنك تحديد بالضبط كيف الشخص الذي تصرف ، وما هي المشاعر) ، وهنا سأل العميل فقط عن شراء سيارة ، وهنا - عن السيارة ، وعن التأمين ، وعن اختبار القيادة. يمكنك استنباط أي قدر من المعلومات من هذه المجموعة من البيانات باستخدام التعلم الآلي.

الرد على تعريف الجهاز


حالة خاصة ، ولكن أيضًا مثال جيد: في منصتنا ، قمنا بتطبيق تعريف جهاز الرد على المكالمات. الآن يمكن للمنصة التعرف على أجهزة الرد على المكالمات باللغة الروسية - قمنا بتدريب النموذج على العديد من المكالمات ، والآن يمكنه التمييز بين الشخص الحي والرسالة المسجلة. طرق الكشف التقليدية ليست فعالة للغاية (على سبيل المثال ، من خلال إشارة صوتية) ، ولكن AI ساعدتنا في تحقيق دقة تصل إلى 99 ٪ ، والاعتراف يستغرق سوى ثانيتين فقط.

الصعوبات


التعلم الآلي يتطلب الكثير من الموارد. ولا يتعلق الأمر فقط بالقوة الحاسوبية ، ولكن أيضًا بالأشخاص ذوي المهارات الخاصة - علماء البيانات الذين يقومون بإنشاء نماذج تدريبية وتخصيصها ، ويعرفون أيضًا البيانات المطلوبة. ليس من السهل العثور على هؤلاء الأشخاص وعملهم مكلف. كما أنها مطلوبة بشدة بين اللاعبين الرئيسيين ، والمنافسة مع Google الشرطية من حيث التوظيف أمر صعب ، وإن كان ذلك ممكنًا. لذلك ، بدلاً من التنافس ، من الأفضل اختيار التعاون مع الشركات العملاقة - يستخدم معظم لاعبي CPaaS إنجازات الشركات الكبيرة ، وهذا أمر طبيعي. من ناحية أخرى ، يؤدي هذا إلى حقيقة أن الشريك العملاق يدير نفقات اللاعبين الآخرين - يحدد / يغير معدلات التعرف على الكلام وتوليفه (تذكر WaveNet من Google). هذا هو ، إذا كنت تستخدم حلول العملاق ، وقرر فجأة تغيير الأسعار ، فأنت مجبر على فعل الشيء نفسه ، الأمر الذي قد لا يرضيك المستخدمين. أضف هنا أنك سترسل البيانات إلى هذا العملاق - بالنسبة لبعض الشركات ، هذه مشكلة. ومع ذلك ، لا يمكنك دائمًا الاعتماد على شريك واحد فقط ، واستخدام حلول العديد من الشركات العملاقة ذات الوظائف المتشابهة. أخيرًا ، هذا التعاون مناسب ومفيد للاعبين CPaaS.

بدلا من الاستنتاج


تأتي تقنيات جديدة ستؤثر على الاتصالات بنفس الطريقة التي أثرت بها WebRTC في الوقت المناسب - وهي 5G و AV1.

تهدف شركة 5G إلى تفعيل مبدأ "الاتصال دائمًا بالإنترنت" - هذا هو الهدف النهائي ، ولكن من الواضح أن هذا لن يحدث في يوم واحد. مع ظهور هذه التقنية ، ستتاح لـ CPaaS المزيد من الفرص ، لأنه حتى أولئك الذين لم يستخدموا نقل بيانات الجوال سابقًا سيبدأون في القيام بذلك. ستتغير البنية التحتية للاتصالات ، وستتغير معها شركات الاتصالات المألوفة.

سيكون برنامج ترميز الفيديو AV1 مفيدًا أيضًا لـ CPaaS ، نظرًا لأنه مجاني ، مما يعني أنك لن تقلق بشأن التراخيص. الترميز المجاني الأكثر فعالية من H.265 والذي سيكون متاحًا للجميع سيغير أيضًا عالم الاتصالات.

المستقبل يحدث أمام أعيننا ، ولا تراقب Voximplant فقط ما يحدث ، بل تشارك أيضًا في هذه العملية.

Source: https://habr.com/ru/post/ar459368/


All Articles