Pada bulan Juni di Amsterdam, konferensi APIDays reguler terakhir adalah untuk semua orang yang entah bagaimana membuat dan menggunakan berbagai API. Tema konferensi adalah "masa kejayaan komunikasi kontekstual," yaitu, komunikasi di mana kedua belah pihak segera dan sepenuhnya memahami konteks komunikasi. Kedengarannya abstrak, jadi beberapa contoh: mereka memanggil Anda dari nomor yang tidak dikenal. Karenanya, Anda tidak tahu siapa yang menelepon, di mana dan untuk tujuan apa. Sebaliknya, jika Anda melakukan semacam operasi dalam aplikasi Internet banking dan ada yang salah pada beberapa langkah, Anda dapat memanggil dukungan langsung dari langkah ini - konteks situasinya akan jelas bagi Anda dan operator . Untuk memberikan kesadaran seperti itu, bisnis menggunakan platform komunikasi (CPaaS,
Platform Komunikasi sebagai Layanan ), dan mereka, pada gilirannya, menggunakan AI dan Pembelajaran Mesin. CEO kami Alexei Aylarov berbicara tentang hal ini ketika berbicara di APIDays, dan hari ini kami menerbitkan adaptasi kinerja Juni.
Sukses CPaaS
CPaaS adalah bisnis yang berkembang pesat. Mengapa Ada beberapa alasan untuk keberhasilan konsep CPaaS.
Pertama, masa kejayaan CPaaS terjadi sebagian besar karena masa kejayaan "perusahaan baru" - ketika perusahaan seperti Uber dan Lyft membuktikan kelayakan mereka, tiba-tiba menjadi jelas bagi semua orang bahwa semua startup kemarin menggunakan platform komunikasi berbasis cloud. Ketika pasar mulai memahami ini, permintaan untuk CPaaS mulai tumbuh, karena solusi cloud memungkinkan Anda untuk mengumpulkan "solusi kotak" yang sudah jadi atas dasar Anda dengan sangat cepat untuk mulai menghasilkan uang.
Kedua, kita harus ingat bahwa platform CPaaS selalu ditujukan untuk pengembang. Dan setiap startup modern selalu memiliki pengembang yang tidak sulit menggunakan CPaaS.
Ketiga, cloud - ada cloud, yang berarti akses ke layanan di seluruh dunia, skalabilitas, dan peningkatan kapasitas sesuai permintaan. Dan semua ini tanpa sakit kepala untuk seseorang yang menggunakan CPaaS.
Dan akhirnya, sebagian besar platform menawarkan prinsip pembayaran pay-as-you-go, ketika Anda harus membayar hanya untuk apa yang Anda gunakan: ada pengenalan suara dan terjemahan ke dalam teks - fungsi-fungsi ini dibebankan, tetapi tidak ada pengakuan - yah, Anda mengerti. Ini sangat fleksibel dan transparan.
Baru di industri
Hal pertama yang disebutkan di sini adalah Serverless, yang membawa CPaaS ke tingkat berikutnya. Setelah
kami menulis secara terperinci tentang topik ini , sekarang kami akan membatasi diri pada tesis utama: Serverless tidak berarti bahwa tidak ada server sama sekali, tetapi tidak ada di sisi klien. Dari sudut pandang sumber daya komputasi yang digunakan, ini adalah pay-as-you-go yang sama, karena biaya dibebankan sesuai dengan beban pada penyedia komputasi. Poin penting lain dari serverless adalah bahwa klien dapat diberikan akses ke runtime platform, yang mengarah pada latensi yang lebih rendah dan peningkatan keandalan.
Tren lain adalah editor WYSIWYG. Ini adalah salah satu langkah menuju audiens bisnis yang (paling sering) tidak tahu cara membuat kode, tetapi pada saat yang sama dapat mengumpulkan logika bot / pusat panggilan di editor visual. Pendekatan implementasi sedikit berbeda (lihat Smartcalls dari Voximplant, Studio dari Twilio, FlowBuilder dari MessageBird, dll.), Tetapi intinya serupa - pengguna tidak menggunakan kode, tetapi blok visual, memvariasikan lokasi dan koneksi di antara mereka. Ngomong-ngomong, beberapa editor ini masih memungkinkan Anda untuk menggunakan kode sebagai fitur lanjutan, misalnya, Panggilan Cerdas kami, tetapi ini adalah cerita yang sedikit berbeda.
Akhirnya, IDE berbasis cloud. Tentu saja, sementara mereka tidak dapat membandingkan dengan IDEA bersyarat, tetapi dengan
VS Code itu mudah . Jika CPaaS memberi pengembang alat yang ampuh untuk bekerja dengan kode, maka pengembang seperti itu kemungkinan besar akan sangat senang. Debugger normal, pelengkapan otomatis pintar, penyorotan kode, gaya khusus, tab, dll. - ketika berada di antarmuka web dan bekerja dengan cepat, platform menerima poin ekstra dalam karma untuk fleksibilitasnya.
Tapi sukacita kita tidak akan lengkap ...
... jika bukan karena AI. Pembelajaran mesin memberikan derajat kebebasan baru untuk platform komunikasi, yaitu:
Pengakuan
Pengenalan dan sintesis wicara - seseorang mengembangkannya secara mandiri, tetapi sangat memakan waktu. Anda dapat beralih ke pemain besar seperti Google, Amazon, Yandex untuk ini - model mereka sudah sangat mengenali suara manusia, serta meniru itu (anggukan ke WaveNet).
Otomasi NLU / NLP
Pengertian Bahasa Alami (Pemrosesan) - Pemrosesan bahasa alami sekarang menjadi topik terpanas di dunia komunikasi. Dan jika solusi bisnis bergantung pada NLU, maka, sebagai opsi, sintesis ucapan berlangsung di sana, maka orang tersebut menjawab sesuatu, pidatonya ditransliterasikan, teks ini diberikan kembali ke robot dan dia, untuk bereaksi, memilih teks respons, yang lagi-lagi diperlukan untuk mensintesis. Itu tidak terdengar seperti ilmu roket, tetapi masih bijaksana untuk menggunakan otomatisasi di sini - Google Dialogflow, IBM Watson, Amazon Lex, dll.
Peningkatan operator
Ketika operator call center berkomunikasi dengan klien, Anda dapat menganalisis pidato di latar belakang dan memberikan informasi tambahan kepada operator sehingga ia tidak membuang waktu. Misalnya, klien dapat bertanya di mana ATM terdekat - sistem akan mengenali pertanyaan dan menampilkan jawabannya di layar operator; yang terakhir hanya akan membacakan jawabannya, alih-alih meminta klien untuk menunggu.
Analisis Emosi
Hampir semua orang tertarik dengan hal ini, tetapi ini adalah arah yang paling sulit di CPaaS saat ini, karena orang cenderung menyajikan informasi yang sama dengan cara yang berbeda, dan juga cukup sering menggunakan referensi budaya dalam pidato. Sekarang banyak perusahaan menganalisis emosi menggunakan teks. Sekarang ada solusi dalam arah ini, tetapi tidak dapat dikatakan bahwa mereka akan berhasil, karena Anda tidak bisa jauh menganalisis hanya teks; jelas bahwa emosi tidak hanya APA yang dikatakan, tetapi juga BAGAIMANA. Oleh karena itu, analisis emosi yang meyakinkan dalam waktu nyata adalah pertanyaan tentang Masa Depan (dekat?).
Peningkatan Audio / Video
Semua orang tahu tentang pengurangan kebisingan - ketika Anda berbicara di telepon, model yang terlatih "menghilangkan" kebisingan latar belakang sehingga orang lain hanya mendengar Anda. Kadang-kadang suara pembicara sendiri menderita, karena model tidak selalu berhasil membedakan frekuensi mana yang menjadi latar belakang dan mana yang menjadi suara. Tapi secara keseluruhan sudah bekerja dengan cukup baik. Berbicara tentang gambar, kita tahu bagaimana smartphone modern membuat bokeh (mengaburkan latar belakang) menggunakan AI. Pendekatan seperti itu, tetapi sudah dalam kerangka panggilan video juga akan diminati - bayangkan Anda tidak perlu mencari latar belakang yang sempurna, karena AI akan mengaburkan lingkungan apa pun di belakang Anda. Meskipun mengapa "membayangkan" - Skype
sudah memiliki fungsi seperti itu .
Analisis video
Analisis aliran video atau video membantu memahami apa yang ada dalam bingkai. Sejauh ini, ini adalah tugas yang sangat intensif sumber daya, jadi hari ini mereka yang memiliki banyak kekuatan komputasi - Google, Microsoft, dan pemain utama lainnya, mengatasinya dengan yang terbaik.
Hubungi analytics
Ini tidak hanya mencakup klasifikasi dan segmentasi data. Bayangkan Anda memiliki puluhan ribu catatan panggilan, dan Anda dapat menerjemahkannya ke dalam teks, dan kemudian lakukan pencarian. Tetapi itu jauh lebih efektif jika AI memeriksa catatan-catatan ini dan mendistribusikannya ke dalam kelompok-kelompok (ini adalah panggilan penjualan, dan ini adalah jaminan), itu akan mengungkapkan di mana operator call center berperilaku dengan benar dan di mana tidak terlalu (ditambah Anda dapat mengidentifikasi dengan tepat bagaimana orang berperilaku, apa emosinya), di sini klien hanya bertanya tentang membeli mobil, dan di sini - tentang mobil, dan tentang asuransi, dan tentang test drive. Anda dapat memancing sejumlah informasi dari berbagai data menggunakan pembelajaran mesin.
Definisi Mesin Penjawab
Kasus khusus, tetapi juga contoh yang baik: di platform kami, kami menerapkan definisi mesin penjawab. Sekarang platform dapat mengenali mesin penjawab dalam bahasa Rusia - kami melatih model pada banyak panggilan, sekarang platform dapat membedakan orang yang hidup dari pesan yang direkam. Metode deteksi konvensional tidak terlalu efektif (misalnya, oleh sinyal audio), tetapi AI membantu kami mencapai akurasi hingga 99%, dan pengenalan hanya membutuhkan waktu 2 detik.
Kesulitan
Pembelajaran mesin membutuhkan banyak sumber daya. Dan ini bukan hanya tentang kekuatan komputasi, tetapi juga tentang orang-orang dengan keterampilan khusus - ilmuwan data yang membuat dan menyesuaikan model pelatihan, dan juga tahu data apa yang dibutuhkan. Tidak mudah menemukan orang seperti itu dan pekerjaan mereka mahal. Mereka juga sangat diminati di antara pemain utama, dan untuk bersaing dengan Google bersyarat dalam hal perekrutan sulit, meskipun mungkin. Oleh karena itu, daripada bersaing, lebih baik memilih kerjasama dengan raksasa - sebagian besar pemain CPaaS menggunakan prestasi perusahaan besar, dan ini normal. Di sisi lain, ini mengarah pada fakta bahwa mitra raksasa mengelola pengeluaran pemain lain - menetapkan / mengubah tarif untuk pengenalan suara dan sintesis (ingat WaveNet dari Google). Artinya, jika Anda menggunakan solusi raksasa, dan dia tiba-tiba memutuskan untuk mengubah harga, maka Anda terpaksa melakukan hal yang sama, yang mungkin tidak terlalu menyenangkan pengguna Anda. Tambahkan di sini bahwa Anda akan mengirim data ke raksasa ini - untuk beberapa bisnis ini merupakan masalah. Namun, Anda selalu dapat tidak bergantung hanya pada satu mitra, gunakan solusi dari beberapa raksasa dengan fungsi yang sama. Akhirnya, kerja sama seperti itu nyaman dan bermanfaat bagi para pemain CPaaS.
Alih-alih sebuah kesimpulan
Teknologi baru akan datang yang akan mempengaruhi komunikasi dengan cara yang sama yang dipengaruhi WebRTC pada waktunya - ini adalah 5G dan AV1.
5G bertujuan untuk menghidupkan prinsip "selalu online" - ini adalah tujuan akhir, tetapi jelas bahwa ini tidak akan terjadi dalam satu hari. Dengan kemajuan teknologi ini, CPaaS akan memiliki lebih banyak peluang, karena bahkan mereka yang belum pernah menggunakan transfer data seluler akan mulai melakukannya. Infrastruktur komunikasi akan berubah, dan dengan itu bisnis telekomunikasi yang sudah dikenal akan berubah.
Codec video AV1 juga akan berguna untuk CPaaS, karena gratis, yang berarti Anda tidak perlu khawatir tentang lisensi. Codec gratis yang lebih efektif daripada H.265 dan akan tersedia untuk semua orang juga akan mengubah dunia komunikasi.
Masa depan terjadi di depan mata kita, dan Voximplant tidak hanya menonton apa yang terjadi, tetapi juga berpartisipasi dalam proses ini.