Panduan Suara UX: situasi, pola, alat (dan sedikit dukungan moral)

Desainer UX dan UI masih skeptis tentang antarmuka suara. Satu tampaknya menjadi sensasi pemasaran yang akan segera sia-sia. Yang lain tidak menggunakan asisten suara dan oleh karena itu yakin bahwa suara itu tidak nyaman dan tidak wajar. Tetapi sementara mereka ragu, bidang profesional independen telah berkembang - dengan rahasia, pola, dan mekaniknya (dan bahkan pasar tenaga kerja). Bersama dengan arsitek Just AI UX Yekaterina Yulina, kami mencari cara untuk mendekati teknologi suara dan apa yang harus diubah oleh perancang antarmuka tradisional UX dalam pemikirannya, dengan mengambil suara.



Tapi pertama-tama, sedikit retrospektif. Di halaman 1995. Microsoft merilis Windows 95, dan sebuah revolusi sedang terjadi di dunia. Saya ingat bagaimana orang tua dan orang dewasa lainnya berbicara tentang manfaat dan bahaya komputer. Dan pada akhir pekan, seluruh keluarga pergi mengunjungi teman-teman kami untuk bermain Kosinka dan Minesweeper.

Nokia 3310 dirilis pada tahun 2000. Dunia telah berubah lagi, kali ini berkat ponsel dengan antarmuka tombol-tekan. Smartphone dengan stylus kemudian muncul. Saya juga punya satu. Menyodok dengan stylus di layar terasa sangat keren. Entah bagaimana langsung menonjol dengan latar belakang orang-orang dengan telepon tombol. Tetapi “stylus terbaik adalah jari Anda sendiri,” kata Steve Jobs. Pada tahun 2007, Apple mulai menjual iPhone - dan sejak itu orang telah mengetuk dan menggesek, dan menusuk dengan stylus telah menjadi bodoh sejak lama.

Dan kemudian dimulai: 2011 - Apple menghadirkan Siri, pada 2014 Amazon meluncurkan Alexa dan Amazon Echo, pada 2016 Google Asisten keluar, pada 2017 - "Alice" dari Yandex ... Pintu di depan pengembang dan bisnis dibuka ekosistem asisten, seperti dulu - di toko aplikasi seluler. Dan tak lama kemudian hanya malas (dan berpandangan pendek!) Tidak akan membuat keterampilan untuk asisten suara.

Situasi ketika suara sangat nyaman


Tidak mungkin untuk membayangkan bahwa pengalaman pengguna (UX, pengalaman pengguna) dibangun dalam ruang hampa. Keterampilan suara lahir dalam situasi tertentu di mana itu berguna dan organik - tidak masuk akal untuk membuat skrip suara, dan kemudian berpikir tentang di mana menerapkannya. Penting untuk menemukan situasi ini dan mengalahkannya dengan ahli.

Suara lebih nyaman daripada aplikasi web atau seluler ketika kita membutuhkan fungsi khusus untuk menyelesaikan masalah tertentu. Mengapa Karena Anda tidak perlu menunggu situs memuat, gulir halaman, cari menu, tekan tombol. Situs dan aplikasi bersifat multifungsi. Keterampilan suara harus dipertajam untuk kasus tunggal, di bawah "di sini dan sekarang."

Pada bulan Februari 2019, saluran Amerika TNT menyiarkan pertandingan NBA. Antara pertandingan Los Angeles Lakers dan Boston Celtics, komentator Ernie Johnson mengumumkan bahwa sepatu kets edisi terbatas Nike sedang dijual dan pemirsa dapat meminta Asisten Google untuk memesan sepasang untuk mereka seharga $ 350.


Enam menit kemudian, sepatu kets menghilang. Lebih dari 15 ribu orang memesannya dengan bantuan asisten suara (jumlah pesanan melebihi jumlah barang yang tersedia). Situasi ideal untuk menjual sepatu basket adalah permainan nyata.





Kembali pada tahun 2017, Starbucks menemukan cara menggunakan asisten suara untuk mengurangi waktu tunggu pesanan dan jalur pelanggan ke secangkir kopi yang diinginkan. Anda dapat mengatakan "Alexa, pesan Starbucks saya" ("Alexa, pesan Starbucks saya") dan ambil minuman favorit Anda di tempat terdekat dalam beberapa menit. Tidak perlu mengantre dan menunggu barista meneriakkan nama Anda. Tidak perlu masuk ke aplikasi, cari pesanan Anda yang biasa, konfirmasi pilihan. Kemudian kasus yang sama mengalahkan Ford: Alexa diintegrasikan ke dalam sistem multimedia SYNC3, sehingga pengemudi memiliki kesempatan untuk memesan dan membayar Starbucks mereka dengan suara tepat di mobil, tanpa terganggu dari jalan.


Tetapi kolega dari Alan AI mengatakan kepada saya bagaimana mereka menemukan kasus pengguna yang diterapkan - bukan untuk pemasaran, tetapi untuk tugas-tugas perusahaan. Personel teknis yang melayani lift di AS harus membaca berton-ton dokumentasi, mengisi sejumlah formulir, memasukkan data perbaikan, melaporkan penyelesaian tugas - dan melakukan semua ini dalam sistem akuntansi yang berbeda. Menulis membutuhkan banyak waktu, di mana lift tidak benar-benar berfungsi. Alan AI menerapkan teknologi kecerdasan buatan suara sehingga pengguna pengangkat dapat mengisi formulir dengan suara selama bekerja atau saat bepergian ke fasilitas.
Voice UX bukan tentang gambar, tetapi tentang konteks situasi. Tugas perancang adalah mempelajari konteks secara terperinci dan memahami apa yang diinginkan pengguna dalam situasi tertentu.

Pola UX dalam suara


Satu fungsi. Jadi, satu keterampilan adalah satu fungsi. Jika pengemudi memesan kopi, maka ia memecahkan masalah khusus ini. Selesai dengan kopi dan ingin tahu jarak ke bulan? Keterampilan suara lain sudah bertanggung jawab untuk ini. Membuat pisau Swiss dalam satu keterampilan adalah ide yang buruk.

Gulir. Desainer UX dan UI terus berdebat dengan pemasar tentang berapa banyak informasi yang ditampilkan di layar pertama. Tidak ada yang lebih buruk daripada menunggu konten untuk dimuat, bergulir halaman tanpa henti. Antarmuka dialog juga memiliki layar pertama dan, tidak seperti web, tidak ada gulir. Dia tidak diperlukan, karena asisten suara adalah seperangkat keterampilan. Pengguna, atas perintah, mengaktifkan keterampilan dan meluncurkan fungsi tunggal.

Modal windows dan tombol. Nama kedua untuk modal windows adalah dialog. Apa esensi dari modal windows? Konfirmasikan atau tolak niat untuk melakukan operasi. Dalam kehidupan nyata, orang menyatakan niat dengan mengatakan ya atau tidak, dan Anda tidak perlu tombol untuk ini.

Multimodality. Speaker dan layar pintar, telepon pintar, mainan bicara untuk anak-anak, rumah pintar, dasbor dalam mobil - perangkat menentukan konteks penggunaan. Apa yang nyaman bagi pengguna untuk melakukan di rumah melalui speaker "pintar" akan berbeda dari menggunakan asisten suara di dalam mobil. Asisten yang sama pada platform yang berbeda memiliki serangkaian keterampilan yang berbeda.
Tentukan konteks penggunaan dan perangkat. Periksa apakah Anda dapat menggabungkan suara dengan jenis interaksi lain pada perangkat ini.

Lintas-platform . Aspek lain adalah bagaimana membuat satu keterampilan untuk beberapa asisten. Mekanika dan logika dapat dipertahankan, tetapi iblis akan disembunyikan dalam detail implementasi dan jalur pengguna menuju skill. Mari kita lihat bagaimana jalur ke keterampilan Alice dan tindakan Google Assistant terlihat pada platform yang sama.

Alice di iOS . Pengguna Alice terlebih dahulu harus mengunduh aplikasi Yandex.Browser, mengizinkannya menggunakan lokasi dan mikrofon, klik ikon asisten dan ucapkan frasa aktivasi keterampilan. Misalnya, "Luncurkan keterampilan" Ya, Tuanku. " Pengalaman pengguna kedua dan selanjutnya sudah terdiri dari tiga langkah: buka Yandex.Browser, klik tombol asisten panggilan, ucapkan frasa aktivasi.



Google Assistant di iOS . Pengguna mengunduh aplikasi Google Assistant, masuk melalui akunnya, memungkinkan pengiriman pemberitahuan dan setuju untuk mengakses mikrofon. Jika bahasa default adalah bahasa Inggris, maka dalam antarmuka aplikasi Anda harus memilih bahasa Rusia, minta asisten untuk mengubah bahasa dengan suara Anda dan ucapkan frasa aktivasi untuk memicu tindakan. Di sini dia berbeda - "Bicara dengan aplikasi" Ya, Tuanku. " Kemudian jalur dipersingkat - kedua kalinya pengguna membuka aplikasi Google Assistant dan cukup menyuarakan perintah.



Tanpa mengetahui frasa aktivasi (dan perintah untuk menggunakan skill yang sama di ekosistem yang berbeda akan berbeda), Anda tidak dapat meluncurkan skill - dan dalam hal UX, ini adalah salah satu kelemahan asisten suara. Tetapi Google, Yandex, dan perusahaan lain sekarang sedang mengerjakan tugas penemuan keterampilan yang mudah (cara menyampaikan informasi tentang keterampilan baru dengan benar kepada konsumen), sehingga akan lebih mudah untuk menemukan keterampilan yang berguna dan relevan di beberapa titik waktu.

Omong-omong, desainer VUI bersikeras bahwa keterampilan dengan mekanisme yang sama untuk asisten yang berbeda masih merupakan proyek terpisah.

Merancang antarmuka dalam tujuh langkah


Saya bertanya kepada perancang VUI, Just AI rekan dan pengguna perancang keterampilan Aimylogic, yang dengannya mereka umumnya mulai mengerjakan skrip. Semua orang mengatakan "dengan sebuah ide." Anda dapat menggambarkannya dalam bentuk bebas di editor teks.
Pavel Gvay, pendiri tortu.io - alat untuk merancang aplikasi suara: “Cara tercepat dan termurah untuk memahami bagaimana percakapan antara pengguna dan aplikasi Anda akan dibangun adalah dengan menulis contoh dialog. Ini adalah file teks yang menjelaskan operasi suatu alur. Dalam format, contoh dialog menyerupai naskah film, di mana semua pernyataan dilukis oleh peran. "


Contoh dialog di Notion

Sambut pengguna

Beri tahu kami apa yang bot lakukan. Gunakan frasa luas panjang sedang. Akhiri kalimat dengan pertanyaan tertutup: sehingga pengguna akan mengerti apa yang mereka inginkan darinya.
Buruk - “Halo! Saya adalah Activity. Saya tidak bisa hidup sehari tanpa olahraga. Dia adalah segalanya bagiku, hidupku, inspirasiku! Saya juga memiliki banyak pengalaman sebagai pelatih dan ratusan latihan dalam database! Saya dengan senang hati akan membagikan latihan favorit saya dengan Anda! "
Bagus - "Halo! Saya Activity, seorang atlet bot. Saya dengan senang hati akan merekomendasikan Anda satu set latihan. Apakah Anda ingin menceritakan tentang yoga? "

Cari tahu jalur pengguna

Dalam bahasa pemrogram, niat adalah niat (niat bahasa Inggris). Analogi dengan antarmuka klasik adalah permintaan formal atau informal. Lebih mudah bekerja dengan yang formal, dan yang informal dapat mengubah hidup menjadi mimpi buruk.

Desainer menggunakan diagram alur ketika bekerja dengan jalur pengguna. Tugasnya adalah membantu mendeskripsikan logika aplikasi. Flowchart terdiri dari langkah-langkah dialog atas nama pengguna dan sistem, kadang-kadang elemen logika ditambahkan ke dalamnya - panggilan API, bekerja dengan konteksnya.


Bagan alur di Miro

Seringkali, diagram alur menggambarkan persimpangan utama dalam keterampilan suara. Beberapa desainer memblokir setiap detail keterampilan. Pavel Guy tidak merekomendasikan melakukan ini, karena itu akan sangat cepat berhenti dibaca, dan membuat perubahan akan membutuhkan banyak waktu.

Cara termudah untuk mengetahui jalur pengguna adalah pergi bersamanya dari awal hingga akhir dan melihat pada titik apa kondisi dan penyimpangan dari skenario utama akan muncul.

Buat navigasi

Tidak peduli apa pun langkah yang dilakukan pengguna, ia harus selalu memiliki kesempatan untuk memulai dari awal lagi, kembali, maju dan merespons dengan beragam. Jangan membuatnya menghafal perintah.

Contoh dari kehidupan. Keahlian yang telah disebutkan "Ya, Tuanku" (pemirsanya di "Alice" adalah 650 ribu orang, apalagi, itu adalah salah satu game paling populer untuk Google Assistant, tidak hanya di Rusia tetapi juga di dunia) adalah permainan atmosfer dengan musik sintesis pidato yang layak, cerita menarik, mekanisme permainan. Pada awalnya, dia bisa mengendalikan permainan hanya dengan bantuan "Ya", "Tidak" dan "Cukup". Dalam cerita itu, pemain - tuanku, pemilik tanah dan petani, jatuh ke dalam situasi "Yang Mulia! Deposit besar tembaga telah ditemukan di tanah subur kita! Silakan mulai membangun tambang? " Mungkin saja untuk menjawab ya, tapi saya ingin membiasakan diri dengan peran dan berbicara, sebagaimana layaknya orang yang terkenal.
- Yang Mulia! Deposit besar tembaga telah ditemukan di tanah subur kita! Silakan mulai membangun tambang?
- Cinta!
Perancang VUI menemukan poin ini dan melatih keterampilan untuk lebih memahami pengguna, memberi mereka lebih banyak kebebasan dalam menjawab.

Tulis contoh dialog dan buat jawaban bot lebih beragam

Rekan Just AI saya menulis contoh dialog dalam tabel. Mereka jauh lebih nyaman, tetapi ini jauh dari pilihan yang paling nyaman - untuk menggambarkan transisi yang logis dan mungkin. Seseorang menulis skrip di Word. Tidak ada format dan regulasi tunggal untuk deskripsi.

Pengguna sangat kesal ketika asisten mulai mengulangi. Hipotesis dikonfirmasi oleh Nelly Kamaeva, desainer Alan AI. Selama tes keterampilan untuk anak-anak, dia melihat seberapa cepat mereka kehilangan minat ketika dihadapkan dengan jawaban yang sama.
Sebaiknya pertimbangkan beberapa replika yang identik artinya, yang akan didengar pengguna saat mereka mencapai langkah yang sama dalam skrip. Desainer VUI merekomendasikan penggunaan tiga hingga sepuluh variasi satu frasa.
Cari di tempat sampah untuk niat yang tidak dikenal

"Sampah", atau catch-all dalam bahasa pemrogram, adalah tempat di mana frase pengguna jatuh karena berbagai alasan.
"Dengan siapa aku bicara?" Apakah Anda robot ?!
"Kamu membuatku berhasil." Ingin melanjutkan obrolan?
Ungkapan "Aku sedang berbicara dengan siapa pun?" Apakah kamu robot?! ” akan jatuh ke catch-all (jika Anda belum memberikan skrip). "Kamu membuatku berhasil. Apakah Anda ingin melanjutkan komunikasi? " - replika default dalam situasi seperti itu. Pikirkan sebelumnya bagaimana membantu pengguna yang gagal dalam hal menangkap semua.

Pikirkan tentang suara dan karakter

Ingat lawan bicara yang membuatmu bosan. Itu tidak menarik dengan mereka, keengganan untuk melanjutkan pembicaraan, kami menyebutnya membosankan. Hal yang sama terjadi ketika berhadapan dengan keterampilan. Alice, Alexa dan Google Assistant memiliki Speech Toolkit mereka sendiri dengan berbagai suara, aksen dan efek suara pria dan wanita untuk meramaikan pidato bot seperti batuk dan mengendus.

Jika Anda ingin mengesankan pengguna dan melibatkannya dalam percakapan, mengotak-atik gaya bicara, kerjakan sintesisnya: atur tekanan, jeda, dan intonasi. Ini adalah pekerjaan yang melelahkan, tapi percayalah, hasilnya sepadan. Di sebuah lokakarya internal, seorang kolega menciptakan keterampilan untuk Alexa - dengarkan fragmennya:


- Hei, teman. Cuaca buruk, ya? Ingin mabuk? Biarkan teman lama Anda Joe mencampur minuman Irlandia yang baik untuk Anda. Ok
- Dan sekarang ketika Anda merasa lebih baik, ambil pantat Anda dan pergi ke pub Joe. Di sana Anda tidak akan pernah minum sendirian. Aku menunggumu
Cara lain untuk bekerja dengan suara adalah merekam audio dengan aktor profesional. Untuk waktu yang lama, mahal, fleksibilitas hilang jika Anda ingin menambahkan sesuatu ke skrip, tetapi spektakuler. Skill dapat berbicara dengan suara selebritas, politisi dan pahlawan dari film (well, Anda sudah bisa mendengar suara kami bertindak untuk game Lovecraft World , tetapi Asisten Google berbicara dengan suara pemenang Grammy John Legend - tyk ).

Untuk salah satu kasus bisnis, kami juga menggunakan rekaman suara aktor profesional. Hanya 0,5% pelanggan yang dapat curiga (bahkan tidak menebak, tetapi curiga) bahwa bot berbicara kepada mereka.

Gunakan suara dan ilustrasi untuk menciptakan suasana.

Anda dapat mengambil suara dari pustaka yang sudah jadi atau membuat sendiri (Alexa pilih-pilih untuk memperluas file, jadi Anda harus mengutak-atik konversi). Dalam permainan yang sama, "Ya, Tuanku," untuk "Alice," suara digunakan untuk menciptakan suasana: meringkik seekor kuda, menggumamkan kerumunan, tawa yang tidak menyenangkan, sebuah bagpipe. Dan baru-baru ini di "Alice" keterampilan "Burung Rusia" muncul, di mana dalam percakapan Anda dapat mendengar bagaimana burung, burung pipit atau burung lain bernyanyi dan berkicau.

Desain antarmuka suara tidak terbatas pada diagram alur dan teks kering. Perancang memiliki segalanya untuk menciptakan keterampilan yang melibatkan pengguna dalam proses.

Dan lebih banyak tips dari desainer VUI


Jangan mengajarkan antarmuka. Bahasa adalah antarmuka yang akrab dan intuitif. Tidak perlu mengajari seseorang berbicara. Dia tahu caranya.
Buruk - “Untuk mendengarkan pesan lagi, ucapkan“ Dengarkan lagi. ” Untuk pergi ke pesan berikutnya, ucapkan "Pergi ke pesan berikutnya."
Bagus - "Dengarkan pesan itu lagi atau lanjutkan ke yang berikutnya?"

Ajukan pertanyaan tertutup . Saya sarankan menghindari pertanyaan terbuka dan pernyataan bot terbuka, pengguna harus diarahkan untuk bertindak.
Buruk - “Halo! Saya Symphony, seorang pencinta musik. Saya senang merekomendasikan Anda sebuah album dan memberi tahu Anda tentang hal itu. "
Bagus - "Halo! Saya Symphony, seorang pencinta musik. Saya dengan senang hati akan merekomendasikan Anda sebuah album dan memberi tahu Anda tentang itu. Ingin tahu tentang lintasan hari ini? "

Hindari klerikalisme. Rekomendasi yang jelas yang diikuti oleh sedikit orang. Tidak seorang pun di antara kita ingin membaca teks yang rumit dan kelebihan beban, dan mendengarkannya menjadi semakin tak tertahankan.
Buruk - “Penting untuk diingat bahwa album selanjutnya dari artis ini akan menjadi platinum, yang memungkinkan kita untuk menyimpulkan bahwa album debut ini berhasil sebagai sarana untuk memasuki arena internasional secara efektif.”
Bagus - “Album debutnya menarik perhatian seluruh dunia kepada penampilnya. Bukan tanpa alasan rekaman berikutnya menjadi platinum dua kali! "

Pengujian dan pelatihan


Uji keterampilan dalam keheningan, di jalan, di ruangan yang bising, bicaralah dengan intonasi berbeda dan dengan kecepatan berbeda. Bahkan di tempat paling sunyi pun, ada yang salah. Mungkin proses pengujian akan terasa membosankan bagi sebagian orang, tetapi saya yakinkan Anda tidak. Keterampilan membutuhkan tes tabrakan nyata!

Dari pengalaman pribadi. Di salah satu bengkel, saya merancang keterampilan kebugaran: menurut gagasan itu, Alexa pertama kali memberikan instruksi, kemudian musik dihidupkan dan orang itu mengulangi latihan. Saya dengan antusias menguji semuanya pada diri saya sendiri: Saya melompat dan berlari ke musik cincang, mengubah panjang trek, mengulangi latihan berkali-kali dan akhirnya keterampilan UX memuaskan saya.

Provokasi dan bersumpah

Pengguna adalah provokator. Mereka akan memeriksa reaksi dari skill di luar topik: skill untuk memesan pizza, dan pengguna - tampaknya sangat licik - akan bertanya tentang sushi. Munculkan jawaban yang layak. Dan mengutuk hatimu. Saya serius! Just AI memiliki daftar periksa untuk matras yang digunakan dalam pengujian.

Bicaralah dan Dengarkan

Katakan semua yang kamu pikirkan. Dengarkan dengan telingamu segala sesuatu yang akan didengar pengguna. Mintalah kolega untuk membaca dan bahkan memainkan naskahnya. Rekam pidato, kembali ke rekaman, percobaan.

Keterampilan melatih

Tetapi pertama kali Anda tidak melihat segalanya dalam keterampilan. Terimalah dan rendah hati dirimu. Keahlian Anda akan membutuhkan pendidikan lebih lanjut. Baca dialog dan analisis log. Cara melakukan ini menggunakan Python, di salah satu edisi Sekolah Alice, kata Daria Serdyuk, NLP Research Engineer Just AI.


Alat Desainer


Kertas, pensil, atau spidol - tidak ada yang lebih baik telah ditemukan bagi mereka untuk mulai bekerja atau dengan cepat menyampaikan ide kepada tim atau pelanggan. Tetapi ada alat yang lebih canggih yang akan menyederhanakan kehidupan profesional desainer antarmuka suara dan membantu mewujudkan ide tersebut.

Aimylogic
Konstruktor dengan mesin NLU (pemahaman bahasa alami). Lebih dari 10 ribu pengguna dan lebih dari 1100 keterampilan untuk asisten suara dengan total pemirsa 1 juta pengguna. Ada langganan gratis dan periode demo gratis untuk langganan berbayar.



Di perancang, Anda dapat membuat skrip, mengujinya, dan menghubungkannya ke lebih dari sepuluh saluran (Alice, Google Assistant, Telegram, VKontakte, dan lainnya). Ada dukungan teknis dan komunitas di Telegram. Berikut ini beberapa contoh keterampilan suara:


Tortu.io
Alat untuk pembuatan prototipe cepat. Anda benar-benar membangun dialog antara pengguna dan sistem dalam langkah-langkah pada diagram blok, dan kemudian menguji menggunakan prototipe. Cocok untuk pengujian WoZ dan pengujian hipotesis cepat.

Aliran suara
Keterampilan Desainer Grafis Alexa. Memungkinkan Anda membuat Keterampilan Alexa tanpa keterampilan pemrograman. Cocok untuk pengujian UX.

Flow.ai
Alat grafis untuk membuat chatbots. Memungkinkan Anda membuat bot tanpa keterampilan pemrograman. Juga cocok untuk pengujian UX.

Bahan untuk memompa



Psikologi dan pengalaman aktual pengguna asisten suara sangat berbeda dari yang biasa kami lakukan di web atau lingkungan seluler. Tetapi desain suaranya menarik karena merupakan area baru namun sedikit dieksplorasi di mana banyak penemuan dan terobosan dapat dibuat.

Pengalaman dan materi desainer VUI yang disebutkan dalam artikel digunakan dengan persetujuan mereka.

Ucapan Terima Kasih:

Dmitry Chechetkin , salah satu pendiri dan kepala proyek strategis, Just AI.
Daria Serdyuk , Insinyur Riset NLP, Just AI.
Paul Gwai , pendiri Tortu.io.
Nelly Kamaeva , Desainer Produk, Alan AI.

Source: https://habr.com/ru/post/id464925/


All Articles