🏳️‍🌈 👩🏻‍🎤 🤲 Bagaimana kami memilih TTS, misalnya, suara dalam Kamus 🎠 👨🏼‍💻 👨🏿‍🔬

Kamus dalam Puzzle English membantu pengguna belajar kosa kata bersama dengan teka-teki audio dan video, podcast, film, acara TV, dan lagu. Dalam Kamus, terjemahan disertai dengan contoh audio dari kata dan frasa. Untuk suara, kami menggunakan rekaman speaker langsung dan TTS - sistem text-to-speech, synthesizer ucapan dari teks. Hari ini kami akan memberi tahu Anda bagaimana kami memilih mesin Vocalware TTS, mengapa kami ingin menghubungkan sistem Amazon Polly, dan tugas apa yang dapat diselesaikan seseorang lebih baik daripada robot.

Dalam Kamus, kami telah melibatkan lebih dari 20 suara dengan aksen, timbre, opsi pelafalan yang berbeda. Suara pria dan wanita dengan kecepatan bicara berbeda terdengar. "Penyiar" memiliki nama dan negara asal - Amerika Serikat, Inggris atau Australia. Opsi pelafalan membantu pengguna belajar cara berbicara dan memahami ucapan asing. Beginilah tampilan pengucapan untuk satu kata:

gambar

Cara menemukan TTS yang tepat

Berdasarkan fungsionalitas Kamus, kita memerlukan TTS yang mendukung setidaknya tiga aksen: Amerika (Umum Amerika), Inggris (Terima Pengucapan) dan Australia. Suara pria dan wanita diperlukan, dan lebih disukai dukungan transkripsi.

Kami mencari TTS, yang mensintesis ucapan yang dekat dengan suara alami, menghasilkan suara yang jernih dan tidak terlalu menuntut kualitas koneksi internet di sisi pengguna. Teka-teki Siswa bahasa Inggris tinggal di berbagai daerah di Rusia, menggunakan layanan dari ponsel melalui 2G dan 3G. Saya ingin TTS dapat mensintesis tidak hanya kata-kata, tetapi juga membaca frasa dengan ekspresi.

Kami menangani masalah ini pada tahun 2015, tetapi menemukan bahwa menemukan persyaratan TTS yang memadai hampir tidak mungkin. Ada beberapa mesin di pasaran:

Acapela - dapat mengenali dan menyuarakan teks dalam 34 bahasa. Lebih dari 100 suara yang disintesis dengan berbagai usia, emosi, aksen. Ini menghasilkan suara berkualitas tinggi.

Vocalizer - suara terdengar alami, ucapannya jelas. Berbagai kamus dipasang, volume, kecepatan dan tekanan disesuaikan.

eSpeak - mendukung lebih dari 50 bahasa. Pidato yang disintesis tidak sempurna, tetapi dapat dibaca, kualitas suara rata-rata. Kerugiannya adalah bahwa file eSpeak dengan ucapan yang disintesis disimpan dalam format .wav, dan memakan banyak ruang.

RSynth - tidak ada dokumentasi, kualitas bicara biasa-biasa saja.

Festival adalah sistem sintesis bicara multibahasa, tidak selalu bekerja secara stabil.

Vocalware - lebih dari 100 suara yang disintesis dalam 20 bahasa.

Acapela dan Vocalizer hanya berfungsi di Android, sistem lain tidak mendukung. Selain itu, mereka tidak stabil, seperti Festival. Mesin ESpeak dan RSynth tidak cocok, karena kualitas sintesis pidato untuk Kamus harus ideal.

Dari opsi-opsi ini, kami memilih mesin Vocalware, yang memenuhi kriteria kami: aksen, suara "penyiar" heteroseksual, transkripsi. Kemudian mesin ini menawarkan salah satu kualitas terbaik untuk mensintesis teks arbitrer. Dengan itu, kami menciptakan lebih dari sepertiga dari sounding. Vocalware melakukan pekerjaan yang baik dalam menerjemahkan satu kata, tetapi tidak seluruh frasa. Penyiar langsung menerjemahkannya ke dalam Puzzle English.

Mengapa kami ingin menghubungkan Amazon Polly

Sayangnya, Vocalware tidak mengikuti persyaratan saat itu.

Kualitas sintesis bicara TTS ini bukan yang terbaik di pasaran. Kami memberi pengguna kesempatan untuk memilih dari opsi pelafalan, dan semakin baik akting suara, semakin bermanfaat bagi siswa.
Kami sesekali mengalami crash Vocalware. Kebetulan layanan tidak tersedia hingga dua hari berturut-turut. Ini tidak bisa diterima.
TTS ini tidak memiliki dukungan bahasa markup untuk aplikasi sintesis pidato SSML. Melalui SSML, Anda dapat menyesuaikan aksen intonasi, panjang jeda, dan parameter lainnya.

Sistem dengan kualitas sintesis terbaik muncul di Amazon, disebut Amazon Polly, yang lain sedang dikembangkan di Google - Cloud Text-to-Speech.

Amazon Polly lebih baik daripada Vocalware dalam segala hal: ia menawarkan puluhan bahasa, suara pria dan wanita yang terdengar lebih alami. Mesin mendukung kosakata dan tag SSML yang memungkinkan Anda untuk mengontrol pelafalan, volume, nada dan kecepatan. Polly lebih cepat.

Google Cloud Text-to-Speech belum diproduksi, sedang dalam pengujian beta. Mesin ini didasarkan pada teknologi WaveNet - yang menjalankan Google Translate dan layanan Google lainnya. Dia menggunakan jaringan saraf untuk membuat kata dan frasa terdengar alami. Layanan ini menawarkan 30 pilihan suara dengan opsi suara. Nada setiap suara disesuaikan, 20 semiton di atas atau di bawah aslinya.

Kami menguji kedua sistem dan sampai pada kesimpulan bahwa perusahaan kecil yang sebelumnya mewakili pasar TTS kehilangan peluang mereka dan tertinggal. Mereka tidak mungkin membuat produk lebih baik daripada raksasa - Google dan Amazon. Perusahaan-perusahaan ini menggunakan data dalam jumlah besar dan kekuatan pemrosesan untuk model-model suara, dan secara bertahap merebut pasar.

Sekarang kami berencana untuk beralih ke solusi Amazon, karena kualitas sintesis pidato Polly sebanding dengan WaveNet. Favorit kami adalah "penyiar" untuk Inggris Inggris dengan nama Brian, yang terdengar paling alami.

Bahkan Polly, tidak seperti WaveNet, mensintesis pidato Rusia. TTS ini memiliki pilihan pelafalan bahasa Inggris dengan aksen Irlandia dan India. Pengucapan ini berguna untuk versi bahasa Inggris dari situs, yang akan digunakan oleh orang India yang ingin belajar bahasa Inggris. Pada saat yang sama, sistemnya lebih murah.

Sebagai hasil dari analisis TTS ini, kami berencana untuk menghubungkan suara-suara tambahan dari Polly dalam waktu dekat. "Penyiar" lama juga akan tetap untuk saat ini: arti dari Kamus ini adalah bahwa pengguna dapat mendengar varian pengucapan yang berbeda. Tetapi tidak mungkin melakukan voice acting dari frase komposit dengan bantuan robot saja. Pada layanan ini, banyak frasa dibuat melalui TTS, tetapi masih tidak mungkin untuk sepenuhnya meninggalkan speaker langsung.

Mengapa robot lebih rendah daripada seseorang ketika menyuarakan frasa

Dalam Puzzle English, frasa disuarakan oleh speaker langsung. Mesin itu ternyata menyuarakan kalimat sederhana - naratif, dengan pertanyaan, penolakan, tanpa pewarnaan emosional. Dia tidak bisa mengatasi teks yang lebih rumit, dia membuat beberapa kesalahan khas.

"Mengejar"

Pengucapan ini adalah satu kata setiap kali. Sulih suara semacam itu bahkan tidak mirip dengan ucapan, mereka tidak memiliki intonasi, pembagian ungkapan dari ujaran dan tekanan semantik, karena setiap kata diucapkan di bawah tekanan.

Beginilah cara TTS di Google Terjemahan dan penyiar langsung membaca frasa yang sama.

Robot membuat jeda kecil di antara kata-kata, seolah-olah "mencetaknya."

Penyiar menggunakan aksen phrasal, ia berbagi kalimat besar sesuai dengan artinya. Ungkapan ini lebih baik dirasakan oleh telinga.

Intonasi

Mesin biasanya tidak dapat mereproduksi intonasi yang diinginkan. Poin dalam pengucapan frasa ini penting bagi banyak pelajar bahasa Inggris. Seringkali, siswa berpikir bahwa itu sudah cukup untuk menyampaikan suara, dan pidatonya akan terdengar seperti orang Inggris. Ini tidak benar. Orang asing itu memberikan intonasi yang salah. Seseorang yang hidup dapat menyoroti bagian-bagian penting dari sebuah kalimat, jika konteksnya mengharuskannya. Robot tidak akan melakukan ini. Dengarkan kembali contoh-contoh frasa di atas dan Anda akan mengerti tentang apa itu.

Pidato langsung

Mesin tidak memancarkan ucapan langsung yang diselingi. Dia terus membaca teks, melestarikan gambar intonasi keseluruhan.

Beginilah cara penutur asli membaca teks:

Dan robotnya:

Emosi dalam percakapan

Robot tidak mengenali fragmen yang ditekankan oleh media pada kata-kata tertentu, misalnya, ketika frasa memiliki konotasi ironis. Robot biasanya mempertahankan nada netral.

Ini juga terdengar dalam contoh sebelumnya.

Kecepatan pengucapan salah

Kesalahan umum dalam robot adalah peregangan, yang menghasilkan efek penghambatan. Dan, sebaliknya, pelafalan kata atau frasa terlalu cepat memberi "kunyah" teks.

Tekanan yang tidak wajar

Robot membaca setiap kata dengan penekanan, yang tidak alami untuk pidato langsung.

Dalam contoh ini, robot menyoroti preposisi di.

Penyiar tidak menyoroti alasan tersebut, dalam pidato langsung, menyatu dengan bermain dan itu sendiri tidak tertekan.

Mesin Google dan Amazon membaca frasa lebih baik daripada TTS lain yang kami uji. Menurut hasil analisis, kedua solusi dari perusahaan besar tidak dapat mengatasi enam frasa dengan intonasi yang kompleks dan diatasi dengan hanya lima. Google membaca dua "speaker" standar dengan buruk, dua memuaskan, dan Amazon kurang membaca dua dan hanya memuaskan satu.

Hasil keseluruhan Google sedikit lebih baik, tetapi beberapa suara Amazon Polly tampak lebih menarik, karena suara dan nada mereka terdengar lebih alami. Secara umum, sudah mungkin untuk mempercayakan pengucapan frasa TTS, tetapi tidak dalam semua kasus dan tidak dalam produk untuk siswa dari bahasa asing. Mereka menghargai kualitas dan nuansa pengucapan, yang tidak selalu dapat disampaikan oleh robot.

Kesimpulan

Dengan TTS, Anda dapat menyuarakan setiap kata dalam berbagai bahasa untuk layanan Anda. Solusi Amazon dan Google baru melakukan ini lebih baik daripada mesin perusahaan kecil yang sudah ada sebelumnya. Tetapi frasa, terutama kalimat kompleks dengan beberapa koma, dalam kinerja mereka sejauh ini terdengar tidak wajar. Robot tidak dapat membedakan ucapan langsung, menyampaikan ironi, membuat penekanan semantik, memilih intonasi yang benar untuk pertanyaan pemisahan di akhir kalimat. Ini tidak dapat diterima untuk tujuan kami, oleh karena itu kami meminta pembicara langsung untuk menyuarakan materi tersebut dan terus menguji penawaran baru di pasar ini.

Jika Anda ingin menggunakan bahasa Inggris, datanglah kepada kami.

Kami memberi pembaca blog kupon 700 rubel untuk pembelian "Tugas".

Bagaimana kami memilih TTS, misalnya, suara dalam Kamus