Teknologi dan pasar berjalan seiring hari ini. Ini akan sangat dekat sehingga setiap informasi tentang kemajuan teknologi dan media sosial menjadi kacau balau tentang hal itu. Penulis mengisi halaman demi halaman seolah-olah sudah ada di sini. Saham naik banteng atau beruang, dan surat kabar mencetak serangkaian huruf kapital.
Jebakan dari reaksi jurnalistik yang demikian adalah kita kehilangan banyak alat sederhana, banyak gagasan kecil tapi inovatif yang mengelilingi ruang jejaring kita. Mengamati masa depan membuat kita buta akan peluang di saat ini.
Perusahaan pengembang web mendesak pemasaran digital untuk menulis lebih banyak tentang kemungkinan
blockchain mengubah dunia atau bagaimana Intelegensi Buatan adalah hal terbesar berikutnya. Mereka kehilangan sesuatu yang sangat inovatif dan prospektif. Ini adalah kemampuan untuk membuat situs web Anda interaktif.
Bayangkan berbicara dengan situs web Anda untuk membuat latar belakang favorit Anda. Situs Anda yang menjawab bahwa Anda bisa menjadi Inteligensi Buatan, tetapi Anda tidak perlu sejauh itu berbicara dengan situs web Anda. Alat itu ada di sana tidur di browser Anda, dan Anda bahkan tidak sadar. Kita berbicara tentang Google Web Speech API. Pertama-tama mari kita lihat beberapa elemen penting dari pidato sebelum kita mempelajari lebih dalam Google Web Speech APIs
Beberapa dasar bicara
Sekarang, berbicara itu mudah, bahkan seorang anak pun dapat berbicara, tetapi pengenalan ucapan bukanlah permainan anak-anak. Pikiran kita dan hubungannya dengan otak jauh lebih rumit daripada yang diperkirakan. Oleh karena itu, komputer meskipun luar biasa dalam beberapa aspek tidak mendekati otak manusia dalam persepsi. Komputer membutuhkan banyak bantuan untuk mendengarkan kata-kata karena ucapan bukanlah jalan di taman.
Bicara adalah fenomena yang kompleks untuk dipelajari. Itu menjadi asing ketika kita masuk lebih dalam ke dalamnya. Karenanya, pidato bukan hanya bermacam-macam kata yang dipadukan menjadi satu. Setiap kali kita berbicara, ucapan kita mengandung paket-paket suara yang disebut telepon. Misalnya: ketika kita mengucapkan kata "MAT", kita mengucapkan ponsel 'm', 'a', 't'. Tetapi cara aktual kita berbicara suara dan bagaimana pikiran kita memahami itu sama sekali berbeda. Apakah Anda ingat contoh-contoh itu, ketika Anda bereaksi bahkan sebelum menyelesaikan kalimat? Anda melakukannya karena ada beberapa blok suara fundamental yang pikiran Anda rasakan secara tidak sadar, elemen-elemen ini disebut fonem.
Selain itu, ada beragam elemen linguistik yang harus dipertimbangkan. Misalnya, sintaksis yang menguraikan struktur gramatikal bahasa dan semantik - makna kata-kata - dan bagaimana mereka mengolah makna holistik makna kalimat.
Bagaimana Komputer Mendengarkan Anda?
Pengenalan wicara adalah ilmu interdisipliner dan menggabungkan konsep-konsep halus dari linguistik, pemrosesan sinyal, pemrosesan bahasa alami dan banyak lagi. Demi kesederhanaan, kita perlu mempertimbangkan pendekatan berikut untuk memahami cara komputer menafsirkan ucapan:
1. Pencocokan Pola
Anda mungkin ingat suara terkomputerisasi dari stasiun pemesanan gas Anda yang meminta Anda untuk memilih dengan menekan 1 atau 2 pada keypad ponsel Anda untuk memesan tabung gas baru. Hal ini dilakukan dengan menggunakan teknik ini ketika komputer dilatih untuk membedakan sepuluh pola suara. "Satu", "nol", "sepuluh" dll. adalah suara yang terdeteksi dalam latihan pencocokan pola ini. Komputer mencocokkan blok suara yang sudah tersimpan dalam memori untuk tindakan lebih lanjut. Itu sebabnya Anda mendengar "Maaf, Kami Tidak Mendapatkan Anda" ketika Anda berbicara nol sedikit dengan santai.
2. Analisis Fitur dan Pola
Alat pengenal ucapan yang khas dapat menghasilkan kosakata suara yang besar. Anda mungkin bertanya-tanya bagaimana cara kerjanya? Saat Anda berbicara ke dalam mikrofon, konverter A / D (Analog / Digital), ubah getaran menjadi teks digital. Spektrogram kemudian memplot data digital ke dalam grafik, menggunakan teknik pemrosesan sinyal yang disebut FTT (Fast Fourier Transform). Kemudian bentuk gelombang dipecah menjadi blok yang tumpang tindih yang disebut bingkai akustik - pemisahan dibuat dengan menggunakan celah waktu 1/50 detik atau 1/25 detik. Di sini pidato dipecah menjadi kata-kata yang mungkin dan kemudian dibandingkan dengan kamus fonetik dan dengan demikian menunjukkan kata yang diucapkan.
3. Metode Statistik
Cara setiap orang mengucapkan kata berbeda secara unik. Bahkan orang yang sama dapat mengucapkan kata yang sama secara berbeda di lain waktu. Oleh karena itu, sebuah sistem yang harus menguraikan elemen-elemen penting dari kumpulan besar harus berurusan dengan masalah variabilitas. Alat pengenalan ucapan modern menggunakan model bahasa untuk menangani masalah variabilitas.
Model seperti Hidden Markov Model (HMV), menggunakan dugaan probabilistik menggunakan hukum tata bahasa untuk sampai pada kata yang paling mungkin. Ini menyempurnakan akurasinya dengan memperluas bahkan pada suara terkecil yang ditangkap. Contoh kata didahului dalam bahasa Inggris dengan jumlah kata yang sangat selektif seperti, 'untuk', 'buruk', 'baik', dll. Jika proses pengenalan hang pada mengatakan "Ini adalah contoh ___." Dan sedikit suara seperti 'g' diidentifikasi kemudian sistem mengumpulkan kata kosong yang berarti 'baik.'
4. Jaringan Saraf Tiruan
Mereka adalah otak manusia yang disederhanakan yang mampu belajar melalui contoh. Oleh karena itu, jika JST dilatih dengan sampel yang cukup, maka dapat berkorelasi dengan pola yang terlihat sebelumnya untuk sampai pada kata yang tepat. Jadi Neural Network yang terlatih dapat membawa pengenalan suara ke tingkat yang berbeda.
Inilah Cara Anda Dapat Memodifikasi Situs Anda
Kami akan menggunakan Web Speech API yang dikembangkan oleh komunitas W3C pada 2012. Banyak browser tidak memanfaatkannya karena satu atau lain alasan. Tetapi Chrome dan Firefox telah mengintegrasikan ini ke dalam peramban mereka, dan itulah sebabnya Anda dapat menyuarakan pencarian di Google.
Web Speech API akan menjadi antarmuka kami yang sudah memiliki aspek-aspek lain yang terkait erat seperti tata bahasa, kosa kata, dll.
Alat Anda akan terlihat seperti yang di atas. Yang perlu Anda lakukan adalah menjalankan kode ini. Kode CSS di bawah ini memberikan desain untuk fitur pengenal Anda fitur warna dan tampilan. Di sini hanya model sederhana yang disajikan. Anda dapat mengekspresikan kreativitas Anda dengan mengubah kode CSS.
<!-- CSS Styles --> <style> html, body { display: flex; align-items: center; justify-content: center; background-color: lightblue; } .record { position: relative; width: 246px; display: inline-block; } .record input { text-align:center; border: 0; width: 240px; display: inline-block; height: 30px; } .record img { float: right; width: 25px; height: 25px; border: none; position: absolute; right: 7px; top: 3px; } .container { display: inline-block; text-align: center; } h1 { font-family: constantia; } </style>
Set kode berikutnya akan memanggil API untuk melakukan pengenalan ucapan yang sebenarnya untuk Anda. Script HTML dan Java yang diperlukan termasuk dalam set.
<!DOCTYPE html> <html> <head> <title>Voice Recognition: Habr</title> </head> <body> <!-- Search Form --> <div class="container"> <h1>Voice Recognition in HTML</h1> <div class="record"> <form id="speak-form" method="get" action="https://www.google.com/search"> <input type="text" name="q" id="transcript" placeholder="Speak" /> <img onclick="startRecording()" src="http://icons.iconarchive.com/icons/designbolts/free-multimedia/1024/Studio-Mic-icon.png" /> </form> </div> </div> </body> </html> <!-- HTML5 Speech Recognition API --> <script> function startRecording() { if (window.hasOwnProperty('webkitSpeechRecognition')) { var recognition = new webkitSpeechRecognition(); recognition.continuous = false; recognition.interimResults = false; recognition.lang = "en-US"; recognition.start(); recognition.onresult = function(e) { document.getElementById('transcript').value = e.results[0][0].transcript; recognition.stop(); document.getElementById('speak-form').submit(); }; recognition.onerror = function(e) { recognition.stop(); } } } </script>
Alat sederhana yang dijelaskan di atas dapat membuka jendela peluang baru ke banyak situs yang berjuang untuk menjadi interaktif dan unik. Pengembangan web harus menerapkan teknik-teknik sederhana dan terukur seperti itu terlebih dahulu. Pengembangan web yang cerdas harus menemukan keseimbangan yang tepat antara
rahasia desain web yang penting dan alat integratif sederhana tersebut. API Web selanjutnya dapat digunakan dalam pengembangan aplikasi seluler untuk meningkatkan smartphone dan menjadikannya pintar. Jadi, periksa fitur ini sekarang dan bersenang-senang mengobrol dengan situs web Anda.