التكنولوجيا والأسواق تسير جنبا إلى جنب اليوم. إنها قريبة جدًا لدرجة أن أي نفحة من التقدم التكنولوجي ووسائل الإعلام الاجتماعية ترتفع بقوة. يملأ الكتاب الصفحات بعد الصفحات كما لو كان بالفعل هنا. أسهم ركوب الثور أو الدب ، والصحف طباعة سلسلة من الحروف الكبيرة.
تتمثل مشكلة الإفراط في رد الفعل الصحفي في أننا نفتقد الكثير من الأدوات البسيطة ، والعديد من الأفكار الصغيرة ولكن المبتكرة التي تحيط بمساحة الشبكات لدينا. نظرة على المستقبل تجعلنا أعمى لهذه الفرصة في الوقت الحاضر.
تحث شركات تطوير الويب التسويق الرقمي على كتابة مزيد من المعلومات حول إمكانية
تحول البلوك إلى العالم أو كيف سيكون الذكاء الاصطناعي هو الشيء الأكبر التالي. إنهم يفتقدون شيئا مبتكرا ومحتملا للغاية. إنها القدرة على جعل موقع الويب الخاص بك تفاعلي.
تخيل التحدث إلى موقع الويب الخاص بك لجعل المفضلة لديك اختيار الخلفية. قد يكون موقعك الذي يجيب عنك ذكاءً مصطنعًا ، لكنك لست بحاجة إلى الذهاب إلى هذا الحد للتحدث إلى موقع الويب الخاص بك. تكمن الأداة في النوم في متصفحك ، وأنت لست على علم بذلك. نحن نتحدث عن Google Web Speech API. دعونا أولاً نلقي نظرة على بعض العناصر الأساسية للكلام قبل أن نتعمق في واجهات برمجة تطبيقات Google Web Speech
بعض أساسيات الكلام
الآن ، من السهل التحدث ، حتى أن الطفل يستطيع أن يتحدث ، لكن التعرف على الكلام ليس مسرحية للطفل. إن عقلنا وعلاقته بالدماغ أكثر تعقيدًا مما كان مفترضًا. وبالتالي ، على الرغم من أن أجهزة الكمبيوتر استثنائية في بعض الجوانب ، فهي ليست قريبة من العقل البشري. تحتاج أجهزة الكمبيوتر إلى الكثير من المساعدة للاستماع إلى الكلمات لأن الكلام ليس نزهة في الحديقة.
الكلام ظاهرة معقدة للدراسة. يصبح غريبًا بينما نتعمق فيه. الكلام وبالتالي ليس مجرد مجموعة متنوعة من الكلمات الوترية معًا. في كل مرة نتحدث فيها ، يحتوي كلمتنا على حزم صوت تسمى الهاتف. على سبيل المثال: عندما نقول كلمة "MAT" فإننا نلفظ الهواتف "m" و "a" و "t". لكن الطريقة الفعلية التي نتحدث بها عن صوت وكيف يفكر أذهاننا مختلفة تمامًا. هل تتذكر تلك الحالات ، عندما تتفاعل حتى قبل إتمام الجملة؟ لقد فعلت ذلك لأن هناك بعض الكتل الأساسية للصوت التي يدركها عقلك دون وعي ، وتسمى هذه العناصر الصوتيات.
بالإضافة إلى ذلك ، هناك عناصر متنوعة في اللغويات يجب على المرء أن يأخذها في الاعتبار. على سبيل المثال ، بناء الجملة الذي يوضح البنية النحوية للغة ودلالاتها - معنى الكلمات - وكيف تبرز معنى كلي الجملة.
كيف يستمع إليك الكمبيوتر؟
التعرف على الكلام هو علم متعدد التخصصات ويجمع بين المفاهيم الدقيقة من اللغويات ومعالجة الإشارات ومعالجة اللغة الطبيعية وأكثر من ذلك بكثير. من أجل البساطة ، نحتاج إلى النظر في الأساليب التالية لفهم الطريقة التي تفسر بها أجهزة الكمبيوتر الكلام:
1. نمط مطابقة
قد تتذكر الصوت المحوسب لمحطة حجز الغاز الخاصة بك وتطلب منك الاختيار عن طريق الضغط على 1 أو 2 في لوحة مفاتيح هاتفك المحمول لحجز اسطوانة غاز جديدة. يتم ذلك باستخدام هذه التقنية حيث تم تدريب الكمبيوتر على التمييز بين عشرة أنماط صوتية. "واحد" ، "صفر" ، "عشرة" ، إلخ. هي الأصوات التي تم اكتشافها في هذا التمرين المطابق للنمط. يطابق الكمبيوتر كتل الصوت المخزنة بالفعل في الذاكرة بإجراءات أخرى. لهذا السبب تسمع "آسف ، لم نحصل عليك" عندما تتحدث بقليل من الصدفة.
2. تحليل الميزة والأنماط
يمكن لأداة التعرف على الكلام النموذجية أن تضع مفردات كبيرة من الأصوات. قد تتساءل كيف يفعل ذلك؟ في اللحظة التي تتحدث فيها إلى محول الميكروفون A / D (تناظري / رقمي) ، يحول الاهتزازات إلى نصوص رقمية. يقوم المخطط الطيفي بعد ذلك برسم البيانات الرقمية في رسم بياني باستخدام تقنية معالجة الإشارات تسمى FTT (تحويل فورييه السريع). ثم يتم تقسيم الشكل الموجي إلى كتل متداخلة تسمى الإطارات الصوتية - الفصل الذي تم إنشاؤه باستخدام فجوة زمنية تبلغ 1/50 من الثانية أو 1/25 من الثانية. هنا يتم تقسيم الكلام إلى كلمات محتملة ، ثم يُقارن بقاموس صوتي ، وبالتالي يُحدِّد الكلمة المنطوقة.
3. الطريقة الإحصائية
تختلف طريقة نطق كل شخص للكلمة بشكل فريد. حتى الشخص نفسه قد نطق نفس الكلمة بشكل مختلف في وقت آخر. وبالتالي ، فإن النظام الذي يتعين عليه فك تشفير العناصر الأساسية من مجموعة كبيرة يجب أن يتعامل مع مشكلة التباين. تستخدم أدوات التعرف على الكلام الحديثة نماذج اللغة للتعامل مع مشكلة التباين.
تستخدم نماذج مثل نموذج ماركوف المخفي (HMV) التخمين الاحتمالي باستخدام القوانين النحوية للوصول إلى الكلمة الأكثر ترجيحًا. تعمل على تحسين دقتها من خلال توسيع حتى أصغر صوت يتم التقاطه. يسبق مثال الكلمة باللغة الإنجليزية عدد انتقائي للغاية من الكلمات مثل ، "ل" ، "سيء" ، "جيد" ، إلخ. إذا كانت عملية التعرف معلقة ، فقل "هذا مثال ___". وتم تحديد صوت خفيف مثل "g" ثم يقوم النظام بتجميع الكلمة الفارغة ليشير إلى "جيد".
4. الشبكات العصبية الاصطناعية
إنها أدمغة بشرية مبسطة قادرة على التعلم من خلال الأمثلة. وبالتالي ، إذا تم تدريب ANNs مع عينات كافية ، فإنه يمكن ربطها مع أنماط ينظر سابقا للوصول إلى الكلمة الصحيحة. لذلك فإن الشبكة العصبية المدربة تدريباً كاملاً يمكن أن تأخذ التعرف على الكلام إلى مستوى مختلف.
إليك كيف يمكنك تعديل موقعك
سوف نستخدم Web Speech API التي طورها مجتمع W3C في عام 2012. العديد من المتصفحات لا تستخدمه لسبب أو لآخر. لكن Chrome و Firefox قاما بدمج هذا في متصفحاتهما ، ولهذا السبب يمكنك البحث الصوتي على Google.
واجهة برمجة تطبيقات Web Speech API هي واجهة لدينا بالفعل لديها جوانب أخرى مرتبطة ارتباطًا وثيقًا بالكلام مثل القواعد والمفردات وما إلى ذلك.
ستبدو الأداة مثل الأداة أعلاه. كل ما عليك القيام به تنفيذ هذا الرمز. يمنح كود CSS أدناه التصميم لميزة التعرف الخاصة بك ميزات اللون والشاشة. هنا يتم تقديم نموذج بسيط فقط. يمكنك التعبير عن إبداعك عن طريق تغيير رموز CSS.
<!-- CSS Styles --> <style> html, body { display: flex; align-items: center; justify-content: center; background-color: lightblue; } .record { position: relative; width: 246px; display: inline-block; } .record input { text-align:center; border: 0; width: 240px; display: inline-block; height: 30px; } .record img { float: right; width: 25px; height: 25px; border: none; position: absolute; right: 7px; top: 3px; } .container { display: inline-block; text-align: center; } h1 { font-family: constantia; } </style>
ستقوم المجموعة التالية من الرموز باستدعاء API للقيام بالتعرف الفعلي على الكلام نيابة عنك. يتم تضمين البرامج النصية HTML و Java الضرورية في المجموعة.
<!DOCTYPE html> <html> <head> <title>Voice Recognition: Habr</title> </head> <body> <!-- Search Form --> <div class="container"> <h1>Voice Recognition in HTML</h1> <div class="record"> <form id="speak-form" method="get" action="https://www.google.com/search"> <input type="text" name="q" id="transcript" placeholder="Speak" /> <img onclick="startRecording()" src="http://icons.iconarchive.com/icons/designbolts/free-multimedia/1024/Studio-Mic-icon.png" /> </form> </div> </div> </body> </html> <!-- HTML5 Speech Recognition API --> <script> function startRecording() { if (window.hasOwnProperty('webkitSpeechRecognition')) { var recognition = new webkitSpeechRecognition(); recognition.continuous = false; recognition.interimResults = false; recognition.lang = "en-US"; recognition.start(); recognition.onresult = function(e) { document.getElementById('transcript').value = e.results[0][0].transcript; recognition.stop(); document.getElementById('speak-form').submit(); }; recognition.onerror = function(e) { recognition.stop(); } } } </script>
يمكن للأداة البسيطة الموضحة أعلاه فتح نافذة جديدة من الفرص للعديد من المواقع التي تكافح لتكون تفاعلية وفريدة من نوعها. يجب أن يطبق تطوير الويب هذه التقنيات البسيطة والقابلة للتطوير أولاً. يجب أن يجد التطوير الذكي للويب التوازن الصحيح بين
أسرار تصميم الويب الهامة والأدوات التكاملية البسيطة. يمكن استخدام واجهة برمجة تطبيقات الويب في تطوير تطبيقات الأجهزة المحمولة لتحسين الهواتف الذكية وجعلها ذكية. تحقق من هذه الميزة الآن واستمتع بوقتك في الدردشة مع موقع الويب الخاص بك.