WaveNet: الكلام الذي يشبه الإنسان والذي يتم توليفه بالكمبيوتر



DeepMind هو قسم مستقل في Google يشارك في تطوير الذكاء الاصطناعي. طورت هذه الشركة نظام AlphaGo ، وهو نظام هزم بطل العالم Go Lee Sedol.

لكن DeepMind لا يقتصر فقط على الألعاب. يعمل الآن موظفو الشركة على تطوير نظام تركيب الكلام المستند إلى الكمبيوتر. كما هو الحال في جميع مشاريع DeepMind الأخرى ، هناك شكل ضعيف من الذكاء الاصطناعي هنا. وفقا للخبراء ، يمكنها تحسين الوضع بشكل كبير من خلال الكلام المركب.

استخدام أجهزة الكمبيوتر لتجميع الكلام ليست فكرة جديدة على الإطلاق. أبسط حل هو استخدام أجزاء من كلام شخص حقيقي مترجمة إلى رقم. نحن نتحدث عن أصوات فردية تتكون من عبارات وكلمات وجمل صوتية أكثر تعقيدًا. لكن هذه الطريقة لا يمكن أن تسمى مثالية. هنا ، يلاحظ أي شخص على الفور مشاكل في النطق والتجويد.

في حالات أخرى ، يتم استخدام نماذج رياضية مختلفة لتجميع الأصوات التي يمكن من خلالها تجميع الكلمات والجمل. المشاكل هي نفسها كما في الحالة السابقة. ومن الواضح على الفور ما يقوله الجهاز ، وليس الشخص.



كلا الطريقتين متشابهتان في أن الأكبر والأكثر تعقيدًا يتم تجميعهما من شظايا صغيرة. نتيجة لمثل هذا التجميع ، ينطق الكمبيوتر الكلمات والعبارات المعقدة.

الطريقة الثالثة ، WaveNet ، التي اقترحها DeepMind ، تجمع بين مزايا الاثنين السابقين. تستخدم الطريقة تدريب الشبكات العصبية باستخدام أجزاء من الأصوات البشرية الحقيقية. يتلقى النظام أيضًا معلومات حول قواعد اللغويات والصوتيات المقابلة لكل حالة فردية. في هذه العملية ، يعرض النظام سطرًا من النص ويسمح لك "بالاستماع" إلى مجموعة الأصوات المناسبة. بعد ذلك ، يحاول النظام تجميع الكلام البشري باستخدام عدد من الأجزاء. يتم ذلك خطوة بخطوة ، مع التدريب على مثال كل جزء محدد. يتم التطوير بطريقة تجعل كل "مادة مرت" سابقة تعطي الشبكة العصبية فكرة عن مهمة جديدة.

النظير لما يمكن أن تفعله WaveNet ونظام تركيب الكلام التقليدي هو إنشاء فنجان. يستخدم نظام تركيب الكلام التقليدي القائم على الكمبيوتر طوب ليغو لإنشاء فنجان. نتيجة لذلك ، يبدو الكوب جيدًا ، ولكنه ليس كوبًا تمامًا ، ولكن تقليده. لكن WaveNet تستخدم الطين لإنشاء فنجان. يتم العمل يدويًا ، بدون عجلة الخزاف ، لكن الكأس يبدو وكأنه كوب. حتى مع الكلام. تقوم WaveNet بتجميع الكلام البشري ، والذي يختلف قليلاً عما اعتدنا عليه ، ولكن ليس بشكل كبير.

والنتيجة مثيرة للإعجاب. يمكنك الاستماع إلى ما حدث هنا . يبدو بالفعل الإنسان حقا. بالطبع ، هناك اختلافات ، لكنها لم تعد مهمة كما هو الحال في حالات أخرى.



المشكلة الوحيدة هي أن هذه الطريقة تتطلب الكثير من وقت الكمبيوتر والموارد. يجب أن يكون النظام الذي يمكن أن يولد الكلام البشري الواضح قويًا جدًا. والحقيقة هي أن WaveNet ، من أجل تجميع الكلام البشري ، تعالج 16000 عينة صوتية في كل ثانية. وحتى في هذه الحالة ، تكون النتيجة ذات جودة متوسطة. ومع ذلك ، في اختبارات تعريف "الإنسان أو الآلة" كانت النتيجة حوالي 50٪. أي أن نصف المتطوعين الذين استمعوا إلى العينة الصوتية التي أنشأتها الآلة اعتقدوا أن هذا قد قاله شخص.

قام باحثون من DeepMind بتنزيل أكثر من 44 ساعة من الكلام في النظام. تنتمي الكلمات والأصوات والعبارات المحملة في النظام إلى 109 مشاركين في التجربة يتحدثون الإنجليزية. وكما اتضح ، فإن WaveNet يمكنها محاكاة خطاب كل مشارك تقريبًا في التجربة. يستنسخ النظام حتى عيوب الطموح والكلام في "المتحدث" الأصلي.

على الرغم من حقيقة أن النظام يتحدث جيدًا بالفعل ، إلا أنه لا يزال بعيدًا عن الكمال الحقيقي. مشكلة أخرى هي أن الشكل الضعيف للذكاء الاصطناعي ليس قادرًا بعد على فهم اللغة. حققت IBM أقصى قدر من النجاح في هذا المجال مع نظامها المعرفي IBM Watson. ولكن هنا ، حتى الآن ، نتحدث عن الاعتراف بالأوامر الشفهية والمكتوبة غير المعقدة للغاية ، بالإضافة إلى الإجابات على الأسئلة البسيطة. الأنظمة المعرفية ليست قادرة بعد على الحفاظ على محادثة. ومع ذلك ، تتطور التقنيات ، ويقول الخبراء أنه خلال 5-10 سنوات يمكن أن يتغير الوضع بشكل كبير.

يجادل عدد من العلماء بأن الشكل الضعيف للذكاء الاصطناعي لا يزال يفتقر إلى المكونات المحددة للعقل. ولا يعتمد على حجم الشبكة نفسها. "بني اللغة على فرص أخرى ربما تقع بشكل أكثر عمقا والحاضر في الأطفال حتى قبل أن تبدأ في التحدث بلغة: الإدراك البصري في العالم، والعمل مع الجهاز العضلي الهيكلي لدينا، فهم لعالم الفيزياء ونوايا الكائنات الأخرى،" - يقول تننباوم.



DeepMind وفريق من الباحثين من جامعة أكسفورد والآن يعمل أكثر على نفس المشروع. هذا هو إنشاء "زر أحمر" مشروط لشكل قوي من الذكاء الاصطناعي ، والذي ، على الأرجح ، يمكن أن يخرج عن سيطرة الشخص بعد أن يخلق الشخص عقلًا اصطناعيًا.

Source: https://habr.com/ru/post/ar397327/


All Articles