في الآونة الأخيرة ، تم نشر مقالة مثيرة للاهتمام للغاية ، "التعرف على السماعات من الشكل الموجي الخام مع SincNet" ، والتي وصفت الهندسة المتكاملة من الشبكة العصبية للتعرف على المتكلم بالصوت. من بين السمات الرئيسية لهذه الهندسة المعمارية الطبقات التلافيفية أحادية البعد ، والتي تحتوي على معلمتين فقط مع تفسير واضح. تفسير معلمات الشبكة العصبية أمر صعب إلى حد ما ، لذلك جذبت هذه المقالة اهتمامي.
إذا كنت مهتمًا بوصف فكرة هذه المقالة ، وأيضًا سبب ارتباط هذه الفكرة بمعنى إنشاء الطيفية الطيفية ، فأنت مرحب بك في cat.
ألاحظ أن جميع الصور المستخدمة في هذا المنشور إما مأخوذة من المقالة الأصلية ، أو يمكن الحصول عليها باستخدام Jupyter Notebook المخزن في هذا المستودع .
نشر مؤلفو المقال الموضح الكود المصدري لجيثب ، ويمكن الاطلاع عليه هنا .
الطيفية الطباشير
لفهم جوهر هذا المقال ، دعونا أولاً نتذكر ماهية الطيفية الطيفية ، وكيفية الحصول عليها ، وما معنى ذلك. إذا كان هذا الموضوع مألوفًا لك ، فلن يكون هذا الجزء مثيرًا للاهتمام. يتم حسابه بواسطة الطيفية المعتادة التي تم إنشاؤها باستخدام نافذة تحويل فورييه:
جوهر هذه العملية هو التطبيق المتسلسل لتحويل فورييه إلى أجزاء قصيرة من إشارة الكلام ، مضروبة في بعض وظائف النافذة. نتيجة لتطبيق تحويل النافذة هي مصفوفة ، حيث يكون كل عمود هو طيف مقطع قصير من الإشارة الأصلية. ألقِ نظرة على المثال أدناه:
أظهرت تجارب العلماء أن الأذن البشرية أكثر حساسية للتغيرات في الصوت عند الترددات المنخفضة أكثر من الترددات العالية. أي إذا تغير تردد الصوت من 100 هرتز إلى 120 هرتز ، فمن المحتمل أن يلاحظ هذا التغيير. ولكن إذا تغير التردد من 10000 هرتز إلى 10020 هرتز ، فمن غير المحتمل أن نتمكن من متابعة هذا التغيير.
في هذا الصدد ، تم تقديم وحدة جديدة لقياس درجة الصوت - الطباشير. يعتمد على الإدراك النفسي الفسيولوجي للصوت من قبل شخص ما ، ويعتمد لوغاريتميًا على التردد:
في الواقع ، الطيفية الطباشير هو الطيفية العادية ، حيث يتم التعبير عن التردد ليس في هرتز ، ولكن في الطباشير. يتم الانتقال إلى الطباشير من خلال تطبيق مرشحات الطباشير على الطيفية الأصلية. مرشحات الطباشير هي وظائف مثلثية موزعة بالتساوي على مقياس الطباشير. على سبيل المثال ، فيما يلي 10 مرشحات للطباشير (في الممارسة ، يأخذون المزيد ، وهنا قليل من أجل الوضوح):
عند ترجمتها إلى مقياس تردد ، ستبدو نفس المرشحات كما يلي:
يتم ضرب كل عمود من البرنامج الطيفي الأولي بشكل فاضح بكل مرشح طباشيري (موجود على مقياس التردد) ، وبعد ذلك يتم الحصول على متجه من الأرقام يساوي في الحجم عدد المرشحات. تُظهر الصورة أدناه أحد أعمدة الطيفية (يتم تحويل قيم السعة إلى مقياس لوغاريتمي من أجل الوضوح ، ويظهر ما تم ترميزه بالألوان في الصورة على طول الإحداثيات) واثنين من مرشحات الطباشير التي يمكن من خلالها بناء طيفية للطباشير:
ونتيجة لهذه التحولات ، تبقى القيم من الترددات المنخفضة للطيف دون تغيير تقريبًا في طيف الطباشير ، وفي المتوسطات العالية للقيم في الترددات العالية يتم حسابها من نطاق أوسع. على سبيل المثال ، أقترح إلقاء نظرة على الطيفي الطباشيري الذي تم إنشاؤه من الطيفية السابقة باستخدام 64 فلترًا للطباشير:
تلخيص كل ما سبق: يتم تخزين المزيد من المعلومات على الطيف الطباشيري ، الذي يتم إدراكه وتميزه جيدًا عن الطيف المعتاد. وبمعنى آخر ، فإن تمثيل الصوت هذا يركز بشكل أكبر على الترددات المنخفضة ، وعلى التركيز العالي.
ما علاقة SincNet به؟
أذكر أنه تم إنشاء مقياس الطباشير على أساس الإدراك النفسي والجسدي البشري للصوت. ولكن ماذا لو أردنا اختيار نطاقات تردد أخرى تهمنا أكثر من غيرها في أي مهمة معينة؟ كيفية اختيار أفضل مجموعة من المرشحات لحل مشكلة؟
البنية المقترحة من قبل المؤلفين يحل هذه المشكلة على وجه التحديد.
ينظر المؤلفون في الوظيفة التالية كمرشح:
في هذه الصيغة هي وظيفة مستطيلة . مثل هذا المرشح يحدد نطاق التردد من إلى . هنا هو جدولها الزمني:
باستخدام تحويل فورييه معكوس لهذه الوظيفة ، يمكنك الحصول على التناظرية في المجال الزمني:
وظيفة - هذا هو الاستجابة النبضية لمرشح تمرير النطاق المثالي الذي لا يمكن تنفيذه في الممارسة ، ولهذا السبب قام المؤلفون باقتطاع هذه الوظيفة من خلال نافذة Hamming . في معالجة الإشارات الرقمية ، يطلق على هذا النهج توليف النوافذ.
نافذة اقتطاع وظيفة الخيار يقترح المؤلفون استخدام كقالب لجميع التعارف التي يتم تطبيقها على بيانات الصوت الخام. هذه الوظيفة مختلفة حسب المعايير. و ، مما يعني أنه يمكن استخدامه لتحسين معلمات الشبكة باستخدام طريقة الانتشار الخلفي.
بواسطة نظرية الإلتواء ، اختلاط الإشارة الأصلية مع الوظيفة أي ما يعادل ضرب طيف الإشارة الأصلية بواسطة دالة . تحدث تقريبًا ، وأداء مجموعة من الإشارة الأصلية مع الوظيفة ، "نلفت انتباه" الشبكة العصبية إلى نطاق تردد معين في الإشارة قيد النظر.
بالطبع ، لا يتم تطبيق تحويل فورييه هنا ، والقيم المحددة للطيف في النطاق لا يتم الإبلاغ عنها صراحة في الشبكات العصبية. . على ما يبدو ، يتم تعيين مهمة استخراج الخصائص الطيفية للكتل التالية الموجودة في الشبكة العصبية.
من مزايا هذا النهج ، يلاحظ المؤلفون ما يلي:
- تقارب سريع
- وهناك عدد أقل بكثير من المعلمات. في الكتلة التلافيفية الكلاسيكية ، فإن عدد المعلمات يساوي طول الالتواء. باستخدام الطريقة الموضحة ، لا يعتمد عدد المعلمات على طول الالتواء ويساوي 2
- تفسير المعلمات
النتائج
هناك العديد من المرشحات التي يتم تحويلها الطيفية. على سبيل المثال ، بالإضافة إلى مرشحات الطباشير الموصوفة ، هناك أيضًا مرشحات اللحاء (يمكنك القراءة هنا وهنا ). على الأقل تعتبر اللحاء أيضًا قيمة نفسية فيزيائية ، تم اختيارها "للرجل".
في دراستهم ، اقترح المؤلفون طريقة يمكن من خلالها للشبكة العصبية أن تختار بشكل مستقل نطاقات التردد الأنسب في عملية التعلم ، اعتمادًا على مجموعة البيانات. بالنسبة لي ، فإن هذا يشبه إلى حد كبير عملية بناء الطيف الطباشيري ، حيث يتم إعطاء أولوية أعلى للترددات المنخفضة. إليك فقط الطيفية الطيفية التي تم اختراعها على أساس الإدراك البشري للصوت ، وفي الطريقة المقترحة ، تقرر الشبكة العصبية نفسها ما هو مهم وما هو غير مهم.