في هذه المقالة ، أود أن أتحدث عن شغفي الطويل الأمد - الدراسة والعمل مع ميكروفون المجالات البعيدة (مجموعة الميكروفون) - صفائف الميكروفون.
سيكون المقال مثيرًا للاهتمام لأولئك الذين يحبون إنشاء مساعديهم الصوتيين ، وسوف يجيب على بعض الأسئلة للأشخاص الذين يرون الهندسة على أنها فن ، وأيضًا الذين يريدون تجربة أنفسهم في دور Q ( هذا من Bond ). قصتي المتواضعة ، آمل أن تساعدك على فهم سبب عمل عمود مساعد ذكي بدقة وفقًا للبرنامج التعليمي بشكل جيد فقط إذا لم يكن هناك ضوضاء على الإطلاق. وسيئة للغاية حيث هم ، على سبيل المثال في المطبخ.
منذ سنوات عديدة ، أصبحت مهتمًا بالبرمجة ، وبدأت في كتابة التعليمات البرمجية لمجرد أن المعلمين الحكيمين سمحوا لي بلعب الألعاب التي كتبتها بنفسي فقط. لقد كان عامًا حتى 87 وكان Yamaha MSX. حول هذا الموضوع ، كان هناك أيضًا أول شركة ناشئة. كل شيء يتفق تمامًا مع الحكمة: "اختر وظيفة ترضيك ، ولن تضطر إلى العمل يومًا واحدًا في حياتك" (كونفوشيوس).
وهكذا مرت السنين ، وما زلت أكتب التعليمات البرمجية. حتى هواية برمز - حسنًا ، باستثناء التزلج على الجليد ، لتسخين الأدمغة و "لن أنسى ماتان" هذا يعمل مع ميكروفون Far Fields (صفيف الميكروفون). عبثا أمضى المعلمون الوقت معي.
ما هو وأين يتم تطبيقه
عادةً ما يحتوي المساعد الصوتي الذي يستمع إليك على مجموعة من الميكروفونات. نجدها في أنظمة مؤتمرات الفيديو. في التواصل الجماعي ، يتم دفع نصيب الأسد من الاهتمام إلى الكلام ، بالطبع ، نحن لا ننظر باستمرار إلى المتحدث عند التواصل ، ولكن التحدث بالضبط مع ميكروفون أو سماعة رأس أمر مقيد وغير مريح.
يستخدم الجميع تقريبًا ، أحد العملاء المحترمين ، شركة تصنيع للهواتف المحمولة ما لا يقل عن 2 ميكروفونات في إبداعاتهم (نعم ، تكمن الميكروفونات خلف هذه الثقوب أعلاه ، أدناه ، خلف). على سبيل المثال ، في iPhone 3G / 3GS كان الوحيد ، في الجيل الرابع من أجهزة iPhone كان هناك اثنان ، وفي الخامس كان هناك بالفعل ثلاثة ميكروفونات. بشكل عام ، هذه أيضًا مجموعة من الميكروفونات. وكل هذا لتحسين جودة الصوت.
ولكن نعود إلى مساعدينا الصوتيين
كيف تزيد من مدى السمع؟
"بحاجة لآذان كبيرة"
فكرة بسيطة: إذا كنت تريد سماع الميكروفون القريب فقط ، يكفي ميكروفون واحد فقط ، ومن أجل الاستماع من بعيد ، تحتاج إلى استخدام ميكروفون أكثر تكلفة مع عاكس ، مشابه لأذنين الثعالب:

(ويكيبيديا)


في الواقع ، هذا ليس جزءًا من مجموعة فروي ، ولكنه جهاز خطير للصيادين والكشافة.

نفس الشيء ، فقط على أنابيب الرنان

في الموطن.
(مأخوذة من https://forum.guns.ru )

قطر المرآة من 200 مم إلى 1.5 م
(للمزيد من هذا راجع http://elektronicspy.narod.ru/next.html )
"بحاجة إلى مزيد من الميكروفونات"
أو ربما إذا وضعت الكثير من الميكروفونات الرخيصة ، فإن الكمية ستذهب إلى الجودة وكل شيء سينجح؟ زرغراش فقط بالميكروفونات.
غريب ، لكنه يعمل في الحياة الواقعية. صحيح مع الكثير من ماتان ، لكنه يعمل. وسنتحدث عن هذا في القسم التالي.
وكيف تتعلم أن تسمع أكثر بدون قرون جميلة؟

إحدى مشاكل أنظمة البوق هي أنه يمكنك سماع ما هو واضح في التركيز. ولكن إذا كنت بحاجة إلى سماع شيء ما من اتجاه مختلف ، فأنت بحاجة إلى "خداع بأذنيك" وإعادة توجيه النظام ماديًا في اتجاه آخر.
وحول نسبة الإشارة إلى الضوضاء في الأنظمة ذات مصفوفات الميكروفون ، فهي أفضل بطريقة ما مقارنة بالميكروفون التقليدي.
في صفائف الميكروفونات ، وكذلك في أقرب أقاربها - PAR (هوائيات الصفيف المرحلي) ، لا تحتاج إلى تحويل أي شيء. اقرأ المزيد في قسم Beamforming. من السهل رؤيته:

يسجل ميكروفون غير مركز (الصورة اليسرى) جميع الأصوات من جميع الاتجاهات ، وليس فقط الصوت الذي تحتاجه.
من أين تأتي المجموعة الرائعة؟ في الصورة الصحيحة ، يستمع الميكروفون بانتباه إلى مصدر واحد فقط. كما لو كان التركيز ، فإنه يتلقى إشارة من مصدر محدد فقط ، وليس فوضى من مصادر محتملة للضوضاء ، ويتم ببساطة تضخيم الإشارة النقية (بصوت أعلى) دون استخدام تقنيات الحد من الضوضاء المتطورة. قليلا مثل لسان الحال ، ولكن على الجر غير اللامع.
ما هو الخطأ في الحد من الضوضاء؟
عند تطبيق الحد من الضوضاء المعقدة ، يعني الكثير من العيوب أن جزءًا من الإشارة سيختفي ، جنبًا إلى جنب مع جزء من الإشارة ، سيتغير الصوت ، ومن خلال الأذن يبدو وكأنه لون مميز للصوت مع تقليل الضوضاء ونتيجة لعدم الوضوح. إن عدم الوضوح هذا مرئي للمتحدثين بالروسية الذين يرغبون في سماع هذه الهسهسة من المحاور. حسنًا ، بالإضافة إلى ذلك - نتيجة للحد من الضوضاء ، لا يسمع المستمع أي إشارات تعريف تربطه بالمحاور (التنفس ، الشم ، الضوضاء الأخرى المصاحبة للخطاب المباشر). هذا يخلق بعض المشاكل ، لأنه في الكلام العامي يتم سماع كل هذا ، ويساعد فقط على تقييم حالة ومحاور المحاور تجاهك. غيابها (الضجيج) بينما نسمع الصوت يسبب أحاسيس غير سارة ويقلل من مستوى الإدراك والفهم والتعرف. حسنًا ، إذا كان المساعد الصوتي يستمع إليك ، فإن تقليل الضوضاء يجعل من الصعب التعرف على كل من العبارة الرئيسية والكلام بعد ذلك. صحيح ، هناك اختراق للحياة - تحتاج إلى تدريب أداة التعرف على عينة مسجلة مع مراعاة التشوهات الناتجة عن تقليل الضوضاء المستخدم.
أولئك الذين هم على دراية بالكلمات مشكلة حفل كوكتيل لا يزال بإمكانهم الذهاب لتناول القهوة أو كوكتيل ، وإجراء تجربة ميدانية ، أولئك الذين لديهم مزاج للقراءة ، يستمرون.

باختصار عن المتن الذي يعمل عليه:
DOA (تحديد الاتجاه ، وإذا أمكن ، توطين المصدر):
سأكون مختصراً ، لأن الموضوع واسع للغاية ، يتم ذلك بمساعدة السحر الأبيض أو الرمادي أو الداكن (اعتمادًا على الموضوع المفضل في IDE) وماتان. الرئيسي هناك طريقة متكررة للعب DOA وهي تحليل الارتباطات والأشياء الأخرى بين أزواج الميكروفونات (عادة ما يكون مقابل القطر).
الاختراق مدى الحياة: للبحث ، من الأفضل اختيار مصفوفة بترتيب دائري للميكروفونات. الفائدة هي أنه من السهل جمع الإحصائيات من أزواج ذات مسافات مختلفة بين الميكروفونات - الحد الأقصى للقطر ، والحد الأدنى بين الميكروفونات - إذا كنت تأخذ أزواج في الحبال ، وبأزواج (اتجاهات) مختلفة إلى المصدر.
تشكيل الشعاع - إن أبسط وأسهل طريقة لفهم - التأخير والمجموع (DAS و FDAS) - تشكيل الحزم على أساس التأخير والمجموع.
للمرئيات:

(مأخوذة من http://www.labbookpages.co.uk/audio/beamforming/delaySum.html )
الإختراق مدى الحياة: لا تنسى أطوال الموجات المختلفة ولكل تردد نحسب فرق الطور tn
سيبدو نمط الإشعاع التقريبي على هذا النحو

التفاصيل والصيغ
أولئك الذين لم ينسوا كيف يدخنون ماتان يمكن أن يشاركوا في JIO-RLS (المربعات الفرعية التكرارية المشتركة للفضاء الجزئي التكيفي). تشبه إلى حد كبير طعم أصل التدرج ، كما تعلم.

لذلك نلخص: باستخدام الطرق التقليدية ، من الصعب تحقيق جودة مماثلة لميكروفون المصفوفة. بعد تطبيق تعريف الاتجاه على المصدر ، ونتيجة لذلك ، نسمع فقط المصدر المطلوب ، نتخلص من ضجيج وصدى الوسط ، حتى الصوت الضعيف (تأثير Haas).
مساعد صوت - كيف يبدو في الداخل
إذن ، كيف يبدو مخطط معالجة الصوت لمساعد صوتي متمرس:

يتم تغذية الإشارة من مجموعة الميكروفونات إلى جهاز نشكل فيه شعاعًا إلى مصدر صوت (تكوين الشعاع) ، وبالتالي إزالة التداخل. ثم نبدأ في التعرف على صوت هذا الشعاع ، وعادةً لا يكون ذلك كافيًا للتعرف على موارد الجهاز عالية الجودة ، وغالبًا ما تنتقل الإشارة إلى السحابة للتعرف عليها (تختارها Microsoft و Google و Amazon).
سوف يلاحظ القارئ اليقظ: وفي الصورة مع الوصف يوجد نوع من مربع كلمة لا ، ولماذا لا يتم الاعتراف بها على الفور ، كما وعدت؟

لماذا يتم رسم هذا المربع الإضافي على الأرجح على الرسم التخطيطي؟
ولأنك تبث باستمرار إشارة من جميع مصادر الضوضاء إلى الإنترنت من أجل الاستماع الاعتراف بأي موارد ليست كافية. لذلك ، نبدأ في التعرف فقط عندما أدركوا أنهم يريدون ذلك منا بالتأكيد - ولهذا قالوا تعويذة خاصة - حسنًا Google أو Siri أو Alex ، أو اتصلوا بي بـ cortan. وغالبًا ما يكون مصنف الكلمات في برنامج التنبيه عبارة عن خلية عصبية ويعمل مباشرة على الجهاز. في بناء المصنف هناك أيضًا الكثير من الأشياء المثيرة للاهتمام ، ولكن اليوم ليس حول ذلك.
وفي الواقع ، يبدو المخطط كما يلي:

(خربشاتي)
يمكن تشكيل عدة أشعة على مصادر إشارة مختلفة ، ونحن نبحث عن كلمة خاصة في كل منها. ولكن بعد ذلك سنقوم بمعالجة الشخص الذي قال الكلمة الصحيحة.
الخطوة التالية هي الاعتراف في السحابة ، التي يتم تغطيتها بشكل متكرر على الإنترنت ، وهناك الكثير من الدروس عليها.
كيف يمكنك الانضمام إلى عطلة ماتانا هذه
أسهل طريقة لشراء لوحة مطورة. نظرة عامة على devboards الحالية: واحدة من الأكثر اكتمالاً - بواسطة مرجع .
الأكثر ودية للمبتدئين:
https://www.seeedstudio.com/ReSpeaker-4-Mic-Array-for-Raspberry-Pi-p-2941.html
https://www.seeedstudio.com/ReSpeaker-Mic-Array-v2-0-p-3053.html
على أساس XMOS XVF-3000.
أقوم بتطبيقه بنفسي
صنع كما أحب - FPGA مع واجهة مفتوحة تتحكم في ميكروفونات المصفوفة ، والتواصل معها عبر SDA.
مآخذي لعبور Android Things و Mic Array:
هناك بالتأكيد الكثير من الأمثلة على هذا المنتدى (الصوت) ، ولكن من المناسب بالنسبة لي استخدامه تحت الأشياء.
الحجج على الأشياء:
يمكنك بناء أداة مرنة وقوية:
- مريحة يمكنك استخدام الشاشة كجهاز منفصل
- يمكن استخدامها كجهاز بلا رأس ، أي إجراء تحويل عبر الشبكة (إنشاء واجهة برمجة تطبيقات للنقل إلى جهاز آخر)
- تصحيح مناسب
- العديد من المكتبات ، بما في ذلك الإرسال عبر الشبكة ؛
- أدوات التحليل - الكثير.
- وإذا بدا الأمر قليلاً ، فمن الممكن ربط مكتبات Sishnoy
على سبيل المثال ، أستخدم:
- تحليل ملف الصوت
- HRTF ،
- التدريب / مبنيو المصنفات.
ثم إذا كان عليك نقل / إعادة كتابة التعليمات البرمجية في نوع من التضمين ، فمن الأسهل إلى حد ما القيام بذلك باستخدام شفرة Java.
لسوء الحظ ، كان المثال من مؤلفي اللوحة لـ Things غير قابل للتشغيل قليلاً ، لذلك قمت بمشروعي التجريبي (بشكل طبيعي - يمكنني).
باختصار ، ما هو موجود - كل السحر الأسود لاستطلاع الميكروفونات بسرعة ، نقوم بعمل FFT في C ++ ، والتصور والتحليل وتفاعل الشبكة - في Java.
خطط التنمية المستقبلية
مصدر الخطط والإلهام في نفس الوقت: ODAS .

لذلك أريد أن أفعل الشيء نفسه ، فقط على الأشياء وبدون اخطاء.
- لأن ODAS غير مريح قليلاً للاستخدام.
- أحتاج إلى أداة عادية للعمل
- لأنني أستطيع وأنا أحب هذا الموضوع
- تتوافق أدوات الأجهزة المستخدمة مع تعقيد المهمة.
تعتمد خططي على هذا المستودع (الخاص بي) .
وتذكر
"إذا كان لديك شيء تكمله أو تنتقده ، فلا تتردد في الكتابة عنه في التعليقات ، لأن رأس واحد أسوأ من اثنين ، واثنين أسوأ من ثلاثة ، و n-1 أسوأ من n" nikitasius