تصميم الموسيقى مع الشبكات العصبية


على مدى العقد الماضي ، أصبحت الشبكات العصبية العميقة (DNNs) أداة ممتازة لعدد من مهام الذكاء الاصطناعي مثل تصنيف الصور والتعرف على الكلام وحتى المشاركة في الألعاب. بينما حاول المطورون إظهار سبب نجاح DNN في مجال تصنيف الصور ، وإنشاء أدوات تصور (على سبيل المثال ، Deep Dream ، مرشحات) تساعد على فهم "ما" بالضبط "يدرس" نموذج DNN ، نشأ تطبيق جديد مثير للاهتمام. : استخراج "النمط" من صورة ما وتطبيقه على محتوى آخر مختلف. وهذا ما يسمى "نقل نمط الصورة".



اليسار: صورة ذات محتوى مفيد ، في المنتصف: صورة ذات نمط ، يمين: content + style (المصدر: مدونة أبحاث Google )


لم يؤد هذا إلى إثارة اهتمام العديد من الباحثين الآخرين (على سبيل المثال ، 1 و 2 ) ، ولكنه أدى أيضًا إلى ظهور العديد من تطبيقات الهاتف المحمول الناجحة. على مدى العامين الماضيين ، تحسنت طرق نقل النمط البصري بشكل كبير.



التفاف نمط Adobe (المصدر: Engadget )



مثال من موقع بريزما


مقدمة قصيرة لهذه الخوارزميات:



ومع ذلك ، على الرغم من التقدم في العمل مع الصور ، فإن تطبيق هذه التقنيات في مجالات أخرى ، على سبيل المثال ، لمعالجة الموسيقى ، كان محدودًا جدًا (انظر 3 و 4 ) ، والنتائج ليست مثيرة للإعجاب كما في حالة الصور. يشير هذا إلى صعوبة نقل النمط في الموسيقى. في هذه المقالة ، سوف ندرس المشكلة بمزيد من التفصيل ونناقش بعض الأساليب الممكنة.


لماذا من الصعب نقل النمط في الموسيقى؟


دعونا أولاً نجيب على السؤال: ما هو "نقل النمط" في الموسيقى ؟ الجواب ليس واضحا جدا. في الصور ، مفهومي "المحتوى" و "النمط" بديهيان. يصف "محتوى الصورة" الكائنات الممثلة ، على سبيل المثال ، الكلاب والمنازل والوجوه وما إلى ذلك ، ويشير "نمط الصورة" إلى الألوان والإضاءة وحدود الفرشاة والملمس.


ومع ذلك ، فإن الموسيقى مجردة دلالة ومتعددة الأبعاد في الطبيعة. يمكن أن يعني "محتوى الموسيقى" أشياء مختلفة في سياقات مختلفة. في كثير من الأحيان ، ترتبط محتويات الموسيقى بلحن ، والأسلوب بترتيب أو تنسيق. ومع ذلك ، قد تكون المحتويات هي كلمات الأغاني ، ويمكن تفسير الألحان المختلفة المستخدمة في الغناء على أنها أنماط مختلفة. في الموسيقى الكلاسيكية ، يمكن اعتبار المحتوى النتيجة (التي تتضمن التنسيق) ، في حين أن النمط هو تفسير الملاحظات من قبل المؤدي ، الذي يجلب تعبيره الخاص (يتغير ويضيف بعض الأصوات من نفسه). لفهم جوهر نقل النمط في الموسيقى بشكل أفضل ، تحقق من مقطعي الفيديو التاليين:




في الفيديو الثاني ، يتم استخدام تقنيات التعلم الآلي المختلفة.


لذا ، من الصعب إضفاء الطابع الرسمي على نقل الأسلوب في الموسيقى. هناك عوامل رئيسية أخرى تعقد المهمة:


  1. الآلات BAD تفهم الموسيقى (في الوقت الحالي): النجاح في نقل النمط في الصور ينبع من نجاح DNN في المهام المتعلقة بفهم الصور ، مثل التعرف على الكائنات. نظرًا لأن DNNs يمكنها التعرف على الخصائص التي تختلف عبر الكائنات ، يمكن استخدام تقنيات الانتشار العكسي لتعديل الصورة المستهدفة لتتناسب مع خصائص المحتوى. على الرغم من أننا حققنا تقدمًا كبيرًا في إنشاء نماذج قائمة على DNN قادرة على فهم المهام الموسيقية (على سبيل المثال ، نسخ الألحان ، وتحديد النوع ، وما إلى ذلك) ، إلا أننا ما زلنا بعيدين عن الارتفاعات التي تحققت في معالجة الصور. هذه عقبة خطيرة تحول دون انتقال الأسلوب في الموسيقى. لا يمكن أن تتعلم النماذج الحالية ببساطة الخصائص "الممتازة" التي تسمح بتصنيف الموسيقى ، مما يعني أن التطبيق المباشر لخوارزميات نقل النمط المستخدمة عند العمل مع الصور لا يعطي نفس النتيجة.
  2. الموسيقى عابرة : إنها بيانات تمثل سلسلة ديناميكية ، أي أن قطعة موسيقية تتغير بمرور الوقت. هذا يعقد التعلم. على الرغم من أن الشبكات العصبية المتكررة و LSTM (ذاكرة قصيرة المدى طويلة) تتيح لك معرفة المزيد من البيانات العابرة ، لا يزال يتعين علينا إنشاء نماذج موثوقة يمكنها تعلم كيفية إعادة إنتاج بنية الموسيقى على المدى الطويل (ملاحظة: هذا مجال فعلي للبحث ، وعلماء من فريق Google حققت أرجواني بعض النجاح في هذا ).
  3. الموسيقى منفصلة (على الأقل على المستوى الرمزي): رمزية ، أو الموسيقى المسجلة على الورق ، منفصلة في طبيعتها. في مزاج موحد ، نظام ضبط الآلات الموسيقية الأكثر شيوعًا اليوم ، تحتل نغمات الصوت مواقف منفصلة على مقياس تردد مستمر. في نفس الوقت ، تكمن مدة النغمات أيضًا في مساحة منفصلة (عادة ربع نغمات ، نغمات كاملة وما إلى ذلك). لذلك ، من الصعب جدًا تكييف طرق الانتشار الخلفي بالبكسل (المستخدمة للعمل مع الصور) في مجال الموسيقى الرمزية.


الطبيعة المنفصلة للنوتات الموسيقية في مزاج موحد.


لذلك ، فإن التقنيات المستخدمة لنقل النمط في الصور لا تنطبق مباشرة على الموسيقى. للقيام بذلك ، يجب معالجتها مع التركيز على المفاهيم والأفكار الموسيقية.


ما هو نقل النمط في الموسيقى؟


لماذا تحتاج لحل هذه المشكلة؟ كما هو الحال مع الصور ، فإن الاستخدامات المحتملة لنقل النمط في الموسيقى مثيرة للاهتمام للغاية. على سبيل المثال ، تطوير أداة لمساعدة الملحنين . على سبيل المثال ، ستكون أداة آلية قادرة على تحويل اللحن باستخدام ترتيبات من أنواع مختلفة مفيدة للغاية للملحنين الذين يحتاجون إلى تجربة أفكار مختلفة بسرعة. سوف يهتم دي جي أيضا بهذه الآلات.


ستكون النتيجة غير المباشرة لمثل هذا البحث تحسنًا كبيرًا في أنظمة المعلوماتية الموسيقية. كما هو موضح أعلاه ، من أجل نقل الأسلوب للعمل في الموسيقى ، يجب أن تتعلم النماذج التي أنشأناها لفهم الجوانب المختلفة بشكل أفضل.


تبسيط مهمة نقل النمط في الموسيقى


لنبدأ بمهمة بسيطة للغاية تتمثل في تحليل الألحان أحادية الصوت في أنواع مختلفة. الألحان أحادية الصوت هي سلسلة من الملاحظات ، يتم تحديد كل منها من خلال النغمة والمدة. يعتمد تقدم درجة الصوت في الجزء الأكبر على مقياس اللحن ، ويعتمد تقدم المدة على الإيقاع. لذا أولاً ، نفصل بوضوح بين " محتوى العرض التقديمي" و "النمط الإيقاعي" ككيانين يمكنك من خلالهما إعادة صياغة مهمة نقل النمط. أيضًا ، عند العمل مع الألحان أحادية الصوت ، سنتجنب الآن المهام المرتبطة بالترتيب والنص.


في حالة عدم وجود نماذج مدربة مسبقًا يمكنها التمييز بنجاح بين تقدم النغمات وإيقاعات الألحان أحادية الصوت ، فإننا نلجأ أولاً إلى نهج بسيط للغاية لنقل الأسلوب. بدلاً من محاولة تغيير محتوى النغمة التي تم تعلمها على اللحن المستهدف مع النمط الإيقاعي الذي تم تعلمه على الإيقاع المستهدف ، سنحاول بشكل فردي لتعليم أنماط النغمات ومدتها من أنواع مختلفة ، ثم نحاول دمجها. المخطط التقريبي للنهج:



مخطط طريقة نقل النمط بين الأجناس.


نقوم بتدريس النغمة والإيقاعات بشكل منفصل


عرض البيانات


سنقدم ألحانًا أحادية الصوت كسلسلة من النوتات الموسيقية ، لكل منها مؤشر نغمة وتسلسل. من أجل أن يكون مفتاح العرض التقديمي الخاص بنا مستقلاً ، سنستخدم العرض التقديمي بناءً على فواصل زمنية: سيتم تقديم نغمة الملاحظة التالية على أنها انحراف (نصف نغمة) عن نغمة الملاحظة السابقة. دعنا ننشئ قواميس للنغمات والمدد التي يتم فيها تعيين مؤشر لكل حالة منفصلة (للنغمة: +1 ، -1 ، +2 ، -2 ، وما إلى ذلك ؛ للمدد: ربع سنوي ، ملاحظة كاملة ، ربع مع نقطة ، وما إلى ذلك) فهرس القاموس.



عرض البيانات.


معمارية النموذج


سنستخدم نفس البنية التي استخدمها كولومبو وزملاؤه - قاموا في نفس الوقت بتدريس شبكتين عصبيتين من نوع LSTM لنفس النوع الموسيقي: والمدة السابقة. أيضًا ، قبل شبكات LSTM ، سنضيف طبقات التضمين لمقارنة مؤشرات نغمات الإدخال والمدد في مساحات التضمين المحفوظة. تظهر بنية الشبكة العصبية في الصورة:



إجراءات التدريب


لكل نوع ، يتم تدريب الشبكات المسؤولة عن النغمات والأوقات في نفس الوقت. سنستخدم مجموعتي بيانات: أ) مجموعة بيانات نوربيك الشعبية ، التي تغطي حوالي 2000 من الألحان الشعبية الأيرلندية والسويدية ، ب) مجموعة بيانات الجاز (غير متاحة للجمهور) ، والتي تغطي حوالي 500 لحن موسيقى الجاز.


دمج النماذج المدربة


أثناء الاختبار ، يتم إنشاء اللحن أولاً باستخدام شبكة النغمة وشبكة المدة المدربة في النوع الأول (على سبيل المثال ، الشعبية). ثم يتم استخدام تسلسل النغمات من اللحن الناتج عند الإدخال لشبكة من التسلسلات المدربة على نوع آخر (على سبيل المثال ، موسيقى الجاز) ، والنتيجة هي تسلسل جديد من الفترات. لذلك ، فإن اللحن الذي تم إنشاؤه باستخدام مزيج من شبكتين عصبيتين له سلسلة من النغمات المقابلة للنوع الأول (قوم) وتسلسل لفترات تقابل النوع الثاني (موسيقى الجاز).


النتائج الأولية


مقتطفات قصيرة من بعض النغمات الناتجة:
النغمات الشعبية والمدد الشعبية



مقتطف من النوتة الموسيقية.


النغمات الشعبية ومدد الجاز



مقتطف من النوتة الموسيقية.


نغمات الجاز وتسلسلات الجاز



مقتطف من النوتة الموسيقية .


نغمات الجاز والتسلسلات الشعبية



مقتطف من النوتة الموسيقية.


الخلاصة


على الرغم من أن الخوارزمية الحالية ليست سيئة في البداية ، إلا أنها تحتوي على عدد من العوائق الحرجة:


  1. من المستحيل "نقل النمط" بناءً على اللحن المستهدف المحدد . تتعلم النماذج أنماط النغمات والأوقات في النوع ، مما يعني أن جميع التحولات يتم تحديدها حسب النوع. سيكون من المثالي تعديل مقطوعة موسيقية بأسلوب أغنية أو قطعة مستهدفة محددة.
  2. ليس من الممكن التحكم في درجة تغيير النمط. سيكون من المثير للاهتمام للغاية الحصول على "مقبض" يحكم هذا الجانب.
  3. عند دمج الأنواع ، من المستحيل الحفاظ على البنية الموسيقية في لحن متحول. البنية طويلة المدى مهمة للتقييم الموسيقي بشكل عام ، ولأن تكون الألحان المولدة جمالية موسيقية ، يجب الحفاظ على الهيكل.

في المقالات المستقبلية ، سوف ننظر في طرق للتغلب على هذه العيوب.

Source: https://habr.com/ru/post/ar409697/


All Articles