صنع الموسيقى: عندما تتفوق الحلول البسيطة على التعلم العميق

أقدم إليكم ترجمة المقال "نحن نصنع الموسيقى: عندما تتفوق الحلول البسيطة على التعلم العميق في الفعالية" حول كيفية استخدام الذكاء الاصطناعي لإنشاء الموسيقى. لا يستخدم المؤلف الشبكات العصبية لتوليد الموسيقى ، ولكنه يقترب من المهمة القائمة على معرفة نظرية الموسيقى ، على أساس اللحن والانسجام. ميزة أخرى لهذه المقالة هي طريقة مقارنة الأعمال الموسيقية على أساس مصفوفات التشابه الذاتي. هذا النهج ، بالطبع ، ليس شاملاً ، لكنه مفيد كخطوة وسيطة لتوليد موسيقى عالية الجودة باستخدام أساليب التعلم الآلي.


أصبح استخدام الذكاء الاصطناعي في الإبداع اليوم شائعًا بشكل متزايد لأغراض الترفيه والتجارية ، وتوقف بالفعل عن دهشة الجمهور. من ناحية ، هذه أدوات لتغيير نمط صورة مثل بريزما. من ناحية أخرى ، تم بيع شبكة عصبية ، تم بيع منتجها كصورة في مزاد كريستي بمبلغ 432.5 ألف دولار. لا يسعنا إلا أن نتذكر أخصائينا المحلي في توليد الموسيقى باستخدام التعلم الآلي ، إيفان يامشيكوف ، الذي قدم مشروع الدفاع العصبي منذ عدة سنوات (يمكن العثور على مزيد من التفاصيل هنا ، وهذه مقابلة مع إيفان على خابر ). مثال جيد آخر على استخدام الشبكات العصبية لتوليد الموسيقى ، هو مقال "Do Androids Dream of Electric Punk؟" كيف قمت بتدريس الشبكة العصبية لكتابة الموسيقى "بواسطة Artezio .

بالإضافة إلى فهم نظرية التعلم الآلي ، فإن استخدام الذكاء الاصطناعي لحل المشكلات الإبداعية يتطلب أيضًا خبرة في المجال الفني. وهذا يجعل المشروع عند تقاطع المجالين متعدد الأوجه وممتع بشكل خاص ، لكنه أيضًا عرضة للنقد من جانبين ، لأنه يمكن أن يقع المشروع في تبادل لإطلاق النار من تعليقات نقاد الفن وعلماء البيانات.

توسيع آفاقي كجزء من موضوع استخدام الذكاء الاصطناعي في الموسيقى ، صادفت مقالًا "نحن نصنع الموسيقى: عندما تتفوق الحلول البسيطة على التعلم العميق في الكفاءة" ، الترجمة التي أود تقديمها إلى مجتمع Habr. واحدة من مزايا هذا المقال بالنسبة لي هي أن المؤلف لا يستخدم الشبكات العصبية كمربع أسود ، ولكنه يقترب من مهمة توليد الموسيقى على أساس معرفة نظرية الموسيقى ، على أساس اللحن والانسجام. في هذه المقالة ، لا يتم استخدام الشبكات العصبية المتكررة (RNN ، LSTM) أو شبكات الخصومة التوليدية (GANs) - كل هذه الطرق تعطي نتائج مذهلة (على سبيل المثال ، في مقالة "هل Androids يحلم Electric Pank؟ كيف قمت بتدريس الشبكة العصبية لكتابة الموسيقى" ) ، ونحن نستخدمها بنشاط في حل مشاكلنا في CleverData . أكد المؤلف على النماذج المستندة إلى سلاسل ماركوف التي تجعل من الممكن العمل مع احتمالات الانتقال من الحالة الحالية للعمل الموسيقي إلى التالي. تتميز الطرق المستخدمة من قبل المؤلف بميزة إضافية: لم يكن على المؤلف التضحية بتفسير النتيجة من أجل استخدام خوارزمية عصرية وشائعة.

ميزة أخرى لهذه المقالة التي لفتت انتباهي هي طريقة مثيرة للاهتمام لمقارنة الأعمال الموسيقية على أساس مصفوفات التشابه الذاتي. إذا كان يمكن تمثيل بنية الأغنية كمصفوفة للتشابه الذاتي ، فسيظهر مقياس كمي آخر لمقارنة الأغاني.


* * *


ملخص : كيف واجهت مشكلة ، واستخدام التعلم العميق لإنشاء الموسيقى ، وكيف حلها عن طريق التوصل إلى حل خاص بي.

خطة


التحدي : كيف واجهت مشاكل عند استخدام تقنيات التعلم العميق لإنشاء موسيقى البوب.
الحل : كيف صنعت آلة صنع الموسيقى الخاصة بي والتي يمكن أن تتنافس مع التعلم العميق ، ولكن بناءً على حلول أبسط.
التقييم : كيف أنشأت مقياس تقييم يمكن أن يثبت رياضيا أن موسيقاي "تشبه موسيقى البوب" أكثر من تلك التي تم إنشاؤها من خلال التعلم العميق.
التعميم : كيف وجدت طريقة لتطبيق حل المشاكل التي لا تتعلق بصنع الموسيقى.


الكرز على الكعكة


قمت بإنشاء نموذج احتمالي بسيط يولد موسيقى البوب. أيضا ، باستخدام المقاييس الموضوعية ، يمكنني أن أقول بثقة أن الموسيقى التي أنشأتها نموذجي أشبه بموسيقى البوب ​​أكثر من تلك التي تم إنشاؤها باستخدام تقنيات التعلم العميق. كيف فعلت هذا؟ لقد حققت ذلك جزئيًا من خلال التركيز على ما هو جوهر موسيقى البوب ​​بالنسبة لي: على العلاقة الإحصائية بين التناغم واللحن.

اللحن صوتي ، دافع. الوئام هو الحبال ، سلسلة من الحبال. على البيانو ، يتم لعب اللحن باليد اليمنى ، ولعب الانسجام مع اليسار.

مهمة


قبل الخوض في علاقتهم ، اسمحوا لي أولاً أن أوجز المشكلة. بدأ المشروع برغبتي في محاولة إنشاء موسيقى من خلال التعلم العميق - الذكاء الاصطناعي ، كما يطلق عليه الناس العاديون. لقد جئت بسرعة إلى LSTM (ذاكرة قصيرة المدى طويلة المدى) ، وهي واحدة من إصدارات الشبكة العصبية المتكررة (RNN) ، والتي تحظى بشعبية كبيرة لتوليد النصوص وصنع الموسيقى.

لكن كلما قرأت الموضوع ، بدأت أكثر في التشكيك في منطق استخدام RNN وأشكالها المختلفة لإنشاء موسيقى البوب. يبدو أن هذا المنطق يستند إلى عدة افتراضات حول البنية الداخلية للموسيقى (pop) ، والتي لم أوافق عليها تمامًا.

أحد الافتراضات المحددة هو وجود علاقة مستقلة بين الانسجام واللحن (للحصول على تعريف للاثنين ، انظر أعلاه).

على سبيل المثال ، ضع في اعتبارك منشور جامعة تورنتو 2017 أغنية من Pi: A Musical Plausible Network for Pop Music Generation (Han Chu et al.). في هذه المقالة ، يشير المؤلفون بوضوح إلى أن "الحبال لا تعتمد على اللحن" (مائل مائل). بناءً على هذا الافتراض ، قام المؤلفون ببناء نموذج RNN متعدد الطبقات معقد. يتم تحديد طبقة منفصلة للحن ، حيث يتم إنشاء الملاحظات (طبقة أساسية ، طبقة ضغط) ، مستقلة عن طبقة الوتر (طبقة الوتر). إلى جانب الاستقلال ، يفترض هذا النموذج المعين أن التناغم قائم على اللحن. بمعنى آخر ، يعتمد الانسجام على اللحن عند توليد الملاحظات.

نموذج RNN الذي اقترحه هان تشو. كل طبقة مسؤولة عن جانب منفصل من الموسيقى.

تبدو طريقة العرض هذه غريبة جدًا بالنسبة لي ، لأنها مختلفة تمامًا عن الطريقة التي يتبعها الناس في كتابة موسيقى البوب. كعازف بيانو لمدرسة كلاسيكية ، لم أفكر أبدًا في تأليف لحن دون الإشارة إلى الانسجام أولاً. يحدد الانسجام ويقطع اللحن. لقد أثبت "محور الرعب" في مقطع الفيديو الفيروسي الخاص به منذ فترة طويلة صحة هذه الفكرة.


يوضح هذا الفيديو الميزة الرئيسية لموسيقى البوب ​​الغربية: هذا الانسجام ، تؤثر هذه الحبال الأربعة بقوة على ما سيكون عليه اللحن في النهاية. في لغة علوم البيانات ، يتحكم الاحتمال الشرطي ويحدد العلاقة الإحصائية بين التناغم واللحن. يحدث هذا لأن ملاحظات اللحن تعتمد بشكل طبيعي على ملاحظات الانسجام. وبالتالي ، يمكن القول أن ملاحظات التناغم تشير بطبيعتها إلى أي ملاحظات لحنية يمكن اختيارها في أغنية معينة.

قرار


أحب أن أجد الحلول الأصلية للمشاكل المعقدة. لذلك ، قررت بناء نموذجي الخاص ، والذي يمكن أن يعكس بطريقته الخاصة البنية الغنية للبيانات الموسيقية. لقد بدأت بالتركيز على قوة احتمالية محددة مسبقًا تحكم العلاقة بين أنواع مختلفة من النوتات الموسيقية. على سبيل المثال ، ذكرت أعلاه العلاقة "الرأسية" بين الانسجام واللحن.

(معالجة) البيانات


نظرًا لأن البيانات التي استخدمتها 20 من أغاني البوب ​​الغربية المختلفة بتنسيق midi (يمكن العثور على قائمة كاملة بالأغاني هنا ).

باستخدام مكتبة music21 python ، قمت بتحليل ملفات midi باستخدام سلسلة Markov. هذا سمح لي بتسليط الضوء على العلاقات الإحصائية بين أنواع مختلفة من الملاحظات في المدخلات الخاصة بي. على وجه الخصوص ، حسبت احتمالات الانتقال لملاحظاتي الموسيقية. في جوهره ، هذا يعني أنه من خلال مراقبة انتقال الملاحظات من واحدة إلى أخرى ، يمكننا حساب احتمال حدوث هذا الانتقال. (شرح أكثر تفصيلا أدناه)

ميدي: نسخة رقمية للأغنية

أولاً ، استخلصت الاحتمالات "الرأسية" للانتقال بين مذكرات التناغم وملاحظات اللحن. لقد حسبت أيضًا جميع احتمالات الانتقال "الأفقية" بين ملاحظات اللحن وفقًا لمجموعة البيانات. لقد أجريت هذا الإجراء لملاحظات الانسجام. يعرض الجدول أدناه مثالًا على ثلاثة مصفوفات انتقال مختلفة بين أنواع مختلفة من الملاحظات في بيانات الموسيقى.

خيارات الانتقال ، الخيارات. العلوي - بين ملاحظات الانسجام واللحن. الأوسط - بين ملاحظات اللحن. أقل - بين مذكرات الانسجام.

نموذج


بناءً على نماذج الاحتمالات الثلاثة هذه ، سيعمل نموذجي على النحو التالي:

  1. يختار مذكرة الوئام التعسفي المتاحة ؛
  2. تحديد ملاحظة ميلودي بناءً على ملاحظة تناغم باستخدام المصفوفة الاحتمالية الأولى ؛
  3. تحديد ملاحظة اللحن استنادًا إلى ملاحظة اللحن السابقة ، وفقًا لمصفوفة الاحتمال الثانية ؛
  4. كرر الخطوة 3 حتى تصل إلى نهاية معينة ؛
  5. يختار ملاحظة جديدة للتناغم ، بالاعتماد على الملاحظة السابقة للتناغم ، باستخدام مصفوفة الاحتمال الثالثة ؛
  6. كرر الخطوات من 1-4 حتى يصل إلى الاكتمال.



مثال محدد لتطبيق الخوارزمية:

  1. حدد البرنامج ملاحظة التوافقية (F).
  2. تحتوي هذه الملاحظة على 4 أشكال مختلفة من ملاحظات اللحن. باستخدام المصفوفة الانتقالية الأولى ، يختار النظام الملاحظة (C) ، بالنظر إلى الاحتمال الكبير لاستخدامها (24.5 ٪).
  3. تذهب هذه الملاحظة (C) إلى المصفوفة الانتقالية الثانية ، حيث توقف التحديد على الملاحظة اللحنية (A) ، استنادًا إلى ترددها (88٪).
  4. سيتم تكرار الخطوة 3 حتى تصل العملية إلى نقطة نهاية محددة مسبقًا ؛
  5. تحدد ملاحظة الانسجام (F) ، التي تشير إلى المصفوفة الاحتمالية الثالثة ، الملاحظة التوافقية التالية. سيكون إما (F) أو (C) ، بالنظر إلى التشابه بينهما.
  6. سيتم تكرار الخطوات 1-4 حتى تكتمل العملية.

يمكنك هنا الاستماع إلى مثال لموسيقى البوب ​​التي تم إنشاؤها بهذه الطريقة:



تقييم


هذا هو المكان الذي يبدأ الجزء الصعب - كيفية تقييم نماذج مختلفة. في النهاية ، تشير مقالتي إلى أن الاحتمالات البسيطة يمكن أن تكون أكثر فائدة من الشبكات العصبية. ولكن كيف يمكننا تقييم الفرق بين النموذج الخاص بي والطراز الذي تبنيه شبكة عصبية؟ كيف يمكننا أن نقول بشكل موضوعي أن موسيقاي تشبه موسيقى البوب ​​أكثر من الموسيقى التي كتبها منظمة العفو الدولية؟

للإجابة على هذا السؤال ، يجب علينا أولاً تحديد ماهية موسيقى البوب. لقد سبق لي أن عبرت عن التعريف الأول: العلاقة الإحصائية بين الانسجام واللحن. ولكن هناك عاملاً محددًا آخر في موسيقى البوب ​​- حيث يتم تمييزها بوضوح ، بداية ، منتصف ، نهاية الأغنية (مقدمة ، الاثنان ، الجسر ، الجوقة ، الإكمال ، إلخ) ، تتكرر طوال الأغنية.

على سبيل المثال ، من المرجح أن يتم العثور على السطر "Let it go ، دعه يذهب ، لا يمكن إيقافه بعد الآن ..." في الجزء الأوسط منه في النهاية أو البداية. وسوف تتكرر ثلاث مرات أثناء الأغنية.

مع وضع ذلك في الاعتبار ، يمكننا اللجوء إلى ما يسمى مصفوفة التشابه الذاتي. ببساطة ، مصفوفة التشابه الذاتي تعبر رياضيا عن بداية ، منتصف ، نهاية الأغنية. يوجد أدناه مصفوفة الأغنية Falling Slowly من الفيلم مرة واحدة.


يمثل كل مقطع صغير ملاحظة. كل كتلة كبيرة في 45 درجة يمثل جزء من الأغنية.

تمثل المجموعة المظلمة الأولى بداية الأغنية ، بينما تمثل المجموعة الصفراء التالية الجزء التالي من الأغنية. تتشابه المجموعتان الأولى والثالثة في اللون ، حيث إنها متشابهة مع بعضها ، بالإضافة إلى الثانية والرابعة.

راجعت عشرون أغنية بوب بهذه الطريقة ثم قمت بإنشاء نسخة آلية (قدر الإمكان) من هياكلها.

النتائج


النتائج تتحدث عن نفسها. قبل استخدام مصفوفة التشابه الذاتي ، أنتج برنامجي الأصوات دون بنية داخلية متكررة. ومع ذلك ، بعد نسخ بنية البيانات المصدر ، بدأت موسيقاي تبدو كما يلي:

قبل وبعد تطبيق مصفوفة التشابه الذاتي

قارن مع مصفوفة التشابه الذاتي للموسيقى التي أنشأتها شبكة عصبية في جامعة تورونتو:


هذه هي الطريقة التي يمكن بها مقارنة النماذج المختلفة وتقييمها - استنادًا إلى مصفوفات التشابه الذاتي الخاصة بهم!


تعميم


كان الجزء الأخير من المهمة التي حددتها لنفسي هو التعميم. أعني بهذه الكلمة: كيف يمكننا أن نجعل نموذجي عالميًا ، استنادًا إلى بيانات الإدخال ، بحيث يمكن تطبيقه على مواقف أخرى لا تتعلق بتوليد موسيقى البوب؟ بمعنى آخر ، هل هناك شيء آخر يشبه هيكلي مولد البوب ​​الخاص بي؟

بعد تفكير كثير ، أدركت أن هناك اختراعًا آخر للإنسانية ، مشابهًا في البنية - كلمات أغاني البوب!

على سبيل المثال ، إليك مقتطف من كتاب "سأكون إدوارد ماكين":

سأكون كتف بكاء
سأكون حب الانتحار
سأكون أفضل عندما أكبر
سأكون أعظم معجبين في حياتك

سنقوم بتحليل العظام باستخدام نفس تقنيات التعلم الآلي. يمكننا اعتبار كلمة "سأكون" الكلمة الأولى في نموذج اللغة. سيتم استخدامه لإنشاء "خاصتك" ، الذي يخرج منه "البكاء" ، من حيث يظهر "الكتف" بالفعل.


ثم يطرح سؤال مهم للغاية: هل تعتمد الكلمة الأولى من الجملة التالية على الكلمة الأخيرة من السابقة؟ بمعنى آخر ، هل هناك علاقة بين الكلمة الأخيرة من جملة واحدة والأولى من التالية؟

أعتقد أن الجواب هو لا. تنتهي الجملة بـ "كتف" ، وتبدأ الجملة التالية بتكرار الأولى - "سأكون". هذا يرجع إلى حقيقة أن الكلمات الأولى من كل جملة تتكرر عن قصد ، مما يعني أن هناك علاقة مشروطة مماثلة بين الكلمات الأولى من كل جملة. تصبح هذه الكلمات الأولى نقطة الزناد لتسلسل الكلمات التالية.



أعتقد أن هذا اكتشاف مذهل. يبدو أن كلا من موسيقى البوب ​​وكلمات الأغاني لها بنية داخلية تعتمد على المحتوى. حقا عظيم؟

شاهد المشروع على جيثب

* * *


بالطبع ، لا يمكن اعتبار النهج المقترح في المادة شاملًا. بشكل منفصل ، تجدر الإشارة إلى أن أساليب العمل مع النصوص تشهد الآن تطوراً وتتطور بشكل نشط ، وبالتالي فإن نظرة المؤلف على كلمات الأغاني لن تفاجئ متخصصي البرمجة اللغوية العصبية (NLP). ومع ذلك ، تبدو المقالة الأصلية للمؤلف بمثابة خطوة وسيطة مفيدة لإنشاء موسيقى عالية الجودة باستخدام أساليب التعلم الآلي.

في الآونة الأخيرة ، تم تقديم عدد من التطبيقات القائمة على الشبكات العصبية التي تولد الموسيقى لعامة الناس. على سبيل المثال ، من الممكن إنشاء موسيقى تكنو على الموقع: eternal-flow.ru . يقدم مؤلف الحل أيضًا تطبيقًا محمولًا لتوليد الموسيقى. يوجد تطبيق آخر لتوليد الموسيقى على الأجهزة المحمولة: mubert.com . ويكرس حل مثير للاهتمام لهذا النوع أكثر ديناميكية المعادن الموت. يقوم مؤلفوها DadaBots ببث دفق مستمر من الموسيقى الناتجة عن شبكة عصبية . في الوقت نفسه ، لا تتوقف DadaBots عن هناك وتفتح للموسيقى الاصطناعية العامة بأسلوب موسيقى الروك التقدمي . وبالطبع ، لا يمكن للمرء أن يتجاهل نتائج OpenAI ، التي تقدم لكل من يريد تجربة الموسيقى في إطار من النوع الواسع من Mozart إلى The Beatles. على openai.com ، يمكنك الاستماع إلى كيف كان موضوع هاري بوتر قد بدا في أسلوب فرانك سيناترا أو بيوتر إيليتش تشايكوفسكي.

يعطي نجاح الشبكات العصبية الحديثة في توليد الموسيقى الأمل في أن الذكاء الاصطناعي في المستقبل القريب سيكون قادرًا على التنافس على قدم المساواة مع البشر في منطقة أخرى إلى جانب Go و Dota2. ربما يحالفنا الحظ في الارتقاء إلى مستوى اللحظة التي يمكن فيها لمرشح من الشبكات العصبية التحدث في يوروفيجن والتنافس مع المشاركين في الجلود للفوز.

يمكن العثور على وظائف مجموعة شركات LANIT هنا.

Source: https://habr.com/ru/post/ar455742/


All Articles