في دورات التعلم الآلي في
Artezio ، قابلت نموذجًا تعليميًا يمكن أن يصنع الموسيقى. الموسيقى هي جزء أساسي من حياتي ، ولعبت لسنوات عديدة في مجموعات (موسيقى البانك روك ، الريغي ، الهيب هوب ، موسيقى الروك ، إلخ) وأنا مستمع متعصب.
لسوء الحظ ، العديد من المجموعات ، التي كنت من المعجبين بها في شبابي ، انفصلت لأسباب متعددة. أو أنهم لم ينفصلوا ، لكن ما يسجلونه الآن ... بشكل عام ، سيكون من الأفضل إذا انفصلوا.
كنت أشعر بالفضول إذا كان هناك الآن نموذج جاهز يمكن أن يتعلم على مسارات إحدى مجموعاتي المفضلة ويؤلف مقطوعات مشابهة. نظرًا لأن الموسيقيين أنفسهم لم يعدوا ناجحين للغاية ، فربما يمكن للشبكة العصبية التعامل معهم؟
المصدردراسة النماذج النهائية ، سرعان ما عثرت على
مثل هذه المقالة مع لمحة عامة عن الخيارات الستة الأكثر شهرة. إنه ، بالطبع ، يتعلق بتنسيقات الموسيقى الرقمية. يمكن أن نرى من المقال أنه يمكن التمييز بين نهجين رئيسيين في توليد الموسيقى: استنادًا إلى دفق الصوت الرقمي (الصوت الذي نسمعه من السماعات - الصوت الخام وملفات wav) وعلى أساس العمل مع MIDI (تدوين موسيقي).
لقد أسقطت الخيارات بصوت خام ، ولهذا السبب.
- النتائج ليست مثيرة للإعجاب - استخدام مثل هذه النماذج للموسيقى متعددة الألحان يعطي نتيجة محددة للغاية. هذا غير عادي ، يمكنك إنشاء لوحات مثيرة للاهتمام ، لكنها ليست مناسبة لأغراضي: تبدو غريبة ، لكنني أردت أن أسمع شيئًا مماثلاً للنسخة الأصلية.
المصدرمثال جيد على موسيقى البيانو:
ومع موسيقى الأوركسترا أو موسيقى الروك ، يبدو الأمر أكثر غرابة:
هنا حاول الرجال معالجة Black Metal وليس فقط في الصوت الخام.
- في مؤلفات فرقتي المفضلة ، توجد العديد من الآلات الصوتية - غناء ، براميل ، جهير ، جيتار ، توليف. يبدو كل أداة جنبا إلى جنب مع الباقي. أنا أبحث عن نموذج من شأنه أن يعمل بنفس الطريقة ، أي أنه لن يعمل فقط مع الأدوات الفردية ، ولكن أيضاً يأخذ في الاعتبار صوتهم المشترك.
عندما يحتاج موسيقي إلى تعلم جزء من أداة ما عن طريق الأذن ، يحاول عزل الأداة التي يحتاجها من مجرى الصوت بأكمله. ثم يكرر صوته حتى يحقق نتيجة مماثلة. ليست المهمة أسهل حتى بالنسبة لشخص يتمتع بسمع جيد - فالموسيقى قد تكون صعبة ، والأدوات "تندمج".
المصدرصادفت أدوات برمجية حاولت حل مشكلة مماثلة. هناك العديد من المشاريع التي تقوم بذلك بناءً على التعلم الآلي. على سبيل المثال ، أثناء كتابة هذا النص ، أصدرت Magenta أداة جديدة ، Wave2Midi2Wave ، قادرة على "التقاط" ملاحظات البيانو و "إعادة تشغيلها" بشكل واقعي. هناك أدوات أخرى ، على الرغم من أن هذه المهمة بشكل عام لم يتم حلها بعد.
لذلك ، من أجل تعلم جزء من العمل ، من الأسهل تدوين الملاحظات الجاهزة. هذه هي أسهل طريقة. من المنطقي أن نفترض أنه سيكون من الأسهل على الشبكات العصبية أن تعمل مع التمثيل الموسيقي للموسيقى ، حيث يتم تمثيل كل أداة بمسار منفصل.
- في حالة الصوت الخام ، تكون النتيجة عبارة عن مزيج من جميع الأدوات ، ولا يمكن تحميل الأجزاء بشكل فردي في جهاز التسلسل (محرر الصوت) ، وتصحيحها ، وتغيير الصوت ، وما إلى ذلك. أنا سعيد جدًا إذا قامت الشبكة العصبية بتكوين أغنية ناجحة ، لكنها ارتكبت خطأً في بضع ملاحظات - عند التعامل مع الملاحظات ، يمكنني تصحيحها بسهولة ، باستخدام الصوت الخام ، هذا أمر شبه مستحيل.
تدوين الموسيقى لديها أيضا عيوبها. لا يأخذ بعين الاعتبار كتلة الفروق الدقيقة في الأداء. عندما يتعلق الأمر بـ MIDI ، فليس من المعروف دائمًا من كانت ملفات MIDI هذه ، ومدى قربها من الأصل. ربما ارتكب المترجم خطأ ، لأنه ليس من السهل "إزالة" اللعبة.
عند العمل على الملاحظات متعددة الألحان ، من الضروري التأكد من تناغم الأدوات في أي وقت. بالإضافة إلى ذلك ، من المهم أن يكون تسلسل هذه اللحظات منطقيًا من وجهة نظر الإنسان.
اتضح أنه لا يوجد الكثير من الحلول التي يمكن أن تعمل مع الملاحظات ، وحتى ليس مع أداة واحدة ، ولكن مع العديد من السبر في نفس الوقت. لقد تجاهلت في البداية مشروع Magenta من Google TensorFlow ، لأنه تم وصفه بأنه "غير مجسم". في ذلك الوقت ، لم تنشر مكتبة MusicVAE بعد ، لذلك استقرت على مشروع BachBot.
المصدرباخبوت
اتضح أن الحل لمشكلتي موجود بالفعل. الاستماع إلى
عيد ميلاد سعيد ضبطها BachBot وتبدو وكأنها رقصة باخ.
كورال هي موسيقى محددة ، وتتكون من أربعة أصوات: السوبرانو ، فيولا ، تينور وباس. يمكن لكل أداة إنتاج ملاحظة واحدة في وقت واحد. هنا عليك أن تذهب أعمق قليلا في الموسيقى. سنتحدث عن الموسيقى في بعد أربعة أرباع.
في التدوين الموسيقي ، تحتوي المذكرة على مؤشرين - درجة (إلى ، إعادة ، ميل ...) والمدة (عدد صحيح ، نصف ، الثامن ، السادس عشر ، الثانية والثلاثون). وفقًا لذلك ، تدوم الملاحظة بأكملها إيقاعًا كاملاً ، وتلاحظ نصفين إيقاعًا كاملاً ، وستة عشر عشرًا إجمالاً.
عند إعداد البيانات لتدريب الشبكة العصبية ، أخذ واضعو BachBot في الاعتبار ما يلي:
- من أجل عدم هدم النموذج بالحبال من مفاتيح مختلفة ، والتي لن تبدو متناغمة معًا ، أدت جميع chorales إلى نفس المفتاح ؛
- يجب تزويد الشبكة العصبية بقيم منفصلة ، والموسيقى هي عملية مستمرة ، مما يعني أن التقدير ضروري. يمكن لآلة موسيقية أن تلعب دورًا طويلًا بالكامل ، والآخر في نفس الوقت ستة عشر سادسًا. لحل هذه المشكلة ، تم تقسيم جميع الملاحظات إلى ستة عشر. بمعنى آخر ، إذا حدثت ملاحظة رابعة في الملاحظات ، فإنها تصل إلى أربعة أضعاف المدخلات السادسة عشرة نفسها - وهي المرة الأولى التي يتم فيها الضغط على العلم ، والثالث مرات التالية مع استمرار العلم.
تنسيق البيانات على النحو التالي - (الملعب ، ملاحظة جديدة | استمرار صوت الملاحظة القديمة)
(56 ، صحيح) # سوبرانو
(52 ، خطأ) # البديل
(47 ، خطأ) # تينور
(38 ، خطأ) # باس
بعد تشغيل جميع chorales من مجموعة البيانات music21 الشهيرة من خلال هذا الإجراء ، وجد مؤلفو BachBot أنه لا يوجد العديد من مجموعات من مجموعات النوتات الأربعة في chorales (إذا أحضرتهم إلى نفس المفتاح) ، على الرغم من أنه يبدو أنه من المحتمل أن يكون هناك 128 × 128 x 128 × 128 (128 مستويات الملعب المستخدمة في midi). حجم القاموس الشرطي ليس بهذا الحجم. هذه ملاحظة غريبة ، سنعود إليها عندما نتحدث عن MusicVAE. لذلك ، لدينا كورال باخ المسجلة في شكل تسلسلات من هذه الأربع.
كثيرا ما يقال أن الموسيقى هي لغة. لذلك ، فليس من المستغرب أن يطبق مبتكرو BachBot التكنولوجيا الشائعة في NLP (معالجة اللغات الطبيعية) على الموسيقى ، أي أنهم دربوا
شبكة LSTM على مجموعة البيانات التي تم إنشاؤها وحصلوا على نموذج يمكنه استكمال أداة أو عدة أدوات أو حتى إنشاء كورال من الصفر. هذا يعني أنك قمت بتعيين alt و tenor و bass ، ويضيف BachBot اللحن السوبرانو لك ، ويبدو معًا أنه Bach.
هنا مثال آخر:
تبدو رائعة!
يمكنك مشاهدة
هذا الفيديو بمزيد من التفاصيل. هناك تحليلات مثيرة للاهتمام هناك ، تم جمعها على أساس مسح على
bachbot.com الموقع
يتم تشجيع المستخدمين على التمييز بين كورال باخ الأصلية والموسيقى التي أنشأتها الشبكة العصبية. تشير النتائج إلى أنه في حالة إنشاء شبكة عصبية جزء باس لجميع الإعدادات الأخرى ، يمكن لنصف المستخدمين فقط التمييز بين chorales التي أنشأتها شبكة العصبية من تلك الأصلية. مضحك ، ولكن الأهم من ذلك كله خبراء الموسيقى الحصول على الخلط. مع الأدوات الأخرى ، الأمور أفضل قليلاً. يبدو إهانة لي كلاعب باس - يبدو أن هناك حاجة إلى عازف الكمان في الوقت الحالي ، ولكن حان الوقت لمشغلي الباص للاستفادة من مهارات دريوال.
أرجواني
دراسة BachBot ، وجدت أنه تم تضمينه في مشروع Magenta (Google TensorFlow). قررت إلقاء نظرة فاحصة عليها ووجدت أنه في إطار Magenta تم تطوير العديد من النماذج المثيرة للاهتمام ، أحدها مخصص فقط للعمل مع التراكيب المجسمة. صنعت Magenta أدواتها الرائعة وأطلقت بالفعل البرنامج المساعد لمحرر الصوت Ableton ، والذي يعد لطيفًا بشكل خاص من حيث تطبيق الموسيقيين.
المفضلة:
فاز خلاط (يخلق الاختلافات على جزء معين طبل) و
حلقات كامنة (يخلق انتقالات بين الألحان).
الفكرة الرئيسية لأداة MusicVAE ، التي قررت استخدامها ، هي أن المبدعين حاولوا الجمع بين النموذج والمشفّر التلقائي المتغير -
VAE على شبكة LSTM.
إذا كنت تتذكر ، في محادثة حول Bach Bot ، لاحظنا أن قاموس الوتر لا يتكون من عناصر 128 × 128 × 128 × 128 ، ولكن أقل من ذلك بكثير. لاحظ مبدعو MusicVAE هذا أيضًا وقرروا استخدام مساحة كامنة مضغوطة.
بالمناسبة ، وهو أمر نموذجي ، لتدريب MusicVAE ، لا تحتاج إلى ترجمة المصادر إلى مفتاح واحد. أفترض أن النقل ليس ضروريًا ، لأن الشفرة المصدرية ستظل محولة بواسطة التشفير التلقائي وستختفي معلومات الدرجة اللونية.
تم تصميم VAE بطريقة تسمح لجهاز فك التشفير باستعادة البيانات بكفاءة من مجموعة بيانات التدريب ، في حين تمثل المساحة الكامنة توزيعًا سلسًا لميزات بيانات الإدخال.
هذه نقطة مهمة جدا. هذا يجعل من الممكن إنشاء كائنات مماثلة وتنفيذ استيفاء ذي معنى منطقي. في المساحة الأصلية ، لدينا أنواع مختلفة من الصوت من أربع أوراق 128x128x128x128 ، ولكن في الواقع ، لا تُستخدم جميعها (تبدو لطيفة على الأذن البشرية). يحولها التشفير التلقائي المتغير إلى مجموعة أصغر بكثير في مساحة مخفية ، ويمكنك الخروج بعمليات حسابية في هذا الفضاء لها معنى ذي معنى من وجهة نظر المساحة الأصلية ، على سبيل المثال ، ستكون النقاط المجاورة عبارة عن أجزاء موسيقية مماثلة.
مثال جيد هو كيفية إضافة نظارات إلى صورة باستخدام أداة التشفير التلقائي في
هذه المقالة . يمكنك قراءة المزيد حول كيفية عمل Muisc VAE على موقع Magenta الرسمي في
هذه المقالة ، وهناك أيضًا رابط إلى arXiv.
لذلك ، تم تحديد الأداة ، يبقى استخدامها مع هدفي الأصلي - لإنشاء موسيقى جديدة استنادًا إلى المقطوعات المسجلة بالفعل وتقييم مقدار الصوت الذي سيكون عليه صوت المجموعة الأصلية. لا تعمل Magenta على جهاز الكمبيوتر المحمول الذي يعمل بنظام تشغيل Windows ، ومنذ فترة طويلة تقوم بحساب نموذج بدون وحدة معالجة الرسومات. بعد معاناة مع الأجهزة الافتراضية ، حاوية الإرساء ، إلخ ، قررت استخدام السحابة.
توفر Google
أجهزة كمبيوتر محمولة باستخدام colab حيث يمكنك الانغماس في طرز Magenta. ومع ذلك ، في حالتي ، لم يكن من الممكن تدريب النموذج ، فقد تعطلت العملية طوال الوقت بسبب قيود مختلفة - مقدار الذاكرة المتاحة ، وإغلاق المهلة ، وعدم وجود سطر أوامر طبيعي وحقوق الجذر لتثبيت المكتبات الضرورية. من الناحية النظرية ، هناك حتى فرصة لاستخدام GPU ، لكنني أكرر ، لم أتمكن من تثبيت النموذج وبدء تشغيله.
لقد فكرت في شراء خادم ، وحظاً سعيداً ، وجدت أن Google توفر خدمات Google Cloud السحابية بوحدة معالجة الرسومات ، وحتى هناك فترة تجريبية مجانية. صحيح ، اتضح أنه في روسيا متاح رسميًا فقط للكيانات القانونية ، لكنهم سمحوا لي بالدخول في وضع تجريبي مجاني.
لذلك ، قمت بإنشاء جهاز افتراضي في GoogleCloud باستخدام وحدة GPU واحدة ، وجدت على الإنترنت عدة ملفات ميدي لإحدى مجموعاتي المفضلة وقمت بتحميلها إلى مجلد midi في السحابة.
تثبيت أرجواني:
pip install magenta-gpu
من الرائع أن كل هذا يمكن تثبيته مع فريق واحد ، كما اعتقدت ، ولكن ... أخطاء. يبدو أنك تضطر إلى لمس سطر الأوامر ، آسف.
ننظر إلى الأخطاء: مكتبة rtmidi غير مثبتة على الجهاز السحابي ، والتي بدونها لا تعمل Magenta.
وهذا بدوره يتعطل بسبب عدم وجود حزمة libasound2-dev ، كما أنني لا أملك امتيازات الجذر.
ليس مخيف جدا:
sudo su root apt-get install libasound2-dev
الصيحة ، الآن يتم تثبيت rtmidi pip pip دون أخطاء ، كما يفعل pip install magenta-gpu.
نعثر على الإنترنت وننزل الملفات المصدر في مجلد midi. أنها تبدو شيئا
مثل هذا .
نقوم بتحويل midi إلى تنسيق بيانات يمكن أن تعمله الشبكة بالفعل مع:
convert_dir_to_note_sequences \ --input_dir=midi\ --hparams=sampling_rate=1000.0\ --output_file=notesequences_R2Midi.tfrecord \ --log=DEBUG \ --recursive
وبدء التدريب
music_vae_train \ --config=hier-multiperf_vel_1bar_med \ --run_dir=/home/RNCDtrain/ \ --num_steps=1 \ --checkpoints_to_keep=2 \ --hparams=sampling_rate=1000.0 \ --hparams=batch_size=32,learning_rate=0.0005 \ --num_steps=5000 \ --mode=train \ --examples_path=notesequences_R2Midi.tfrecord
مرة أخرى المشكلة. تعطل Tensorflow مع وجود
خطأ - لم يتمكن من العثور على المكتبة ، لحسن الحظ ، قبل بضعة أيام وصف شخص ما هذا الخطأ بالفعل ، ويمكن إصلاح مصادر Python.
نحن تسلق في المجلد
/usr/local/lib/python2.7/dist-packages/tensorflow_probability/python/distributions#
واستبدال خط الاستيراد ، كما هو موضح في الخطأ على جيثب.
تشغيل music_vae_train مرة أخرى و ... الصيحة! لقد ذهب التدريب!
المصدرhier-multiperf_vel_1bar_med - أستخدم نموذج مجسمة (ما يصل إلى 8 أدوات) ينتج مقياسًا واحدًا لكل منهما.
المعلمة الهامة هي checkpoints_to_keep = 2 ، سعة القرص في السحب محدودة ، واحدة من المشاكل هي أن عملية التعلم قد توقفت طوال الوقت بسبب تجاوز سعة القرص ، ونقاط التفتيش ثقيلة جدًا - 0.6-1 غيغابايت لكل منها.
في مكان ما من 5000 عصور ، الخطأ يبدأ في القفز نحو 40-70. لا أعلم ما إذا كانت هذه نتيجة جيدة أم لا ، لكن يبدو أنه مع القليل من بيانات التدريب ، سيتم إعادة تدريب الشبكة بشكل أكبر ولن يكون هناك أي فائدة من إضاعة وقت وحدات معالجة الرسومات التي يتم توفيرها لي مجانًا في مراكز بيانات Google. نمر إلى جيل.
لسبب ما ، عند تثبيت Magenta لم يتم تثبيت ملف التوليد نفسه ، اضطررت لإسقاطه بيدي في المجلد إلى الآخرين:
curl -o music_vae_generate.py https://raw.githubusercontent.com/tensorflow/magenta/master/magenta/models/music_vae/music_vae_generate.py
أخيرًا ، قم بإنشاء الأجزاء:
music_vae_generate --config=hier-multiperf_vel_1bar_med --checkpoint_file=/home/RNCDtrain/train/ --mode=sample --num_outputs=32 --output_dir=/home/andrey_shagal/ --temperature=0.3
التكوين - نوع الجيل ، تمامًا كما هو الحال أثناء التدريب - متعدد المسارات ، ساعة واحدة
checkpoint_file - المجلد حيث يمكن الحصول على الملف الأخير باستخدام النموذج المدرب
وضع - عينة - إنشاء نموذج (هناك خيار آخر محرف - إنشاء مقياس انتقال بين مقياسين)
num_outputs - عدد القطع المطلوب إنشاؤها
درجة الحرارة - معلمة عشوائية عند إنشاء عينة ، من 0 إلى 1. في 0 ، تكون النتيجة أكثر قابلية للتنبؤ ، أقرب إلى المصدر ، عند 1 - أنا فنان ، كما أراها.
في الإخراج ، أحصل على 32 جزءًا لكل مقياس. بعد أن بدأت تشغيل المولد عدة مرات ، أستمع إلى الأجزاء وأغسل الأفضل في مسار واحد: neurancid.mp3.
لذلك "قضيت هذا الصيف." انا راضي بالطبع ، من غير المرجح أن يأخذها الراديو "Maximum" إلى قائمة التشغيل ، لكن إذا استمعت ، فإنها تبدو بالفعل مثل مجموعة Rancid الأصلية. الصوت ، بالطبع ، يختلف عن تسجيل الاستوديو ، لكننا عملنا في المقام الأول مع الملاحظات. علاوة على ذلك ، هناك مجال للعمل - عملية midi مع مختلف المكونات الإضافية لـ VST ، وإعادة تسجيل الأجزاء مع الموسيقيين الحيين أو الانتظار حتى يصل الرجال من Wave2Midi2Wave إلى القيثارات بحمل زائد.
لا توجد شكاوى حول الملاحظات. من الناحية المثالية ، أود أن تنشئ الشبكة العصبية تحفة أو على الأقل نجاحًا لأفضل 100 بيلبورد. ولكن بينما تعلمت كيفية
استخدام الكحول والعقاقير من الروك
، لتلعب دور النغمة برمته في الثمانينات (في الحقيقة ، ليس فقط ، لكنني فخور بوالدها. الانتقال من 20 إلى 22 ثانية). هناك أسباب لذلك ، والمزيد عنها.
- كمية صغيرة من البيانات.
- النموذج الذي استخدمته ينتج شظايا بحجم مقياس واحد. في punk rock ، كقاعدة عامة ، لا يتم إجراء العديد من الأحداث ضمن مقياس واحد.
- تعمل التحولات المثيرة للاهتمام واللحن فقط على خلفية ريففس الملعب ، والتحولات من الوتر إلى الوتر ، والمشفّر التلقائي ، إلى جانب كمية صغيرة من البيانات ، يبدو أنها فقدت معظم الإيقاعات ، بل إنها اختزلت كل هذه الأيقونات إلى اثنين من الحبال المتسقة والعديدة. نحتاج إلى تجربة نموذج يعمل بـ 16 مقياسًا ، ومن المؤسف أن ثلاثة أصوات فقط متوفرة فيه.
لقد اتصلت بالمطورين ، وأوصوا بمحاولة تقليل بُعد المساحة الكامنة ، لأنهم قاموا بتدريب شبكتهم على 200000 مقطوعة ، وقمت بالتدريب على 15. لم أستطع تحقيق التأثير المرئي لتقليل مساحة z ، ولكن لا يزال هناك شيء يجب العبث به.
بالمناسبة ، الرتابة والرتابة أبعد ما تكون عن ناقص دائمًا. من الطقوس الشامانية إلى الحفلات الفنية ، كما تعلمون ، خطوة واحدة. يجب أن نحاول تدريب النموذج على شيء مثل هذا - الهذيان ، تكنو ، يصفه ، الريغي ، سلبيات الهيب هوب. بالتأكيد ، هناك فرصة لخلق شيء غيبوبة سارة. لقد وجدت حوالي 20 أغنية لبوب مارلي في midi ، وفويلا la ، حلقة لطيفة جدًا:
فوق أجزاء midi يتم إعادة تسجيلها باستخدام الجهير الحي والقيثارات ، التي تتم معالجتها بواسطة أجهزة VST لتجعل الجزء الصوتي أكثر متعة. في الأصل ، أصدرت الشبكة الملاحظات فقط. إذا كنت تلعبها مع لاعب midi قياسي ، فهذا يبدو كالتالي:
بالتأكيد ، إذا أنشأت عددًا من رسومات الأسطوانة المواضيعية الأساسية ، فابدأ تشغيلها في خلاط الخلاط + الأجزاء الأساسية من الجهير والموالفة بحلقة كامنة (كان هناك المزيد عنها) ، فمن الممكن تمامًا تشغيل خوارزمية للإذاعة الفنية التي ستنشئ مسارات جديدة باستمرار أو حتى واحدة مسار لا نهاية لها. الطنانة الأبدية!
يوفر MusicVAE أيضًا فرصة لتدريب الشبكة لإنشاء شظايا ثلاثية من 16 شريطًا - الطبول والباس والرصاص. أيضا مثيرة للاهتمام للغاية. بيانات الإدخال - ملفات midi متعددة المسارات - ينقسم النظام إلى ثلاثة أضعاف في جميع التوليفات الممكنة ويقوم بتدريب النموذج عليه. تتطلب هذه الشبكة موارد أكثر بكثير ، لكن النتيجة هي 16 دورة على الفور! من المستحيل مقاومة. حاولت أن أتخيل كيف يمكن للمجموعة التي تلعب شيئًا ما بين Rancid و NOFX أن تظهر ، وتحميل للتدريب على عدد متساوٍ من المسارات من كل مجموعة:
هناك أيضا أجزاء ميدي إعادة تسجيل القيثارات الحية. لاعب ميدي قياسي مثل هذا:
مثيرة للاهتمام! هذا بالتأكيد أفضل من مجموعتي الأولى! وبالمناسبة ، يعطينا هذا النموذج نفسه موسيقى الجاز المجانية اللائقة:
المشاكل التي واجهتها:
- عدم وجود موقف جيد ومريح من شأنه أن يقلل من الوقت الذي يستغرقه انتظار التدريب. لا يعمل النموذج إلا في نظام التشغيل linux ، حيث يكون التدريب طويلًا ، بدون وحدة معالجة الرسومات لفترة طويلة جدًا ، وطوال الوقت أرغب في محاولة تغيير المعلمات ومعرفة ما يحدث. على سبيل المثال ، تم احتساب خادم سحابة مع معالج GPU واحد من 100 عصور لنموذج "الثلاثي من 16 دورة" 8 ساعات.
- مشكلة التعلم الآلي النموذجية هي نقص البيانات. فقط 15 ملف midi - إنه صغير جدًا لفهم الموسيقى. لم تستمع الشبكة العصبية ، على عكس شبابي ، إلى 6 ألبومات Rancid قبل الفتحات ، ولم أذهب إلى الحفلات الموسيقية ، تم الحصول على هذه النتيجة من 15 مسارًا متوسطًا غير معروف لأي شخص بعيد عن الأصل. الآن ، إذا قمت بالالتفاف حول عازف الجيتار بأجهزة استشعار وتأخذ كل صوت من كل ملاحظة ... دعونا نرى كيف تتطور فكرة Wave2Midi2Wave. ربما في غضون بضع سنوات سيكون من الممكن رفض الملاحظات في حل هذه المشكلة.
- يجب أن يندرج الموسيقي بوضوح في الإيقاع ، لكن ليس تمامًا. في عطلة نهاية الأسبوع ، لا توجد ديناميات في الملاحظات (على سبيل المثال ، في الطبول) ، يتم تنفيذها جميعًا في نفس الحجم ، تمامًا بنقرة واحدة (كما يقول الموسيقيون ، أي بالضبط في النغمة) ، حتى لو كنت تنوعها بشكل عشوائي ، تبدأ الموسيقى في الصوت أكثر حيوية وأكثر متعة. مرة أخرى ، Wave2Midi2Wave تتعامل بالفعل مع هذه المشكلة.
الآن لديك فكرة عن إمكانيات الذكاء الاصطناعي في خلق الموسيقى وتفضيلاتي الموسيقية. ما هو الدور الذي تعتقده منظمة العفو الدولية في العملية الإبداعية في المستقبل؟ هل يمكن للآلة إنشاء موسيقى على قدم المساواة أو حتى أفضل من إنسان ليكون مساعدًا في العملية الإبداعية؟ أو سوف تصبح الذكاء الاصطناعي مشهورة في المجال الموسيقي فقط للحرف اليدوية البدائية.