In maschinellen Lernkursen bei Artezio traf ich ein Lernmodell, das Musik machen konnte. Musik ist ein wesentlicher Bestandteil meines Lebens, ich habe viele Jahre in Gruppen (Punkrock, Reggae, Hip Hop, Rock usw.) gespielt und bin ein fanatischer Zuhörer.

Leider haben sich viele Gruppen, von denen ich in meiner Jugend ein großer Fan war, aus verschiedenen Gründen getrennt. Oder sie haben sich nicht getrennt, aber was sie gerade aufnehmen ... im Allgemeinen wäre es besser, wenn sie sich trennen würden.

Ich war neugierig, ob es jetzt ein fertiges Modell gibt, das auf den Spuren einer meiner Lieblingsgruppen lernen und ähnliche Kompositionen erstellen kann. Da die Musiker selbst nicht mehr sehr erfolgreich sind, kann das neuronale Netzwerk sie vielleicht handhaben?

Quelle

Als ich die fertigen Modelle studierte, stieß ich schnell auf einen solchen Artikel mit einem Überblick über die sechs bekanntesten Optionen. Es geht natürlich um digitale Musikformate. Aus dem Artikel geht hervor, dass zwei Hauptansätze zur Musikgenerierung unterschieden werden können: basierend auf dem digitalisierten Audiostream (dem Ton, den wir aus den Lautsprechern hören - Roh-Audio, WAV-Dateien) und basierend auf der Arbeit mit MIDI (Musiknotation).

Ich habe die Optionen mit rohem Audio gelöscht, und deshalb.

Die Ergebnisse sind nicht beeindruckend - die Verwendung solcher Modelle für polyphone Musik liefert ein sehr spezifisches Ergebnis. Das ist ungewöhnlich, man kann interessante Bilder erstellen, aber es ist nicht für meine Zwecke geeignet: Es klingt seltsam, aber ich wollte etwas Ähnliches wie das Original hören.

Quelle

Ein gutes Beispiel für Klaviermusik:

Und mit Orchestermusik oder Rock klingt es viel seltsamer:

Hier haben die Jungs versucht, Black Metal zu verarbeiten und das nicht nur in rohem Audio.

In den Kompositionen meiner Lieblingsbands klingen verschiedene Instrumente - Gesang, Schlagzeug, Bass, Gitarren, Synthesizer. Jedes Instrument klingt zusammen mit dem Rest. Ich suche ein Modell, das auf die gleiche Weise funktioniert, dh nicht nur mit einzelnen Instrumenten funktioniert, sondern auch deren gemeinsamen Klang berücksichtigt.

Wenn ein Musiker einen Teil eines Instruments nach Gehör lernen muss, versucht er, das benötigte Instrument vom gesamten Klangstrom zu isolieren. Dann wiederholt er seinen Sound, bis er ein ähnliches Ergebnis erzielt. Die Aufgabe ist selbst für Menschen mit gutem Gehör nicht die einfachste - Musik kann schwierig sein, Instrumente „verschmelzen“.

Quelle

Ich bin auf Software-Tools gestoßen, die versucht haben, ein ähnliches Problem zu lösen. Es gibt mehrere Projekte, die dies basierend auf maschinellem Lernen tun. Während ich diesen Text schrieb, veröffentlichte Magenta beispielsweise ein neues Instrument, Wave2Midi2Wave, mit dem Piano-Noten „abgenommen“ und realistisch „wiedergegeben“ werden können. Es gibt andere Tools, obwohl diese Aufgabe im Allgemeinen noch nicht gelöst wurde.

Um einen Teil aus einer Arbeit zu lernen, ist es am einfachsten, vorgefertigte Notizen zu machen. Dies ist der einfachste Weg. Es ist logisch anzunehmen, dass es für neuronale Netze einfacher sein wird, mit der musikalischen Darstellung von Musik zu arbeiten, wobei jedes Instrument durch eine separate Spur dargestellt wird.

Bei Roh-Audio ist das Ergebnis eine Mischung aller Instrumente. Teile können nicht einzeln in den Sequenzer (Audio-Editor) geladen, korrigiert, der Sound geändert usw. werden. Ich bin ziemlich froh, wenn das neuronale Netzwerk einen Treffer komponiert, aber in ein paar Noten einen Fehler macht - wenn ich mit Noten arbeite, kann ich sie leicht korrigieren, mit rohem Audio ist dies fast unmöglich.

Musiknotation hat auch ihre Nachteile. Die Masse der Leistungsnuancen wird nicht berücksichtigt. Wenn es um MIDI geht, ist nicht immer bekannt, wer diese MIDI-Dateien waren und wie nah sie am Original sind. Vielleicht hat der Compiler einfach einen Fehler gemacht, weil es keine leichte Aufgabe ist, das Spiel zu "entfernen".

Wenn Sie mit polyphonen Noten arbeiten, müssen Sie sicherstellen, dass die Instrumente jederzeit gestimmt sind. Darüber hinaus ist es wichtig, dass die Abfolge dieser Momente aus menschlicher Sicht logisch ist.

Es stellte sich heraus, dass es nicht so viele Lösungen gibt, die mit Noten arbeiten können, und sogar nicht mit einem Instrument, sondern mit mehreren gleichzeitig klingenden. Ich habe das Magenta-Projekt von Google TensorFlow zunächst übersehen, weil es als "nicht polyphon" beschrieben wurde. Zu diesem Zeitpunkt war die MusicVAE-Bibliothek noch nicht veröffentlicht worden, daher habe ich mich für das BachBot-Projekt entschieden.

Quelle

Bachbot

Es stellte sich heraus, dass die Lösung für mein Problem bereits existiert. Hören Sie sich den von BachBot gestimmten Happy Birthday an, der wie ein Bach-Choral klingt.

Chor ist eine spezifische Musik, sie besteht aus vier Stimmen: Sopran, Bratsche, Tenor und Bass. Jedes der Instrumente kann jeweils eine Note erzeugen. Hier muss man etwas tiefer in die Musik einsteigen. Wir werden über Musik in der Dimension von vier Vierteln sprechen.

In einer Notenschrift hat eine Note zwei Indikatoren - Tonhöhe (bis, re, mi ...) und Dauer (Ganzzahl, halbe, achte, sechzehnte, dreißig Sekunden). Dementsprechend dauert eine ganze Note einen ganzen Schlag, zwei halbe Noten einen ganzen Schlag, sechzehn Sechzehntel einen ganzen Schlag.

Bei der Vorbereitung der Daten für das Training des neuronalen Netzwerks haben die Entwickler von BachBot Folgendes berücksichtigt:

Um das Modell nicht mit Akkorden aus verschiedenen Tonarten niederzuschlagen, die zusammen nicht harmonisch klingen würden, führten alle Chöre zu derselben Tonart.
Das neuronale Netzwerk muss mit diskreten Werten versorgt werden, und Musik ist ein kontinuierlicher Prozess, was bedeutet, dass eine Diskretisierung erforderlich ist. Ein Instrument kann eine lange, ganze Note spielen und das andere gleichzeitig einige Sechzehntel. Um dieses Problem zu lösen, wurden alle Notizen in Sechzehntel unterteilt. Mit anderen Worten, wenn eine vierte Note in den Noten vorkommt, kommt sie viermal als dieselbe sechzehnte Eingabe an - das erste Mal mit dem Flag, das gedrückt wurde, und das nächste Mal mit dem Flag, das sie fortsetzt.

Das Datenformat ist wie folgt: (Tonhöhe, neue Note | Fortsetzung des Klangs der alten Note)

(56, Richtig) # Sopran
(52, False) # Alt
(47, falsch) # Tenor
(38, falsch) # Bass

Nachdem die BachBot-Autoren alle Chöre aus dem populären music21-Datensatz durch dieses Verfahren getrieben hatten, stellten sie fest, dass es in Chören nicht viele Kombinationen von Kombinationen von vier Noten gibt (wenn Sie sie auf dieselbe Tonart bringen), obwohl es den Anschein hat, dass es möglicherweise 128 x 128 x geben könnte 128 x 128 (128 Tonhöhen im Midi). Die Größe eines bedingten Wörterbuchs ist nicht so groß. Dies ist eine merkwürdige Bemerkung, auf die wir zurückkommen werden, wenn wir über MusicVAE sprechen. Wir haben also die Bach-Chöre in Form von Sequenzen solcher Viere aufgenommen.

Es wird oft gesagt, dass Musik eine Sprache ist. Daher ist es nicht verwunderlich, dass die Entwickler von BachBot die in NLP (Natural Language Processing) beliebte Technologie auf Musik anwendeten, indem sie das LSTM-Netzwerk auf den generierten Datensatz trainierten und ein Modell erhielten, das ein oder mehrere Instrumente ergänzen oder sogar Chöre von Grund auf neu erstellen konnte. Das heißt, Sie stellen Alt, Tenor und Bass ein, und BachBot fügt die Sopran-Melodie für Sie hinzu, und zusammen klingt es wie Bach.

Hier ist ein weiteres Beispiel:

Hört sich toll an!

Sie können dieses Video genauer ansehen. Dort gibt es eine interessante Analyse , die auf der Grundlage einer Umfrage auf der Website bachbot.com gesammelt wurde

Benutzer werden ermutigt, die ursprünglichen Bach-Chöre von der Musik zu unterscheiden, die vom neuronalen Netzwerk erzeugt wird. Die Ergebnisse erwähnen, dass, wenn ein neuronales Netzwerk einen Bass-Part für alle anderen Einstellungen erstellt, nur die Hälfte der Benutzer Chöre, die von einem neuronalen Netzwerk erstellt wurden, von den ursprünglichen unterscheiden können. Witzig, aber vor allem die Musikexperten sind verwirrt. Mit anderen Tools sieht es etwas besser aus. Für mich als Bassist klingt das beleidigend - der Geiger scheint vorerst gebraucht zu werden, aber es ist Zeit für die Bassisten, ihre Fähigkeiten im Trockenbau aufzufrischen.

Magenta

Als ich BachBot studierte, stellte ich fest, dass es im Magenta-Projekt (Google TensorFlow) enthalten war. Ich habe mich näher damit befasst und festgestellt, dass im Rahmen von Magenta mehrere interessante Modelle entwickelt wurden, von denen eines nur der Arbeit mit polyphonen Kompositionen gewidmet ist. Magenta hat ihre wunderbaren Werkzeuge entwickelt und sogar bereits das Plugin für den Ableton-Audio-Editor veröffentlicht, was besonders für die Anwendung für Musiker von Vorteil ist.

Meine Favoriten: Beat Blender (erzeugt Variationen eines bestimmten Drum-Parts) und
latente Schleifen (erzeugt Übergänge zwischen Melodien).

Die Hauptidee des MusicVAE-Tools, für das ich mich entschieden habe, ist, dass die Entwickler versucht haben, ein Modell und einen Variations-Autoencoder - VAE - im LSTM-Netzwerk zu kombinieren.

Wenn Sie sich erinnern, haben wir in einem Gespräch über Bach Bot festgestellt, dass das Akkordwörterbuch nicht aus 128x128x128x128 Elementen besteht, sondern viel weniger. Die Entwickler von MusicVAE bemerkten dies ebenfalls und entschieden sich für einen komprimierten latenten Raum.

Übrigens, was typisch für das Training von MusicVAE ist, müssen Sie die Quellen nicht in einen Schlüssel übersetzen. Eine Transponierung ist vermutlich nicht erforderlich, da der Quellcode weiterhin vom Auto-Encoder konvertiert wird und die Tonalitätsinformationen verschwinden.

VAE ist so konzipiert, dass der Decoder Daten aus dem Trainingsdatensatz effizient wiederherstellen kann, während der latente Raum eine reibungslose Verteilung der Merkmale der Eingabedaten darstellt.

Dies ist ein sehr wichtiger Punkt. Dies ermöglicht es, ähnliche Objekte zu erstellen und eine logisch sinnvolle Interpolation durchzuführen. Im ursprünglichen Raum haben wir 128x128x128x128 Varianten, um den Klang von vier Noten zu kombinieren, aber tatsächlich werden nicht alle verwendet (sie klingen gut für das menschliche Ohr). Ein Variations-Auto-Encoder verwandelt sie in eine viel kleinere Menge in einem verborgenen Raum, und Sie können mathematische Operationen in diesem Raum entwickeln, die aus Sicht des ursprünglichen Raums eine bedeutungsvolle Bedeutung haben. Beispielsweise sind benachbarte Punkte ähnliche musikalische Fragmente.

Ein gutes Beispiel ist das Hinzufügen einer Brille zu einem Foto mithilfe eines automatischen Encoders in diesem Artikel . Weitere Informationen zur Funktionsweise von Muisc VAE finden Sie auf der offiziellen Magenta-Website in diesem Artikel . Außerdem gibt es einen Link zu arXiv.

Wenn das Instrument ausgewählt ist, bleibt es, um es mit meinem ursprünglichen Ziel zu verwenden - neue Musik basierend auf bereits aufgenommenen Tracks zu erstellen und zu bewerten, wie sehr dies wie der Sound der ursprünglichen Gruppe klingen wird. Magenta funktioniert auf meinem Windows-Laptop nicht und berechnet seit langem ein Modell ohne GPU. Nachdem ich unter virtuellen Maschinen, einem Docker-Container usw. gelitten hatte, entschied ich mich für die Cloud.

Google bietet Colab-Notebooks an, in denen Sie sich mit Magenta-Modellen verwöhnen lassen können. In meinem Fall war es jedoch nicht möglich, das Modell zu trainieren. Der Prozess stürzte aufgrund verschiedener Einschränkungen ständig ab - der Menge des verfügbaren Speichers, Timeout-Abschaltungen, dem Fehlen einer normalen Befehlszeile und Root-Rechten zum Installieren der erforderlichen Bibliotheken. Hypothetisch gibt es sogar die Möglichkeit, die GPU zu verwenden, aber ich wiederhole, ich konnte das Modell nicht installieren und starten.

Ich habe über den Kauf eines Servers nachgedacht und, oh, viel Glück, festgestellt, dass Google Google Cloud-Cloud-Dienste mit einer GPU bereitstellt, und es gibt sogar eine kostenlose Testphase. Es stellte sich heraus, dass sie in Russland offiziell nur juristischen Personen zur Verfügung stehen, aber sie haben mich in einem kostenlosen Testmodus zugelassen.

Also habe ich in GoogleCloud eine virtuelle Maschine mit einem GPU-Modul erstellt, im Internet mehrere Midi-Dateien einer meiner Lieblingsgruppen gefunden und in den Midi-Ordner in der Cloud hochgeladen.

Installieren Sie Magenta:

pip install magenta-gpu

Es ist großartig, dass all dies mit einem Team installiert werden kann, dachte ich, aber ... Fehler. Es scheint, als müssten Sie die Befehlszeile berühren, sorry.

Wir sehen uns Fehler an: Die rtmidi-Bibliothek ist nicht auf dem Cloud-Computer installiert, ohne den Magenta nicht funktioniert.

Und es stürzt wiederum aufgrund des Fehlens des libasound2-dev-Pakets ab, und ich habe auch keine Root-Rechte.

Nicht so beängstigend:

 sudo su root apt-get install libasound2-dev

Hurra, jetzt läuft pip install rtmidi fehlerfrei, ebenso wie pip install magenta-gpu.

Wir finden im Internet und laden die Quelldateien im Midi-Ordner herunter. Sie klingen ungefähr so .

Wir konvertieren Midi in ein Datenformat, mit dem das Netzwerk bereits arbeiten kann:

 convert_dir_to_note_sequences \ --input_dir=midi\ --hparams=sampling_rate=1000.0\ --output_file=notesequences_R2Midi.tfrecord \ --log=DEBUG \ --recursive

und mit dem Training beginnen

 music_vae_train \ --config=hier-multiperf_vel_1bar_med \ --run_dir=/home/RNCDtrain/ \ --num_steps=1 \ --checkpoints_to_keep=2 \ --hparams=sampling_rate=1000.0 \ --hparams=batch_size=32,learning_rate=0.0005 \ --num_steps=5000 \ --mode=train \ --examples_path=notesequences_R2Midi.tfrecord

Wieder das Problem. Tensorflow stürzt mit einem Fehler ab - die Bibliothek kann zum Glück nicht gefunden werden. Glücklicherweise hat vor einigen Tagen jemand diesen Fehler bereits beschrieben, und die Python-Quellen können behoben werden.

Wir klettern in den Ordner

 /usr/local/lib/python2.7/dist-packages/tensorflow_probability/python/distributions#

und ersetzen Sie die Importzeile, wie im Fehler auf Github beschrieben.

Starten Sie music_vae_train erneut und ... Hurra! Das Training ist weg!

Quelle

hier-multiperf_vel_1bar_med - Ich verwende ein polyphones Modell (bis zu 8 Instrumente), das jeweils einen Takt erzeugt.

Ein wichtiger Parameter ist checkpoints_to_keep = 2, die Festplattenkapazität in den Clouds ist begrenzt. Eines der Probleme besteht darin, dass der Lernprozess aufgrund eines Festplattenüberlaufs ständig unterbrochen wurde. Die Prüfpunkte sind ziemlich hoch - jeweils 0,6-1 Gigabyte.

Irgendwo in den 5000 Epochen beginnt der Fehler zwischen 40 und 70 zu springen. Ich weiß nicht, ob dies ein gutes Ergebnis ist oder nicht, aber es scheint, dass mit ein wenig Trainingsdaten das Netzwerk weitergebildet wird und es keinen Sinn macht, die Zeit der GPUs, die mir freundlicherweise kostenlos zur Verfügung gestellt werden, in Google-Rechenzentren zu verbringen. Wir gehen zur Generation über.

Aus irgendeinem Grund musste ich bei der Installation von Magenta die Generierungsdatei selbst nicht installieren und sie mit meinen Händen in den Ordner zu den anderen legen:

 curl -o music_vae_generate.py https://raw.githubusercontent.com/tensorflow/magenta/master/magenta/models/music_vae/music_vae_generate.py

Erstellen Sie schließlich die Fragmente:

 music_vae_generate --config=hier-multiperf_vel_1bar_med --checkpoint_file=/home/RNCDtrain/train/ --mode=sample --num_outputs=32 --output_dir=/home/andrey_shagal/  --temperature=0.3

config - Art der Generierung, genau wie während des Trainings - Multitrack, 1 Uhr
checkpoint_file - Ordner, in dem die letzte Datei mit dem trainierten Modell abgerufen wird
mode - sample - Erstelle ein Sample (es gibt eine weitere Option zum Interpolieren - Erstelle ein Übergangsmaß zwischen zwei Takten)
num_outputs - wie viele Teile generiert werden sollen
Temperatur - ein Randomisierungsparameter beim Erstellen einer Stichprobe von 0 bis 1. Bei 0 ist das Ergebnis vorhersehbarer, näher an der Quelle, bei 1 - Ich bin ein Künstler, wie ich es sehe.

Am Ausgang erhalte ich 32 Fragmente pro Takt. Nachdem ich den Generator mehrmals gestartet habe, höre ich mir die Fragmente an und klebe das Beste in eine Spur: neurancid.mp3.

Also "Ich habe diesen Sommer verbracht." Ich bin zufrieden. Natürlich wird das Radio "Maximum" es wahrscheinlich nicht in die Wiedergabeliste aufnehmen, aber wenn Sie es hören, sieht es wirklich aus wie die ursprüngliche Rancid-Gruppe. Der Sound unterscheidet sich natürlich von der Studioaufnahme, aber wir haben hauptsächlich mit Noten gearbeitet. Außerdem gibt es Raum für Action - verarbeiten Sie Midi mit verschiedenen VST-Plug-Ins, nehmen Sie Parts mit Live-Musikern neu auf oder warten Sie, bis die Jungs von Wave2Midi2Wave mit einer Überlastung zu den Gitarren kommen.

Es gibt keine Beschwerden über die Notizen. Idealerweise möchte ich, dass das neuronale Netzwerk ein Meisterwerk oder zumindest einen Hit für die Billboard Top 100 schafft. Aber während sie von Rockern gelernt hat, wie man ~~mit Alkohol und Drogen~~ umgeht , spielt sie den ganzen Beat eine Note in Achteln (eigentlich nicht nur, aber ich bin stolz auf ihre väterliche Übergang von 20 auf 22 Sekunden). Dafür gibt es Gründe und mehr.

Kleine Datenmenge.
Das von mir verwendete Modell erzeugt Fragmente in der Größe eines Maßes. Im Punkrock finden in der Regel nicht viele Ereignisse innerhalb einer einzigen Maßnahme statt.
Interessante Übergänge und Melodien funktionieren nur vor dem Hintergrund von Tonhöhenriffs, Übergängen von Akkord zu Akkord, und der Auto-Encoder scheint zusammen mit einer kleinen Datenmenge die meisten Melodien verloren zu haben und sogar alle Riffs auf zwei Konsonanten und mehrere atonale Akkorde reduziert zu haben. Wir müssen ein Modell ausprobieren, das mit 16 Takten funktioniert. Schade, dass nur drei Stimmen darin verfügbar sind.

Ich habe die Entwickler kontaktiert, sie haben empfohlen, die Dimension des latenten Raums zu reduzieren, weil sie ihr Netzwerk auf 200.000 Tracks trainiert haben, und ich habe auf 15 trainiert. Ich konnte den sichtbaren Effekt der Reduzierung des Z-Raums nicht erzielen, aber es gibt immer noch etwas zu basteln.

Monotonie und Monotonie sind übrigens keineswegs immer ein Minus. Von schamanistischen Ritualen bis zu Technopartys, wie Sie wissen, ein Schritt. Wir müssen versuchen, das Modell auf so etwas zu trainieren - Rave, Techno, Dub, Reggae, Hip-Hop-Nachteile. Sicherlich gibt es eine Chance, etwas angenehm Zombie zu erschaffen. Ich fand ungefähr 20 Songs von Bob Marley im Midi und, voila la, eine sehr schöne Schleife:

Über den Midi-Parts werden Live-Bässe und Gitarren neu aufgenommen, die von VST-Synthesizern verarbeitet werden, um das Fragment saftiger klingen zu lassen. Im Original gab das Netzwerk nur Notizen aus. Wenn Sie sie mit einem Standard-Midi-Player spielen, klingt dies folgendermaßen:

Wenn Sie eine Reihe grundlegender thematischer Drum-Zeichnungen erstellen, diese in Beat Blender + grundlegenden Teilen von Bass und Synthesizern mit einem latenten Loop starten (es gab mehr darüber), ist es durchaus möglich, einen Algorithmus für Techno-Radio auszuführen, der kontinuierlich neue Tracks oder sogar einen erstellt endlose Spur. Ewiges Summen!

MusicVAE bietet auch die Möglichkeit, das Netzwerk zu trainieren, um Trio-Fragmente mit 16 Takten zu erzeugen - Schlagzeug, Bass und Lead. Auch ganz interessant. Eingabedaten - Multitrack-MIDI-Dateien - Das System teilt sich in allen möglichen Kombinationen in Tripel auf und trainiert das Modell weiter. Ein solches Netzwerk benötigt deutlich mehr Ressourcen, aber das Ergebnis sind sofort 16 Zyklen! Unmöglich zu widerstehen. Ich versuchte mir vorzustellen, wie eine Gruppe, die etwas zwischen Rancid und NOFX spielt, klingen könnte, indem ich für das Training ungefähr die gleiche Anzahl von Tracks aus jeder Gruppe lud:

Es gibt auch Midi-Parts, die Live-Gitarren neu aufgenommen haben. Standard-Midi-Player wie folgt:

Interessant! Das ist definitiv besser als meine erste Gruppe! Übrigens gibt uns dieses Modell einen anständigen Free Jazz:

Die Probleme, auf die ich gestoßen bin:

Fehlen eines guten, bequemen Standes, der die Wartezeit auf das Training verkürzt. Das Modell funktioniert nur unter Linux, das Training ist lang, sehr lange ohne GPU, und ich möchte ständig versuchen, die Parameter zu ändern und zu sehen, was passiert. Beispielsweise zählte ein Cloud-Server mit einem GPU-Prozessor aus 100 Epochen für das Modell „Trio mit 16 Zyklen“ 8 Stunden.
Ein typisches Problem beim maschinellen Lernen ist der Mangel an Daten. Nur 15 MIDI-Dateien - es ist sehr klein, Musik zu verstehen. Das neuronale Netzwerk hat, anders als ich in meiner Jugend, vor den Löchern keine 6 Rancid-Alben gehört, ich habe keine Konzerte besucht. Dieses Ergebnis wurde aus 15 Midi-Tracks erzielt, die niemandem bekannt sind, der weit vom Original entfernt ist. Wenn Sie nun mit Sensoren beim Gitarristen bleiben und jeden Ton aus jeder Note nehmen ... Mal sehen, wie sich die Wave2Midi2Wave-Idee entwickelt. Vielleicht wird es in ein paar Jahren möglich sein, Notizen zur Lösung eines solchen Problems abzulehnen.
Der Musiker sollte klar in den Rhythmus fallen, aber nicht perfekt. Am Midi-Wochenende gibt es keine Dynamik in den Noten (zum Beispiel im Schlagzeug), sie werden alle mit der gleichen Lautstärke gespielt, genau mit einem Klick (wie die Musiker sagen, d. H. Genau im Takt), selbst wenn Sie sie zufällig diversifizieren, beginnt die Musik zu klingen lebendiger und angenehmer. Auch hier befasst sich Wave2Midi2Wave bereits mit diesem Problem.

Jetzt haben Sie eine Vorstellung von den Möglichkeiten der KI beim Erstellen von Musik und meinen musikalischen Vorlieben. Welche Rolle erwartet KI Ihrer Meinung nach in Zukunft im kreativen Prozess? Kann eine Maschine Musik auf gleicher Augenhöhe oder sogar besser als ein Mensch schaffen, um ein Assistent im kreativen Prozess zu sein? Oder künstliche Intelligenz wird im Musikbereich nur für primitives Handwerk berühmt.

Träumen Androiden von elektrischem Punk? Wie ich einem neuronalen Netzwerk das Schreiben von Musik beigebracht habe

Bachbot

Magenta

More articles: