🤛🏼 🈯️ 🍺 Pengembangan dataset akustik untuk pelatihan jaringan saraf 👩‍🔬 🕝 😜

Suatu kali, dalam sebuah wawancara, seorang musisi Rusia yang terkenal mengatakan: "Kami sedang mengerjakan berbohong dan meludah di langit-langit." Saya tidak bisa tidak setuju dengan pernyataan ini, karena fakta bahwa kemalasan adalah kekuatan pendorong dalam pengembangan teknologi tidak dapat diperdebatkan. Memang, hanya pada abad terakhir kita telah beralih dari mesin uap ke industrialisasi digital, dan sekarang kecerdasan buatan, yang digambarkan oleh penulis fiksi ilmiah dan futurolog abad terakhir, menjadi kenyataan dunia kita yang semakin meningkat setiap hari. Game komputer, perangkat seluler, jam tangan pintar, dan banyak lagi pada dasarnya menggunakan algoritma yang terkait dengan mekanisme pembelajaran mesin.

Saat ini, karena pertumbuhan kemampuan komputasi prosesor grafis dan sejumlah besar data yang telah muncul, jaringan saraf telah mendapatkan popularitas, menggunakan mana mereka memecahkan masalah klasifikasi dan regresi, melatih mereka pada data yang disiapkan. Banyak artikel telah ditulis tentang bagaimana melatih jaringan saraf dan kerangka kerja mana yang digunakan untuk ini. Tetapi ada tugas sebelumnya yang juga harus diselesaikan, dan ini adalah tugas membentuk sebuah array data - dataset, untuk pelatihan lebih lanjut jaringan saraf. Ini akan dibahas dalam artikel ini.

Belum lama ini, ada kebutuhan untuk membangun sebuah pengelompokan akustik dari kebisingan mobil yang mampu mengekstraksi data dari aliran audio yang umum: pecahan kaca, pintu pembuka dan pengoperasian mesin mobil dalam berbagai mode. Pengembangan classifier itu tidak sulit, tetapi di mana mendapatkan dataset sehingga memenuhi semua persyaratan?

Google datang ke penyelamatan (jangan tersinggung Yandex - saya akan berbicara tentang keuntungannya sedikit kemudian), dengan bantuan yang memungkinkan untuk memilih beberapa cluster utama yang berisi data yang diperlukan. Saya ingin mencatat sebelumnya bahwa sumber-sumber yang ditunjukkan dalam artikel ini mencakup sejumlah besar informasi akustik, dengan berbagai kelas, memungkinkan Anda untuk membuat dataset untuk berbagai tugas. Sekarang kita beralih ke ikhtisar sumber-sumber ini.

Freesound.org

Kemungkinan besar, Freesound.org menyediakan volume terbesar data akustik, menjadi tempat penyimpanan sampel musik berlisensi, yang saat ini memiliki lebih dari 230.000 salinan efek suara. Setiap sampel suara dapat didistribusikan di bawah lisensi yang berbeda, oleh karena itu lebih baik untuk membiasakan diri dengan perjanjian lisensi terlebih dahulu. Misalnya, lisensi nol (cc0) memiliki status "Tidak ada hak cipta", dan memungkinkan Anda untuk menyalin, mengubah, dan mendistribusikan, termasuk penggunaan komersial, dan memungkinkan Anda untuk menggunakan data secara mutlak secara hukum.

Untuk kenyamanan menemukan elemen informasi akustik di berbagai freesound.org, pengembang telah menyediakan API yang dirancang untuk menganalisis, mencari, dan mengunduh data dari repositori. Untuk mengatasinya, Anda perlu mendapatkan akses, untuk ini Anda harus pergi ke formulir dan mengisi semua bidang yang diperlukan, setelah itu kunci individu akan dihasilkan.

Pengembang Freesound.org menyediakan API untuk berbagai bahasa pemrograman, sehingga memungkinkan untuk memecahkan masalah yang sama dengan alat yang berbeda. Daftar bahasa dan tautan yang didukung untuk mengaksesnya di GitHub tercantum di bawah ini.

Untuk mencapai tujuan tersebut, python digunakan, karena bahasa pemrograman pengetikan dinamis yang indah ini mendapatkan popularitasnya karena kemudahan penggunaannya, sepenuhnya menghapus mitos kompleksitas pengembangan perangkat lunak. Modul untuk bekerja dengan freesound.org untuk python dapat diklon dari repositori github.com.

Di bawah ini adalah kode dua bagian yang menunjukkan kemudahan penggunaan API ini. Bagian pertama dari kode program melakukan tugas analisis data, yang hasilnya adalah kepadatan distribusi data untuk setiap kelas yang diminta, dan bagian kedua mengunggah data dari repositori freesound.org untuk kelas yang dipilih. Kepadatan distribusi saat mencari informasi akustik dengan kata kunci kaca, mesin, pintu disajikan di bawah ini dalam diagram lingkaran sebagai contoh.

Kode sampel analisis data Freesound.org

import plotly import plotly.graph_objs as go import freesound import os import termcolor #      def histogram(data, filename = "tmp_histogram.html"): data = [ go.Histogram( histfunc="count", x=data, name="count",textfont=dict(size=15) ), ] plotly.offline.plot({ "data": data, "layout": go.Layout(title="Histogram") }, auto_open=True, filename=filename) pass #      freesound.org def freesound_analysis(search_tokens, output, lim_page_count = 1, key = None): lim_page_count = int(lim_page_count) try: client = freesound.FreesoundClient() client.set_token(key,"token") print(termcolor.colored("Authorisation successful ", "green")) except: print(termcolor.colored("Authorisation failed ", "red")) classes = list() for token in search_tokens: try: results = client.text_search(query=token,fields="id,name,previews") output_catalog = os.path.normpath(output) if not os.path.exists(output_catalog): os.makedirs(output_catalog) page_count = int(0) while True: for sound in results: try: classes.append(token) info = "Data has been getter: " + str(sound.name) print(termcolor.colored(info, "green")) except: info = "Data has not been getter: " + str(sound.name) print(termcolor.colored(info, "red")) page_count += 1 if (not results.next) or (lim_page_count == page_count): page_count = 0 break results = results.next_page() except: print(termcolor.colored(" Search is failed ", "red")) histogram(classes) pass

Kode contoh untuk mengunduh data freesound.org

 #   def freesound_download(search_tokens, output, lim_page_count = 1, key = None): lim_page_count = int(lim_page_count) #  .     try: client = freesound.FreesoundClient() client.set_token(key,"token") print(termcolor.colored("Authorisation successful ", "green")) except: print(termcolor.colored("Authorisation failed ", "red")) for token in search_tokens: try: results = client.text_search(query=token,fields="id,name,previews") output_catalog = os.path.normpath(output + "\\" + str(token)) if not os.path.exists(output_catalog): os.makedirs(output_catalog) page_count = int(0) while True: for sound in results: try: sound.retrieve_preview(output_catalog) info = "Saved file: " + str(output_catalog) + str(sound.name) print(termcolor.colored(info, "green")) except: info = str("Sound can`t be saved to " + str(output_catalog) + str(sound.name) ) print(termcolor.colored(info, "red")) page_count += 1 if not results.next or lim_page_count == page_count: page_count = 0 break results = results.next_page() except: print(termcolor.colored(" Search is failed ", "red"))

Fitur freesound adalah bahwa analisis data audio dapat dilakukan tanpa mengunduh file audio, memungkinkan Anda untuk mendapatkan MFCC, energi spektral, centroid spektral dan koefisien lainnya. Baca lebih lanjut tentang informasi tingkat rendah dalam dokumentasi freesound.ord .

Menggunakan API freesound.org, waktu yang dihabiskan untuk mengambil dan mengunduh data diminimalkan, memungkinkan Anda untuk menghemat jam kerja mempelajari sumber informasi lain, karena akurasi tinggi pengklasifikasi akustik memerlukan dataset besar dengan variabilitas besar, mewakili data dengan harmonik berbeda pada satu dan kelas acara yang sama.

YouTube-8M dan AudioSet

Saya pikir youtube tidak terlalu diperlukan dalam presentasi, tetapi bagaimanapun, Wikipedia memberi tahu kami bahwa youtube adalah situs hosting video yang menyediakan pengguna dengan layanan tampilan video, lupa untuk mengatakan bahwa youtube adalah database besar, dan sumber ini harus digunakan dalam pembelajaran mesin , dan Google Inc memberi kami proyek yang disebut YouTube-8M Dataset .

YouTube-8M Dataset adalah kumpulan data yang mencakup lebih dari satu juta file video dari YouTube dalam kualitas tinggi, untuk memberikan informasi yang lebih akurat, pada Mei 2018, ada 6.1M video dengan 3862 kelas. Dataset ini dilisensikan di bawah Creative Commons Attribution 4.0 International (CC BY 4.0) . Lisensi semacam itu memungkinkan Anda untuk menyalin dan mendistribusikan materi pada media dan format apa pun.

Anda mungkin bertanya-tanya: di mana data video masuk ketika informasi akustik diperlukan untuk tugas tersebut, dan Anda akan sangat benar. Faktanya adalah bahwa Google tidak hanya menyediakan konten video, tetapi juga secara terpisah mengalokasikan sub proyek dengan data audio yang disebut AudioSet .

AudioSet - menyediakan kumpulan data yang diperoleh dari video YouTube, di mana banyak data disajikan dalam hierarki kelas menggunakan file ontologi , representasi grafisnya terletak di bawah.

File ini memungkinkan Anda untuk mendapatkan gagasan tentang penyatuan kelas, serta akses ke video youtube. Untuk mengunggah data dari ruang Internet, Anda dapat menggunakan modul python - youtube-dl, yang memungkinkan Anda mengunduh konten audio atau video, tergantung pada tugas yang diperlukan.

AudioSet mewakili sebuah cluster yang dibagi menjadi tiga set: tes, pelatihan (seimbang) dan pelatihan (tidak seimbang) dataset .

Mari kita lihat cluster ini dan menganalisis masing-masing set ini secara terpisah untuk memiliki gagasan tentang kelas yang terkandung.

Pelatihan (seimbang)

Menurut dokumentasi, set data ini terdiri dari 22.176 segmen yang diperoleh dari berbagai video yang dipilih oleh kata kunci, yang menyediakan setidaknya 59 salinan untuk setiap kelas. Jika kita melihat kepadatan distribusi kelas root dalam hierarki set, kita akan melihat bahwa kelas Musik adalah grup terbesar file audio.

Kelas terorganisir didekomposisi menjadi himpunan bagian kelas, memungkinkan Anda untuk mendapatkan informasi lebih rinci saat menggunakannya. Set pelatihan yang seimbang ini memiliki kepadatan distribusi yang jelas bahwa keseimbangan ada, tetapi juga kelas-kelas individual sangat berbeda dari pandangan umum.

Distribusi kelas yang jumlah elemennya melebihi nilai rata-rata

Durasi rata-rata dari masing-masing file audio adalah 10 detik, informasi lebih rinci disajikan oleh diagram disk, yang menunjukkan bahwa durasi beberapa file berbeda dari set utama. Bagan ini juga disajikan.

Diagram satu setengah persen durasi non-rata-rata dari set audio seimbang

Pelatihan (tidak seimbang)

Keuntungan dari dataset ini adalah ukurannya. Bayangkan saja, menurut dokumentasi, set ini mencakup 2.042.985 segmen dan, dibandingkan dengan dataset seimbang, mewakili variabilitas yang hebat, tetapi entropi set ini jauh lebih tinggi.

Dalam set ini, durasi rata-rata dari masing-masing file audio juga sama dengan 10 detik, diagram disk untuk dataset ini disajikan di bawah ini.

Bagan durasi non-rata-rata dari set audioset yang tidak seimbang

Set tes

Set ini sangat mirip dengan set seimbang dengan keuntungan bahwa elemen-elemen set ini tidak berpotongan. Distribusi mereka disajikan di bawah ini.

Distribusi kelas yang jumlah elemennya melebihi nilai rata-rata

Durasi rata-rata satu segmen dari dataset ini juga sama dengan 10 detik

dan sisanya memiliki durasi yang ditunjukkan pada diagram disk

Contoh kode untuk menganalisis dan mengunduh data akustik sesuai dengan dataset yang dipilih:

 import plotly import plotly.graph_objs as go from collections import Counter import numpy as np import os import termcolor import csv import json import youtube_dl import subprocess #      def histogram(data,hist_mean= True, filename = "tmp_histogram.html"): if hist_mean == True: cdata = Counter(data) mean_number_classes = np.asarray([cdata[x] for x in cdata]).mean() ldata = list() for name in cdata: if cdata[name] > mean_number_classes: ldata += list(Counter({name:cdata[name]}).elements()) trace_mean_data = go.Histogram(histfunc="count", x=ldata, name="count" ) trace_data = go.Histogram(histfunc="count", x=data, name="count", text="" ) trace = [ trace_data, trace_mean_data] plotly.offline.plot({ "data": trace, "layout": go.Layout(title="stack") }, auto_open=True, filename=filename) pass #       def pie_chart(labels, values = None, filename = "tmp_pie_chart.html", textinfo = 'label+value'): if labels == None: raise Exception("Can not create pie chart, because labels is None") if values == None: data = Counter(labels) labels = list() values = list() for name in data: labels.append(name) values.append(data[name]) trace = go.Pie(labels=labels, values=values,textfont=dict(size=20),hoverinfo='label+percent', textinfo=textinfo, marker=dict(line=dict(color='#000000', width=2)) ) plotly.offline.plot([trace], filename='basic_pie_chart') pass #          def audioset_analysis(audioset_file, inputOntology): if not os.path.exists(inputOntology) or not os.path.exists(audioset_file): raise Exception("Can not found file") with open(audioset_file, 'r') as fe: csv_data = csv.reader(fe) sx = list() with open(inputOntology) as f: data = json.load(f) duration_hist = list() for row in csv_data: if row[0][0] == '#': continue classes = row[3:] try: color = "green" tmp_duration = str(float(row[2]) - float(row[1])) info = str("id: ") + str(row[0]) + str(" duration: ") + tmp_duration duration_hist.append(tmp_duration) for cl in classes: for dt in data: cl = str(cl).strip().replace('"',"") if cl == dt['id'] and len(dt['child_ids']) == 0: sx.append(dt['name']) info += str(" ")+str(dt['name']) + str(",") except: color = "red" info = "File has been pass: " + str(row[0]) continue print(termcolor.colored(info, color)) histogram(sx, filename="audioset_class") pie_chart(duration_hist, textinfo="percent + label", filename="audioset_duration")

 #   youtube def youtube_download(filepath, ytid): ydl_opts = { 'format': 'bestaudio/best', 'outtmpl': os.path.normpath(filepath), 'postprocessors': [{ 'key': 'FFmpegExtractAudio', 'preferredcodec': 'wav', 'preferredquality': '192', }], } with youtube_dl.YoutubeDL(ydl_opts) as ydl: ydl.download(['https://www.youtube.com/watch?v={}'.format(ytid)]) pass #    ffmpeg def cutOfPartFile(filename,outputFile, start, end, frequency = 44100): duration = float(end) - float(start) command = 'ffmpeg -i ' command += str(filename)+" " command += " -ar " + str(frequency) command += " -ss " + str(start) command += " -t " + str(duration) + " " command += str(outputFile) subprocess.call(command,shell=True) pass #    yotube        def audioset_converter(incatalog,outcatalog, token = "*.wav", frequency = 44100): find_template = os.path.join(incatalog,token) files = glob(find_template); for file in files: _,name = os.path.split(file) name = os.path.splitext(name)[0] duration = str(name).split("_")[1:3] filename = name.split("_")[0] +"."+ token.split(".")[1]; outfile = os.path.join(outcatalog,filename) cutOfPartFile(file,outfile,start=duration[0],end=duration[1]) #    audioset def audioset_download(audioset_file, outputDataset, frequency = 44100): t,h = os.path.split(audioset_file) h = h.split(".") outputDataset_full = os.path.join(outputDataset,str(h[0])+"_full") outputDataset = os.path.join(outputDataset,str(h[0])) if not os.path.exists(outputDataset): os.makedirs(outputDataset) if not os.path.exists(outputDataset_full): os.makedirs(outputDataset_full) with open(audioset_file, 'r') as fe: csv_data = csv.reader(fe) duration_hist = list() for row in csv_data: if row[0][0] == '#': continue try: color = "green" tmp_duration = str(float(row[2]) - float(row[1])) info = str("id: ") + str(row[0]) + str(" duration: ") + tmp_duration duration_hist.append(tmp_duration) save_full_file = str(outputDataset_full) + str("//")+ str(row[0]).lstrip()+str("_") +str(row[1]).lstrip() + str("_").lstrip() + str(row[2]).lstrip() + str('.%(ext)s') youtube_download(save_full_file,row[0]) except: color = "red" info = "File has been pass: " + str(row[0]) continue print(termcolor.colored(info, color)) audioset_converter(outputDataset_full,outputDataset, frequency = frequency)

Untuk memperoleh informasi lebih rinci tentang analisis data audioset, atau mengunggah data ini dari ruang yotube sesuai dengan file ontologi dan set audioset yang dipilih, kode program tersedia secara bebas ke repositori GitHub .

urbansound

Urbansound adalah salah satu set data terbesar dengan peristiwa suara yang ditandai, yang kelasnya termasuk lingkungan perkotaan. Set ini disebut taksonomi (kategorikal), yaitu setiap kelas dibagi ke dalam subkelasnya. Orang banyak seperti itu dapat direpresentasikan dalam bentuk pohon.

Untuk mengunggah data urbansound untuk digunakan nanti, buka saja halaman itu dan klik unduh .

Karena tugas tidak perlu menggunakan semua subclass, dan hanya satu kelas saja yang diperlukan terkait dengan mobil, pertama-tama perlu untuk menyaring kelas yang diperlukan menggunakan file meta yang terletak di root direktori yang diperoleh saat membuka ritsleting file yang diunduh.

Setelah membongkar semua data yang diperlukan dari sumber yang terdaftar, ternyata membentuk dataset yang berisi lebih dari 15.000 file. Volume data yang sedemikian besar memungkinkan kita untuk beralih ke tugas melatih pengklasifikasi akustik, tetapi masih ada masalah yang belum terselesaikan mengenai “kemurnian” data, mis. set pelatihan mencakup data yang tidak terkait dengan kelas-kelas yang diperlukan dari masalah yang sedang dipecahkan. Misalnya, ketika mendengarkan file dari kelas “pemecahan kaca”, Anda dapat menemukan orang-orang berbicara tentang “betapa tidak baiknya memecahkan kaca”. Oleh karena itu, kita dihadapkan dengan tugas menyaring data dan, sebagai alat untuk memecahkan masalah semacam ini, alat sangat cocok, intinya dikembangkan oleh orang-orang Belarusia dan menerima nama aneh "Yandex.Toloka".

Yandex.Toloka

Yandex.Toloka adalah proyek crowdfunding yang dibuat pada tahun 2014 untuk menandai atau mengumpulkan sejumlah besar data untuk digunakan lebih lanjut dalam pembelajaran mesin. Bahkan, alat ini memungkinkan Anda untuk mengumpulkan, menandai, dan memfilter data menggunakan sumber daya manusia. Ya, proyek ini tidak hanya memungkinkan Anda untuk menyelesaikan masalah, tetapi juga memungkinkan orang lain untuk menghasilkan uang. Beban keuangan dalam kasus ini jatuh di pundak Anda, tetapi karena kenyataan bahwa lebih dari 10.000 tolkers bertindak sebagai bagian dari pemain, hasil pekerjaan akan diterima dalam waktu dekat. Deskripsi yang baik tentang pengoperasian alat ini dapat ditemukan di blog Yandex .

Secara umum, penggunaan naksir tidak terlalu sulit, karena publikasi tugas hanya memerlukan pendaftaran di situs , jumlah minimum 10 dolar AS, dan tugas yang dijalankan dengan benar. Cara merumuskan tugas dengan benar, Anda dapat melihat dokumentasi Yandex.Tolok atau tidak ada artikel buruk tentang Habr . Dari saya sendiri hingga artikel ini saya ingin menambahkan bahwa meskipun sebuah templat yang sesuai dengan kebutuhan tugas Anda tidak ada, pengembangannya akan memakan waktu tidak lebih dari beberapa jam kerja, dengan istirahat untuk kopi dan rokok, dan hasil dari para pemain dapat diperoleh pada akhir hari kerja.

Kesimpulan

Dalam pembelajaran mesin, ketika memecahkan masalah klasifikasi atau regresi, salah satu tugas utama adalah mengembangkan set data yang andal - sebuah dataset. Dalam artikel ini, sumber informasi dengan sejumlah besar data akustik dipertimbangkan yang memungkinkan untuk membentuk dan menyeimbangkan set data yang diperlukan untuk tugas tertentu. Kode program yang disajikan memungkinkan kami untuk menyederhanakan operasi mengunggah data ke minimum, sehingga mengurangi waktu untuk menerima data dan menghabiskan sisanya untuk pengembangan sebuah classifier.

Adapun tugas saya, setelah mengumpulkan data dari semua sumber yang disajikan dalam artikel ini dan penyaringan data berikutnya, saya berhasil membentuk dataset yang diperlukan untuk melatih pengklasifikasi akustik, yang didasarkan pada jaringan saraf. Saya harap artikel ini memungkinkan Anda dan tim Anda menghemat waktu dan menghabiskannya untuk pengembangan teknologi baru.

PS Modul perangkat lunak yang dikembangkan dalam python, untuk analisis dan pengunggahan data akustik untuk masing-masing sumber yang disajikan, Anda dapat menemukannya di repositori github

Pengembangan dataset akustik untuk pelatihan jaringan saraf

More articles: