Cara menggambar dan membaca suara


Foto oleh Matthew Potter CC-BY

Bagaimana menghubungkan informasi audio dan visual? Pertanyaan ini sering ditanyakan oleh para ilmuwan dan amatir dari seluruh dunia. Jadi, pada Februari 2006, berita bahwa para ilmuwan berhasil mereproduksi suara dari pot tanah liat berusia lebih dari 6500 tahun dengan cepat menyebar ke seluruh Internet.

Potter tersebut diduga menerapkan irama musik ke pot selama pembuatannya. Sayangnya, ini menjadi lelucon April Mop yang gagal di televisi Belgia.

Namun, Patrick Feaster mampu memproses catatan, yang usianya melebihi 1000 tahun. Pada kesempatan ini, pada Mei 2011, ia berbicara di konferensi Association for Recorded Sound Collections (ARSC) dengan pembukaan “paleospectrophony”.

Benamkan diri Anda dalam sejarah: menyalin catatan masa lalu

Patrick menggunakan teknologi modern (dalam hal ini, tidak terlalu modern, karena spektrogram telah ditemukan sejak lama) untuk mengubah objek visual menjadi objek suara. Namun, umat manusia tidak selalu seperti ini dan mencoba, sebaliknya, untuk "menangkap" suara dalam gambar.

Untuk waktu yang lama (sebelum penciptaan fonograf oleh Thomas Edison), orang-orang khawatir dengan pertanyaan: bagaimana menemukan cara untuk memperbaiki musik yang akan membantu orang yang menonton rekaman memainkan melodi di kepala mereka semudah musisi profesional ketika melihat skor. Sayangnya, menurut Dr. Fister, tugas seperti itu pada prinsipnya tidak dapat dicapai, karena otak kita dalam kebanyakan kasus tidak cukup baik dalam mengubah informasi visual menjadi audio.

Mungkin solusi untuk masalah ini di masa lalu tidak dimahkotai dengan kesuksesan, tetapi sejarah telah meninggalkan kita dengan banyak bukti tentang bagaimana orang-orang di era yang berbeda mencoba membuat sistem rekaman suara yang serupa. Yang paling terkenal dari sistem-sistem ini membentuk dasar dari phono-autograph - pendahulu phonograph, ditemukan oleh orang Prancis Edouard Martenville. Phonoautograph adalah alat di mana suara melewati kerucut, menyebabkan membran yang terhubung ke jarum bergetar. Jarum itu, pada gilirannya, menggambar garis-garis seperti gelombang pada silinder kaca yang ditutupi kertas jelaga.

Menggunakan phono-autograph, suara bisa ditangkap, tetapi tidak ada cara untuk mereproduksi. Ini adalah masalah yang diputuskan Fister. Pada tahun 2008, ia, rekan-rekannya, dan pakar audio David Giovannoni berkumpul di Lawrence Berkeley National Laboratory untuk menguraikan salah satu dari phonoautographs Martenville yang paling terpelihara.

Lawrence's Lab mengembangkan teknologi untuk mengekstraksi suara dari foto-foto berkualitas tinggi yang menangkap gambar dari media lilin rapuh atau cakram pecah. Dengan menggunakan teknologi ini, para ilmuwan menerima rekaman phonoautogram dari lagu "Moonlight" ("Au Clair de la Lune"), yang dibuat pada tahun 1860. Diyakini bahwa ini adalah rekaman pertama di mana kita dapat membedakan suara manusia.

Namun, solusi untuk masalah ini tidak cukup untuk Fister: selanjutnya, ia tidak hanya merekam suara dari lebih dari 50 phonoautograms, tetapi juga mengeksplorasi upaya sebelumnya untuk "merekam suara". Tampaknya aneh, layanan Buku Google membantu ilmuwan ini. Menggunakannya, Fister menulis karakter dari buku-buku yang terus-menerus diabaikan, dianggap kebiasaan sejarah.

Dia menemukan garis bergelombang tertua di buku 1806. Melalui teknik lain, ia mampu menguraikan melodi 1677, yang direkam oleh banyak poin. Lain ditemukan dalam catatan abad ke-10, di mana garis menunjukkan kunci apa yang harus dinyanyikan. Contoh entri tersebut dapat ditemukan di situs web Phonozoic- nya .

Pendekatan lain

Para peneliti dari MIT, Microsoft dan Adobe mengikuti jalur yang berbeda: mereka merekonstruksi suara dari gambar bergerak (atau lebih tepatnya, bergetar). Para peneliti telah mengembangkan suatu algoritma untuk memperoleh sinyal audio dari getaran yang direkam pada video.

Dalam salah satu percobaan ini, mereka berhasil mengekstrak pidato yang dapat dibaca dari merekam paket kosong dari bawah chip. Dalam sejumlah percobaan lain, hal yang sama dapat dilakukan dengan permukaan aluminium foil, segelas air, dan bahkan dengan daun tanaman rumah. Pada 2014, tim mempresentasikan pencapaian mereka di konferensi SIGGRAPH tahunan. ( Video dari presentasi oleh salah satu peneliti yang mengerjakan proyek di konferensi TED.)

Faktanya adalah bahwa ketika suara bersentuhan dengan suatu objek, itu membuatnya bergetar. Gerakan-gerakan yang diciptakan oleh getaran-getaran ini begitu kecil dan tidak terlihat sehingga seseorang tidak dapat melihatnya. Namun, kamera dapat "melihat" mereka: untuk mengekstrak sinyal audio dari video, para ilmuwan menggunakan perekaman video dengan tingkat pengambilan bingkai yang lebih tinggi daripada frekuensi sinyal audio.

Awalnya, kamera dengan frekuensi pemotretan 2000 dan 6000 frame per detik digunakan dalam percobaan, tetapi para peneliti mencoba menggunakan kamera lain yang lebih murah. Tentu saja, itu tidak mungkin untuk mengekstraksi ucapan artikulasi dari video yang direkam pada frame rate 60 frame per detik, tetapi tetap tampak mungkin untuk memahami berapa banyak orang di ruangan itu, jenis kelamin mereka dan bahkan fitur pengucapan mereka.

Tentu saja, ketika berpikir tentang menggunakan perkembangan seperti itu, "cerita mata-mata" muncul di pikiran, namun, para peneliti sendiri menyebut proyek mereka kesempatan untuk menemukan aspek baru dalam gambar objek dan mempelajari sifat mereka yang sebelumnya belum dijelajahi. Dan jika ratusan tahun yang lalu, orang mencoba menemukan cara untuk "merekam suara", sekarang "rekaman" seperti itu menjadi efek samping, yang, pada gilirannya, membantu mengungkap sifat-sifat baru dari objek yang sudah dikenal.

Lakukan sendiri

Seperti yang telah disebutkan, phonoautogram pertama didekripsi berkat teknologi mereproduksi suara dari foto-foto rekaman lama (kami sudah menulis tentang teknologi ini di salah satu bahan kami - ini juga berisi tautan ke rekaman audio yang didekripsi). Namun, Patrick Fister menekankan bahwa siapa pun dapat mengatasi tugas ini - jika dia tahu apa yang harus dilakukan.

Proses terperinci dijelaskan dalam materi ini . Kami sendiri, kami mencatat bahwa untuk menyelesaikan masalah, Anda akan memerlukan foto berkualitas tinggi, keterampilan dasar Photoshop (gelombang yang digambar pada vinil harus didigitalkan, "diluruskan" - alur pada pelat diputar dalam spiral - menghapus semua jenis kebisingan dan perpindahan), serta komputer yang relatif kuat dengan jumlah RAM yang besar.

Untuk mengonversi gambar yang dihasilkan ke file WAV, Patrick menggunakan perangkat lunak yang agak eksotis: ini adalah ImageToSound. Ini gratis, tetapi meskipun demikian, cukup sulit ditemukan di jaringan (Patrick membagikan sumbernya ).

Program secara berurutan mengubah setiap blok gambar (lebar blok - 1 piksel) menjadi sampel audio. Sayangnya, perangkat lunak ini bahkan tidak mendukung Windows 7 (penulis menggunakan komputer terpisah dengan Windows 98 untuk bekerja). Sebagai alternatif, Fister menyarankan menggunakan program AEO-Light, tetapi memperingatkan bahwa dia sendiri tidak sepenuhnya akrab dengan seluk-beluk bekerja dengannya.

Langkah terakhir adalah mengontrol kecepatan pemutaran. Di sini matematika sederhana datang untuk menyelamatkan. Pertama, Anda perlu mengetahui kecepatan pemutaran pada pelat asli, panjang satu putaran gelombang digital (setelah "despiralization") dalam piksel dan frekuensi pengambilan sampel file akhir.

Jika gambar diedit ke file audio dengan frekuensi sampling 44,1 kHz, ini berarti bahwa file audio yang kedua akan sama dengan 44 100 piksel gambar. Jika, misalnya, kecepatan lagu pada rekaman vinil adalah 50 rpm, dan setelah digitalisasi dan despiralisasi, satu putaran rekaman membutuhkan 30.000 piksel, kami mendapatkan 1.500.000 piksel per menit (50x30.000).

Jika kita membagi angka ini dengan 60, kita mendapatkan jumlah piksel per detik (1.500.000 / 60 = 25.000). Bagilah laju sampling dengan jumlah piksel per detik (44 100/25 000 = 1,764). Lipat gandakan nomor yang dihasilkan dengan panjang file audio (waktu pemutaran lagu) dan dapatkan waktu kapan file ini awalnya direkam. Jika kecepatan pemutaran rekaman asli tidak diketahui, Patrick menyarankan Anda untuk memilih kecepatan akhir dengan telinga.

Patrick Fister memperingatkan - ini adalah pekerjaan yang agak melelahkan yang membutuhkan waktu dan kesabaran, tetapi pada saat yang sama kadang-kadang memberikan hasil yang luar biasa: terutama ketika datang ke suara-suara masa lalu, yang, tampaknya, selamanya hilang.

PS Materi lainnya tentang topik audio - di blog kami " World of Hi-Fi ."

Source: https://habr.com/ru/post/id393257/


All Articles