DeepMind AI gagal mengidentifikasi tindakan Homer Simpson secara akurat



Ada semakin banyak jenis jaringan saraf, dan mereka benar-benar membantu orang hidup dan bekerja. Beberapa sistem memprediksi cuaca, beberapa - belajar membuat diagnosa, dan sebagian sistem masuk ke bisnis besar. AI, bentuknya yang lemah, sudah tahu bagaimana menganalisis sejumlah besar data, menemukan ketergantungan antara, pada pandangan pertama, faktor-faktor yang tidak terkait. Tapi, tentu saja, masih ada banyak masalah - kecerdasan buatan tidak mampu mengatasi analisis perilaku seperti karakter kartun "misterius" seperti Homer Simpson.

Tidak, sistem dapat mengidentifikasi beberapa tindakannya, tetapi tidak semua. Pada saat yang sama, jaringan saraf dilatih pada sejumlah besar video YouTube dari The Simpsons. Perlu dicatat bahwa DeepMind masih jauh dari baru untuk pengembangan berbagai sistem AI. Sebagai contoh, salah satu perkembangan perusahaan ini, yang sebelumnya merupakan bagian dari Google, dan sekarang dipindahkan ke yurisdiksi Softbank, mampu mengalahkan juara dunia dalam pertandingan yang dilangsungkan.

Sistem DeepMind, serta perkembangan semacam ini oleh perusahaan lain, mampu menganalisis volume informasi yang sangat besar. Seiring waktu, pekerjaan jaringan saraf menjadi semakin sempurna saat mereka belajar sendiri. Apakah itu pengenalan wajah atau terjemahan dari bahasa Inggris ke bahasa Cina dan sebaliknya - hasilnya semakin baik dari hari ke hari. Untuk mengajarkan sistem mereka, yang disebut Kinetics, untuk memahami perilaku orang, karyawan DeepMind โ€œmemberi makanโ€ lebih dari 300.000 video YouTube, belajar membedakan sekitar 400 jenis tindakan manusia.

"Sistem AI sekarang sangat baik dalam mengenali berbagai objek dalam gambar, tetapi sisi lemahnya bekerja dengan video," kata perwakilan DeepMind. โ€œSalah satu alasan utama adalah kurangnya sampel besar video berkualitas tinggi.โ€

Untuk mengatasi masalah ini, karyawan DeepMind memutuskan untuk membuat sampel sendiri. Untuk masing-masing dari 400 jenis tindakan yang seseorang dari YouTube "potong" setidaknya 400 video, berlangsung sekitar 10 detik. Hasilnya adalah salah satu set data berkualitas tinggi dan khusus pertama yang dirancang untuk pengajaran AI. Tentu saja, perusahaan DeepMind, yang membentuk sampel ini saat masih menjadi divisi Google, beruntung karena Google (sekarang memegang Alphabet) adalah pemilik YouTube. Karenanya, karyawan Deepmind mungkin memiliki akses ke alat khusus untuk bekerja dengan materi layanan video. Perusahaan lain akan mengalami kesulitan dalam hal ini, karena menemukan video berkualitas tinggi yang tersedia untuk umum untuk menyusun kumpulan data khusus tidak semudah kelihatannya.

Keakuratan mengidentifikasi berbagai Kinetika yang terlihat dalam video aksi orang adalah sekitar 80%, yang tidak sedikit. Benar, ini berlaku untuk video biasa, di mana mereka bermain tenis, menenangkan anak yang menangis, membuat ramalan cuaca, dll. Dalam kasus Homer Simpson, semuanya lebih rumit, di sini akurasinya langsung turun empat kali, hingga 20%. Sulit bagi jaringan saraf untuk mengidentifikasi tindakan Homer seperti melempar koin, menyisir rambut yang tidak ada (sepasang rambut yang tersisa tidak dihitung) dan lainnya.

Selain Homer, Kinetics sulit untuk mengidentifikasi hidangan atau produk jika hanya sebagian saja yang ditampilkan. Burger yang setengah dimakan sudah didefinisikan jauh kurang akurat daripada keseluruhan. Masalah juga muncul jika objek ditampilkan sangat kecil. Menurut perwakilan DeepMind, untuk mengajarkan jaringan saraf untuk menentukan beberapa tindakan dengan tingkat akurasi yang tinggi, kadang-kadang hanya beberapa video saja yang cukup. Tetapi kadang-kadang bahkan seratus tidak membantu meningkatkan keakuratan dalam menentukan tindakan tertentu.



Semua ini adalah masalah yang sudah diketahui. Sebagai contoh, sebelumnya jaringan saraf yang sama mengalami kesulitan dalam mengidentifikasi wajah orang-orang dari kelompok etnis tertentu. Menurut beberapa ahli, algoritma yang mendasari Kinetics mampu menentukan jenis kelamin seseorang sesuai dengan beberapa fitur pidato dan teks .

Jaringan saraf dari DeepMind dapat menentukan jenis kelamin seseorang dalam video (meskipun tidak berarti dalam semua kasus), serta mengevaluasi "keseimbangan gender" dari sejumlah video. Misalnya, video dengan kumis dan jenggot cukur sebagian besar laki-laki (yang akan terkejut), tetapi bekerja dengan alis atau pemandu sorak adalah perempuan. Benar, masalah dengan pengakuan gender masih ada, pengembang memiliki sesuatu untuk dikerjakan di sini.

Di masa depan, bekerja pada sistem seperti itu cenderung menentukan tidak hanya apa yang dilakukan orang di video, tetapi juga alasan tindakan mereka. Misalnya, jaringan saraf dapat menentukan mengapa seseorang berseru "oh," menjelaskan apa yang menyebabkan tindakan ini. Ini membutuhkan pekerjaan tambahan yang solid dan banyak, banyak set data untuk pelatihan.

Mungkin, jika Anda melatih Kinetika dengan lebih baik, maka sistem ini akan belajar menentukan tindakan Homer Simpson. Meskipun siapa tahu, ini adalah karakter yang sangat tidak terduga. Apakah ini akan berhasil?

Source: https://habr.com/ru/post/id404523/


All Articles