🎯 👩‍🎤 🙏🏾 Ikhtisar solusi AI & ML pada 2018 dan perkiraan untuk 2019: Bagian 2 - Alat dan perpustakaan, AutoML, RL, etika dalam AI 👩🏻‍🚒 🚕 ⛈️

Halo semuanya! Saya mempersembahkan untuk Anda terjemahan artikel Vidhya Analytics dengan ikhtisar acara AI / ML pada tren 2018 dan 2019. Bahannya cukup besar, sehingga dibagi menjadi 2 bagian. Saya harap artikel ini akan menarik minat tidak hanya spesialis spesialis, tetapi juga mereka yang tertarik dengan topik AI. Selamat membaca!

Navigasi artikel
Bagian 1
- Pemrosesan Bahasa Alami (NLP)
- NLP Trends untuk 2019
- Visi komputer
- Tren dalam visi mesin untuk 2019

Bagian 2
- Alat dan perpustakaan
- Tren AutoML untuk 2019
- Pembelajaran Penguatan
- Tren Pembelajaran Penguatan untuk 2019
- AI untuk anak laki-laki yang baik - gerakan menuju AI "etis"
- Tren etis dalam AI untuk 2019

Baca Pertama: Bagian 1 - NLP, Computer Vision

Alat dan Perpustakaan

Bagian ini akan menarik bagi semua profesional ilmu data. Alat dan perpustakaan - roti dan mentega bagi para ilmuwan. Saya berpartisipasi dalam banyak perdebatan tentang alat mana yang lebih baik, kerangka mana yang menggantikan yang lain, perpustakaan mana yang merupakan perwujudan dari komputasi "ekonomis", dan semua itu. Saya yakin banyak dari Anda juga terpengaruh.

Tetapi satu hal yang tidak dapat kita setujui adalah bahwa kita harus mengikuti perkembangan alat terbaru di daerah ini atau berisiko ketinggalan. Kecepatan di mana Python telah melampaui pesaing dan memantapkan dirinya sebagai pemimpin industri adalah ilustrasi yang baik tentang ini. Tentu saja, banyak yang mengarah pada pilihan subyektif (alat mana yang digunakan organisasi Anda, kompatibilitas dengan infrastruktur yang ada, dll.), Tetapi jika Anda tidak tetap up to date, sekarang saatnya untuk memulai dengan SEKARANG.

Jadi apa yang menjadi berita utama tahun ini [pada tahun 2018 - kira-kira. per.]? Ayo kita selesaikan!

PyTorch 1.0

Apa hype sekitar PyTorch yang saya sebutkan berkali-kali dalam artikel ini?

Mengingat betapa lambatnya TensorFlow, ia membuka jalan bagi PyTorch untuk memasuki pasar pembelajaran yang mendalam. Sebagian besar kode sumber terbuka yang saya lihat di GitHub adalah implementasi dari PyTorch. Ini bukan kebetulan - PyTorch sangat fleksibel, dan versi terbaru (v1.0) sudah mendukung banyak produk dan penskalaan Facebook, termasuk memproses 6 miliar terjemahan teks per hari.

PyTorch baru saja mendapatkan momentum dan pertumbuhannya akan berlanjut pada 2019, jadi sekarang saatnya untuk bergabung dengan komunitas.

AutoML - Pembelajaran Mesin Otomatis

Pembelajaran Mesin Otomatis (atau AutoML) telah mendapatkan popularitas selama beberapa tahun terakhir. Perusahaan seperti RapidMiner , KNIME , DataRobot , dan H2O.ai telah merilis produk hebat yang menunjukkan potensi besar layanan ini.

Bisakah Anda bayangkan bekerja pada proyek ML di mana Anda hanya perlu bekerja dengan antarmuka drag and drop tanpa coding? Ini adalah skenario yang mungkin menjadi nyata dalam waktu dekat. Selain itu, peristiwa penting telah terjadi di ML / DL - rilis Auto Keras !

Auto Keras adalah pustaka sumber terbuka untuk melakukan tugas-tugas AutoML. Idenya adalah untuk membuat pembelajaran yang mendalam dapat diakses oleh para ahli domain yang mungkin tidak memiliki pengalaman dengan ML. Anda dapat membiasakan diri dengan produk di sini . Di tahun-tahun mendatang, ia akan membuat terobosan besar.

TensorFlow.js - Pembelajaran Jauh dalam Browser

Sejak kami memulai pekerjaan ini, kami telah membangun dan merancang pembelajaran mesin dan model pembelajaran mendalam di IDE dan laptop favorit kami. Bagaimana dengan mengambil langkah dan mencoba sesuatu yang lain? Ya, saya sedang berbicara tentang pembelajaran mendalam di peramban web Anda!

Sekarang ini telah menjadi kenyataan berkat kedatangan TensorFlow.js. Ada beberapa contoh di situs web proyek yang menunjukkan betapa keren konsep open source ini. Pertama-tama, TensorFlow.js memiliki tiga keunggulan / fitur:

Anda dapat mengembangkan dan menggunakan model ML menggunakan JavaScript;
Jalankan model TensorFlow yang ada di browser Anda;
Latih kembali model yang sudah jadi.

Tren AutoML untuk 2019

Saya ingin fokus pada AutoML di artikel ini. Mengapa Saya merasa bahwa dalam beberapa tahun ke depan situasi di bidang sains data akan berubah, tetapi jangan mengambil kata-kata saya untuk itu! Mario Mihailidis dari H2O.ai, Grandmaster of Kaggle, akan berbicara tentang apa yang diharapkan dari AutoML pada tahun 2019:

Pembelajaran mesin terus berjalan untuk menjadi salah satu tren paling penting di masa depan - ke mana arah dunia. Perluasan ini telah meningkatkan permintaan untuk aplikasi di bidang ini. Mengingat pertumbuhan ini, sangat penting bahwa otomatisasi menjadi kunci untuk memaksimalkan penggunaan sumber daya di bidang ilmu data. Memang, bidang aplikasi tidak ada habisnya: pinjaman, asuransi, anti-penipuan, visi komputer, akustik, sensor, rekomendasi, peramalan, NLP. Merupakan kehormatan besar untuk bekerja di bidang ini. Daftar tren yang akan tetap relevan adalah sebagai berikut:

Memberikan visualisasi dan wawasan untuk membantu menggambarkan dan memahami data;
Cari / bangun / ekstrak fungsi terbaik untuk kumpulan data yang diberikan;
Membangun model prediksi yang lebih kuat / lebih cerdas;
Menjembatani kesenjangan antara pemodelan kotak hitam dan penggunaan model seperti itu;
Memfasilitasi produksi model-model ini

Pembelajaran Penguatan

Penguatan pembelajaran adalah salah satu metode pembelajaran mesin, di mana sistem uji (agen) belajar dengan berinteraksi dengan lingkungan tertentu. Dari sudut pandang cybernetics, ini adalah jenis percobaan cybernetic. Respons lingkungan (dan bukan sistem manajemen penguatan khusus, seperti yang terjadi dalam pengajaran dengan guru) terhadap keputusan yang dibuat adalah sinyal penguatan, oleh karena itu pelatihan semacam itu adalah kasus khusus pelatihan dengan guru, tetapi guru adalah lingkungan atau modelnya. Anda juga perlu diingat bahwa beberapa aturan penguatan didasarkan pada guru implisit, misalnya, dalam kasus lingkungan saraf tiruan, pada aktivitas simultan neuron formal, karena itu mereka dapat dikaitkan dengan belajar tanpa guru.

- Sumber Wikipedia

Jika saya ditanya di bidang mana saya ingin melihat perkembangan yang lebih cepat, jawabannya adalah pembelajaran penguatan. Terlepas dari tajuk berita yang sesekali muncul, belum ada terobosan di bidang ini, dan yang paling penting, tampaknya tugas pembelajaran penguatan bagi masyarakat terlalu rumit secara matematis dan tidak ada area untuk aplikasi nyata dari aplikasi semacam itu.

Untuk beberapa hal ini benar, tahun depan saya ingin melihat contoh-contoh praktis menggunakan RL. Setiap bulan di GitHub dan Reddit, saya mencoba mempertahankan setidaknya satu repositori RL atau diskusi untuk membantu membahas topik ini. Mungkin ini adalah hal penting berikutnya yang akan datang dari semua studi ini.

OpenAI telah menerbitkan toolkit yang sangat berguna bagi mereka yang baru saja berkenalan dengan RL. Anda bisa membaca pengantar untuk RL di sini (ternyata sangat berguna bagi saya).

Jika saya melewatkan sesuatu, saya akan senang atas penambahan Anda.

Pengembangan OpenAI dalam Pembelajaran Penguatan Dalam

Sementara pengembangan RL lambat, jumlah materi pelatihan tentang topik ini tetap minimal (dengan kata lain). Meskipun demikian, OpenAI membagikan beberapa materi bagus tentang topik ini. Mereka menyebut proyek mereka "Spinning Up in Deep RL", tersedia di sini .

Sederhananya, ini adalah daftar sumber daya lengkap di RL. Penulis berusaha membuat kode dan penjelasan sesederhana mungkin. Ada cukup bahan yang mencakup terminologi RL, kiat pengembangan untuk penelitian RL, daftar bahan penting, kode dan repositori yang terdokumentasi dengan baik, serta contoh tugas yang dapat Anda mulai.

Anda tidak lagi harus menundanya sampai nanti, jika Anda berencana untuk mulai bekerja dengan RL, waktu Anda telah tiba!

Google Dopamin

Untuk memberikan dorongan bagi pengembangan dan melibatkan masyarakat dalam topik pembelajaran penguatan, tim Google AI memperkenalkan kerangka kerja Densamine TensorFlow untuk semua orang yang ingin membuat proyek lebih fleksibel dan dapat direproduksi.

Dalam repositori GitHub ini, Anda dapat menemukan informasi yang diperlukan untuk pelatihan bersama dengan kode TensorFlow. Ini mungkin platform yang sempurna untuk memulai eksperimen sederhana dalam lingkungan yang terkontrol dan fleksibel. Kedengarannya seperti mimpi bangun untuk setiap spesialis.

Tren Belajar Penguatan untuk 2019

Xander Steenbrugge, Pembicara DataHack Summit 2018 dan pendiri ArxivInsights Channel, adalah pakar dalam pembelajaran penguatan. Berikut adalah pemikirannya tentang kondisi RL saat ini dan apa yang harus kita harapkan pada tahun 2019:

Saat ini, saya melihat tiga masalah utama di bidang RL:

Kompleksitas model (agen harus melihat / mengumpulkan sejumlah besar pengalaman untuk belajar)
Generalisasi dan transfer pelatihan (Pelatihan tugas A, ujian tugas terkait B)
Hierarchical RL (dekomposisi subtitle otomatis)

Saya yakin bahwa dua masalah pertama dapat diselesaikan dengan menggunakan serangkaian metode yang sama terkait dengan pembelajaran representasi tanpa pengawasan.

Sekarang di RL kami melatih jaringan saraf yang mendalam yang mengekstrak tindakan ujung ke ujung (misalnya, dengan propagasi balik) dari ruang input mentah (misalnya, dalam piksel) menggunakan sinyal hadiah yang langka (misalnya, akun di beberapa permainan Atari atau robot sukses tangkap). Masalahnya di sini adalah:

Yang pertama . Butuh banyak waktu untuk "menumbuhkan" detektor fungsi yang berguna, karena rasio sinyal-ke-noise sangat rendah. RL pada dasarnya dimulai dengan tindakan acak, sampai Anda cukup beruntung untuk tersandung pada hadiah, maka Anda masih perlu mencari tahu persis apa hadiah spesifik sebenarnya disebabkan. Penelitian lebih lanjut dapat dilakukan dalam bentuk hardcode (penelitian epsilon-serakah) atau didorong oleh metode seperti eksplorasi rasa ingin tahu yang didorong . Ini tidak efisien, dan ini membawa kita kembali ke masalah 1.

Kedua , arsitektur jaringan saraf yang dalam dikenal karena kecenderungan mereka untuk "menghafal," dan dalam RL kami biasanya menguji agen pada dataset untuk pelatihan, oleh karena itu, "menghafal" didorong dalam paradigma ini.

Jalur pengembangan yang mungkin saya perhatikan dengan antusias adalah menggunakan pembelajaran representasi tanpa pengawasan untuk mengubah ruang input multi-dimensi yang kotor (misalnya, piksel) menjadi ruang "konseptual" dari dimensi yang lebih rendah yang memiliki sifat-sifat tertentu yang diperlukan, seperti linearitas, penguraian, stabilitas ke kebisingan dan banyak lagi.

Segera setelah Anda berhasil menghubungkan piksel ke semacam "ruang laten", belajar tiba-tiba menjadi lebih sederhana dan lebih cepat (masalah 1) dan Anda berharap bahwa aturan yang diambil dari ruang ini akan memiliki generalisasi yang lebih kuat karena properti yang disebutkan di atas ( masalah 2).

Saya bukan ahli dalam masalah Hierarki, tetapi semua hal di atas juga berlaku di sini: lebih mudah untuk memecahkan masalah hierarkis yang kompleks dalam "ruang tersembunyi" daripada di ruang input yang tidak diproses.

Sepasang spoiler dari seorang penerjemah

Apa itu pembelajaran representasi?

Dalam pembelajaran mesin, pembelajaran fitur atau pembelajaran representasi adalah seperangkat teknik yang memungkinkan sistem untuk secara otomatis memeriksa faktor-faktor yang diperlukan untuk menentukan fungsi atau klasifikasi berdasarkan data mentah. Ini menggantikan rekayasa fitur manual dan memungkinkan alat berat untuk mempelajari fungsi dan menggunakannya untuk melakukan tugas tertentu.

Pembelajaran fitur dapat "di bawah pengawasan" dan "tanpa observasi":

Dalam pembelajaran fitur di bawah pembelajaran fitur yang diawasi, fungsi dipelajari menggunakan input berlabel.
Dalam pembelajaran fitur tanpa observasi (pembelajaran fitur tanpa pengawasan), fungsi dipelajari berdasarkan data yang tidak terisi.

- Sumber Wikipedia

Apa itu ruang laten?

Kata "laten" di sini berarti "tersembunyi." Dalam konteks ini, ini paling sering digunakan dalam pembelajaran mesin - Anda mengamati beberapa data yang ada dalam ruang yang dapat Anda amati, dan Anda ingin mengubahnya menjadi ruang tersembunyi di mana titik data yang serupa lebih dekat satu sama lain.

Misalnya, perhatikan 4 gambar:

Dalam ruang piksel yang diamati, tidak ada kesamaan langsung antara dua gambar. Tetapi, jika Anda ingin menampilkannya di ruang tersembunyi, Anda ingin gambar di sebelah kiri lebih dekat satu sama lain di ruang tersembunyi daripada gambar di sebelah kanan. Dengan demikian, ruang tersembunyi Anda menyampaikan esensi dari struktur data Anda yang terkait dengan tugas. Di LDA, Anda memodelkan tugas sehingga dokumen yang terkait dengan topik serupa lebih dekat di ruang tersembunyi topik. Saat menyematkan kata-kata, Anda ingin menampilkan kata-kata dalam ruang vektor tersembunyi sehingga kata-kata dengan makna yang sama lebih dekat di ruang itu.

Bonus: Tonton video Xander tentang cara mengatasi hadiah langka di Deep RL (tugas pertama yang disorot di atas).

Kompleksitas model akan terus meningkat dengan penambahan tugas pelatihan tambahan yang meningkatkan sparseness, sinyal hadiah atipikal (hal-hal seperti penelitian, pelatihan awal berbasis rasa ingin tahu dalam gaya auto-encoder, mengurai faktor-faktor penyebab di lingkungan, dan banyak lagi). Ini bekerja sangat baik dengan kondisi hadiah yang sangat langka.

Karena itu, sistem pelatihan langsung di dunia fisik akan menjadi lebih dan lebih layak (bukan aplikasi modern yang terutama dilatih dalam lingkungan simulasi dan kemudian menggunakan pengacakan domain untuk mentransfer ke dunia nyata). Saya kira 2019 akan membawa demonstrasi pertama yang benar-benar mengesankan dalam robotika, yang hanya mungkin ketika menggunakan metode pembelajaran yang mendalam dan tidak dapat dikodekan / dirancang oleh manusia (tidak seperti kebanyakan contoh yang telah kita lihat sejauh ini).

Saya percaya bahwa mengikuti kesuksesan Deep RL dalam sejarah AlphaGo (terutama mengingat hasil AlphaFold baru-baru ini), RL secara bertahap akan mulai digunakan dalam aplikasi bisnis nyata yang akan membawa nilai praktis di luar ruang akademik, tetapi pertama-tama ruang lingkup akan terbatas pada aplikasi di mana ada simulasi akurat untuk pelatihan virtual skala besar dari agen-agen ini (misalnya, penemuan obat, optimalisasi arsitektur chip elektronik, perutean kendaraan dan paket, dan lainnya).

Pergeseran umum dalam pengembangan RL adalah proses yang telah dimulai ketika menguji agen pada data pelatihan tidak akan lagi dianggap "resmi". Meringkas metrik akan menjadi kunci, seperti halnya dengan metode pengajaran yang diawasi

AI for Good Boys - A Move to Ethical AI

Bayangkan dunia yang didorong oleh algoritma yang mendefinisikan setiap tindakan manusia. Bukan skenario yang menyenangkan? Etika dalam AI adalah topik yang selalu kita bahas dalam Analytics Vidhya, tetapi hal itu hilang dari latar belakang semua diskusi teknis, sementara itu harus dipertimbangkan setara dengan topik lainnya.

Tahun ini, beberapa organisasi mendapati diri mereka dalam situasi bodoh setelah skandal Cambridge Analytica (Facebook) dan kontroversi internal Google mengenai pengembangan senjata yang berada di puncak daftar skandal.

Tidak ada resep sederhana dan cocok untuk semua kasus untuk menyelesaikan aspek etika AI. Pertanyaan ini membutuhkan pendekatan terperinci dalam kombinasi dengan rencana terstruktur, implementasi yang harus dilakukan seseorang. Mari kita lihat beberapa acara besar yang mengguncang area awal tahun ini.

Kampanye Google dan Microsoft

Sangat menggembirakan melihat perusahaan besar menekankan sisi etis AI (meskipun jalan yang membawa mereka ke titik ini tidak terlalu elegan). Perhatikan pedoman dan prinsip yang diterbitkan oleh beberapa perusahaan:

Intinya, dokumen-dokumen ini berbicara tentang keadilan dalam AI, serta kapan dan di mana harus menarik garis. Merujuk mereka ketika Anda memulai proyek berbasis AI baru selalu merupakan ide yang baik.

Bagaimana GDPR telah mengubah aturan main

GDPR (Peraturan Perlindungan Data Umum) telah pasti mempengaruhi cara data dikumpulkan untuk membangun aplikasi AI. GDPR muncul dalam game ini untuk memberikan lebih banyak kontrol kepada pengguna atas data mereka (informasi apa yang dikumpulkan dan disebarkan tentang mereka).

Jadi bagaimana ini akan mempengaruhi AI? Ada baiknya jika para peneliti di bidang data tidak menerima data atau jika tidak cukup, pembangunan model apa pun tidak akan dimulai. Ini, tentu saja, meletakkan dasar untuk bagaimana platform sosial dan situs lainnya bekerja. GDPR menciptakan contoh yang bagus, "dotting all i", tetapi membatasi kegunaan AI untuk banyak platform.

Tren Etis dalam AI untuk 2019

Ada banyak bintik abu-abu di daerah ini. Kita harus bersatu sebagai masyarakat untuk mengintegrasikan etika dalam proyek AI. Bagaimana kita bisa melakukan ini? Pendiri dan CEO Vidhya Analytics Kunal Jane menekankan dalam pidatonya di DataHack Summit 2018 bahwa kita perlu mengembangkan konsep yang dapat diikuti orang lain.

Saya berharap melihat peran baru dalam organisasi yang menerapkan etika dalam AI. Praktik korporasi terbaik perlu direstrukturisasi, dan pendekatan manajemen perlu ditinjau ulang karena AI menjadi elemen utama dari visi perusahaan. Saya juga berharap bahwa pemerintah akan memainkan peran yang lebih aktif dalam hal ini dengan arah politik yang baru atau berubah secara fundamental. Memang, 2019 akan sangat menarik.

Kesimpulan

Berdampak adalah satu-satunya kata yang secara singkat menggambarkan peristiwa luar biasa di tahun 2018. Saya menjadi pengguna ULMFiT aktif tahun ini, dan saya berharap untuk menjelajahi BERT secepat mungkin. Waktu yang sangat menakjubkan.

Saya akan senang mengetahui pendapat Anda! Perkembangan apa yang menurut Anda paling bermanfaat? Apakah Anda mengerjakan proyek menggunakan alat dan pendekatan yang kami bahas dalam artikel ini? Apa ramalan Anda untuk tahun mendatang? Saya menantikan jawaban Anda dalam komentar di bawah.

Ikhtisar solusi AI & ML pada 2018 dan perkiraan untuk 2019: Bagian 2 - Alat dan perpustakaan, AutoML, RL, etika dalam AI