Serangkaian tugas untuk pelatihan yang diperkuat oleh AI yang kuat dalam kerangka platform OpenAI universal yangdidirikan oleh Ilon Musk dan rekannya, organisasi nirlaba OpenAI, yang bertujuan untuk menciptakan kecerdasan buatan yang aman (mis., Publik dan terbuka), telah mengambil langkah berikutnya untuk mengimplementasikan rencananya. OpenAI memperkenalkan Universe middleware untuk pelatihan dan pembelajaran AI yang kuat. Secara teori, pelatihan dapat dilakukan pada semua informasi umat manusia yang tersedia melalui Internet. Ini adalah game, situs web, dan aplikasi lainnya.Hanya sembilan baris kode - dan AI Anda dapat mengakses ribuan lingkungan pelatihan.Menggunakan platform perangkat lunak Universe, agen cerdas akan menggunakan komputer dengan cara yang persis sama dengan yang dilakukan seseorang: dia akan melihat piksel layar komputer dan berinteraksi menggunakan keyboard dan mouse (sambil virtual).
Inteligensi buatan mempelajari dunia melalui antarmuka VNC untuk akses jarak jauh ke desktop,yang seharusnya melatih agen cerdas pada serangkaian tugas lengkap. Platform Universe terbuka untuk AI setiap tugas yang dapat diselesaikan seseorang di komputer.Lingkungan Gym OpenAI
Pembukaan platform universal universal adalah kelanjutan dari tindakan yang direncanakan OpenAI untuk menciptakan AI universal terbuka di seluruh dunia. Pada bulan April tahun ini, organisasi ini merilis versi beta publik dari perangkat OpenAI Gym untuk mengembangkan dan membandingkan algoritma pembelajaran penguatan. OpenAI Gym "gym" terdiri dari sejumlah besar lingkungan (dari simulator robot humanoid hingga game Atari ). Ada situs untuk membandingkan dan mereproduksi hasil .OpenAI Gym kompatibel dengan algoritma yang ditulis dalam kerangka kerja apa pun, termasuk Tensorflow dan Theano. Awalnya, lingkungan dibuat dengan Python, tetapi di masa depan, pengembang berencana untuk memungkinkan untuk mengimplementasikannya dalam bahasa pemrograman apa pun.OpenAI percaya penguatan pembelajaran adalah cara penting pembelajaran mesin yang akan sangat meningkatkan AI. Dalam proses pembelajaran dengan metode ini, sistem uji (agen) belajar dengan berinteraksi dengan lingkungan tertentu. Tidak seperti pengajaran tradisional dengan seorang guru, respons terhadap keputusan AI yang dibuat adalah sinyal penguatan, sementara beberapa aturan penguatan dibentuk secara dinamis dan sulit dipahami, yaitu, berdasarkan aktivitas simultan neuron formal.
Sinyal penguat dikenali oleh modul pengenal teks optik dengan kecepatan 60 fps: videoMiddleware OpenAI Universe
Universe yang diperkenalkan hari ini adalah middleware yang sepenuhnya mendukung toolkit dan lingkungan runtime OpenAI Gym. Berkat middleware ini, direncanakan untuk secara radikal meningkatkan jumlah lingkungan untuk pelatihan AI.Sebelumnya, katalog aplikasi pembelajaran penguatan terbesar hanya mencakup 55 game Atari (Atari Learning Environment), tetapi pada platform Universe, game diharapkan muncul dari banyak pengembang lain, termasuk Valve, EA, dan Microsoft.Sejak awal, ribuan game (flash game, ular multiplayer Slither , Starcraft, GTA V dan lainnya), berbagai tugas browser (seperti mengisi formulir) dan aplikasi (seperti puzzle fold.it ) tersedia melalui middleware Universe) Hampir semua game dapat diluncurkan secara bebas menggunakan semesta python library , yang diterbitkan dalam domain publik di Github.import gym
import universe
env = gym.make('flashgames.DuskDrive-v0')
observation_n = env.reset()
while True:
action_n = [[('KeyEvent', 'ArrowUp', True)] for _ in observation_n]
observation_n, reward_n, done_n, info = env.step(action_n)
env.render()
Dusk Drive.
Dusk Driveยซ , , Universe, , ยป, โ OpenAI.
Universe Docker. , โ ยซยป, ยซยป ยซยป, . VNC .
Secara teori, peningkatan terus-menerus keterampilan AI dengan akumulasi pengalaman dalam berbagai tugas kecil akan membantunya untuk menguasai setiap tugas baru dengan lebih cepat dan lebih cepat, menggunakan pengetahuan yang ada. Platform dan set lingkungan Universe dapat menjadi bagi agen intelektual platform terpadu standar yang sama untuk pelatihan dan pelatihan penguatan seperti set data ImageNet - database gambar untuk melatih pengklasifikasi jaringan saraf saat mengajar dengan guru.Pelatihan yang diperkuat memang bisa sangat efektif. Misalnya, agen intelektual Universe dilatih selama sekitar enam hari untuk memainkan permainan web Multiplayer Slither. Setelah enam hari, AI mendapatkan rata-rata 1.000 poin dalam sesi permainan dengan skor maksimum 1.400 poin. Sebagai perbandingan, seorang karyawan dari organisasi OpenAI dengan pengalaman bermain selama lima jam mendapatkan rata-rata 1.400 poin dengan hasil maksimum 7050.Saat ini, agen melalui Universe middleware tersedia permainan dan aplikasi berikut dari mitra OpenAI: Portal , Fable Anniversary , World of Goo , RimWorld , Slime Rancher , Shovel Knight , SpaceChem, Wing Commander III , Command & Conquer: Red Alert 2 , Syndicate , Magic Carpet , Mirror's Edge , Sid Meier's Alpha Centauri dan Wolfram Mathematica . Daftarnya akan bertambah.