[UPD 2] Tim Pain Gaming mengalahkan OpenAI Five. Pertandingan berlangsung selama 53 menit dan berakhir dengan skor 45-41 untuk frags yang mendukung bot. Rekaman permainan dapat dilihat di Twitch di sini . Mulai jam 7:38:00Malam ini, 22 Agustus, sebelum dimulainya hari berikutnya playoff Internasional, pertandingan demonstrasi pertama antara pemain profesional dan bot OpenAI Five akan diadakan sebagai bagian dari kegiatan pertunjukan. Informasi tentang pertandingan muncul di situs resmi Dota 2 di bagian
dengan jadwal pertandingan untuk babak playoff The International. Secara total, OpenAI akan memainkan tiga pertandingan dalam tiga hari dengan pemain pro.
Peristiwa ini penting karena setahun yang lalu bot “menindak” Daniil Ishutin dalam konfrontasi dengan
1x1 solo mid mirror SF , dan
beberapa minggu yang lalu ia mengalahkan “gado-gado” komentator dan mantan pemain pro.
Kali ini, pengembangan perusahaan yang disponsori oleh Elon Musk dan pengusaha terkemuka lainnya dari sektor TI akan menghadapi lawan yang lebih serius: Internasional setiap tahun mengumpulkan tim terbaik di dunia, sehingga tidak akan mudah bagi bot. Sejauh ini, tim pengembangan belum melaporkan apakah semua pembatasan lama pada puncak dan mekanik yang relevan dalam permainan melawan orang-orang di awal bulan akan berlaku, tetapi itu layak untuk diingat.
Jadi, aturan lama adalah sebagai berikut:- kumpulan 18 pahlawan dalam mode Draft Acak (Kapak, Crystal Maiden, Death Prophet, Earthshaker, Gyrocopter, Lich, Lion, Necrophos, Queen of Pain, Pisau Cukur, Riki, Shadow Fiend, Slark, Sniper, Sven, Tidehunter, Viper, atau Penyihir Dokter);
- tanpa Divine Rapier, Bottle;
- tanpa makhluk dan ilusi yang dikendalikan;
- cocok dengan lima kurir (mereka tidak dapat dibina dan diminum);
- tanpa menggunakan pemindaian.
Dalam komentar pada
publikasi terakhir kami tentang hal ini, banyak kontroversi meletus tentang metode pelatihan jaringan saraf. Kali ini kami membawa beberapa visual tentang bagaimana bot OpenAI bekerja dan bagaimana tampilannya dari sudut pandang orang.
Para pengembang mengatakan bahwa karena kekuatan komputasi yang serius, sejumlah besar catatan dan kemampuan untuk menjalankan pelatihan di beberapa aliran, harian OpenAI meniru hingga 180 tahun permainan Dota 2. yang berkesinambungan. Jelas, kemampuan belajar AI ini adalah banyak pesanan yang besarnya lebih rendah daripada yang tidak terlalu pintar "Hewan, belum lagi anjing atau primata, milik manusia.
Untuk melatih OpenAI, tim menggunakan pengembangannya sendiri yang disebut
Gym (
github repository ,
dokumentasi resmi). "Kursi goyang" ini kompatibel dengan perpustakaan umum apa pun, seperti TensorFlow atau Theano. Dalam melatih jaringan saraf dalam kerangka Gym, loop klasik agen-lingkungan digunakan:
Pengembang mengklaim bahwa siapa pun dapat menggunakan Gym untuk mengajarkan jaringan saraf mereka untuk memainkan judul klasik untuk Atari 2600 atau proyek lain yang relatif mudah dimengerti. Jelas, kecepatan pelatihan secara langsung tergantung pada jumlah sumber daya yang terlibat dalam hal ini. Sebagai contoh, pengembang OpenAI
mengajarkan jaringan saraf untuk memainkan Montezuma's Revenge .
Tetapi tahap kedua dan keempat - tindakan dan analisis hasil (hadiah untuk tindakan) adalah yang paling menarik bagi kita. Dan dalam konteks Dota 2, tingkat variabilitas hanya berguling, dan tindakan yang awalnya dievaluasi oleh bot sebagai "benar" dalam jarak jauh dapat menyebabkan kerugian.
Bagaimana tim OpenAI mengajarkan AI untuk bermain Dota 2 dalam hal peralatan
Tim pengembangan mendekati pertanyaan tentang belajar OpenAI di Dota 2 lebih dari yang serius. Anda dapat
membaca laporan resmi lengkap di blog proyek di
sini , tetapi kami akan memberikan kutipan utama pada bagian teknis dan implementasi tanpa pemasaran dan curtsements lainnya.
Para komentator dari publikasi sebelumnya sangat tertarik pada kekuatan yang dikonsumsi oleh jaringan saraf OpenAI untuk pelatihan. Jelas, sepasang Ryzen tidak bisa melakukannya, terutama dalam konteks meniru 180 tahun bermain di hari yang nyata. Pada saat yang sama, bot untuk Dota 2 bukan bot untuk penembak tingkat gempa, yang pengguna sangat jelas perhatikan sebagai respons terhadap salah satu skeptis:
Tampak bagi saya bahwa Anda hanya samar-samar membayangkan ukuran ruang taktis di DotA, karena Anda tidak terbiasa dengan permainan itu sendiri. Tidak ada kesempatan untuk membuat bot tanpa melibatkan jaringan saraf, membatasi diri pada setidaknya beberapa sumber daya komputasi yang waras. Serius. Ini bukan Gempa, di mana Anda bisa menjadi pohon ek lengkap dalam hal taktik, mengimbanginya dengan tembakan cepat yang tidak manusiawi dalam lobak dari rel. Ideal dalam hal reaksi dan keterampilan mekanik, bot yang tidak tahu cara bermain lima dari mereka dan tidak "merasakan kartu" ditakdirkan melawan pemain daging yang terampil.
Selain itu, DotA adalah permainan dengan informasi yang tidak lengkap, dan ini secara dramatis menyulitkan tugas. Tugas "apa yang harus dilakukan ketika saya melihat musuh" jauh lebih sederhana daripada tugas "apa yang harus dilakukan ketika musuh tidak terlihat" - tidak hanya untuk mobil, tetapi juga untuk orang-orang.
Pengembang OpenAI jelas memahami hal ini, jadi ribuan mesin virtual digunakan secara bersamaan untuk melatih bot. Secara khusus, angka-angka ini diberikan oleh blog resmi proyek untuk melatih bot Mid Mid 1x1, yang mampu mengalahkan Daniel Ishutin dengan beberapa batasan, dan untuk melatih tim lengkap untuk permainan 5x5:
Ini bukan titik desimal. Untuk melatih OpenAI dalam mode 5x5,
128 ribu core prosesor Google Cloud terus digunakan. Tapi ini tidak semua bubur. Karena visi mesin digunakan dalam pengajaran bot OpenAI (yang akan kita bicarakan sedikit kemudian), dalam konfigurasi mengerikan ini ada 256 GPU PID NVIDIA (
akselerator Tesla ).
Menurut brosur NVIDIA resmi, P100 memiliki fitur-fitur berikut:
Biaya resmi satu P100 Tesla 12 GB PCI-E adalah sekitar $ 5800, Tesla P100 SXM2 16GB mulai dari $ 9400. OpenAI hanya menggunakan model SXM2 yang lama. Kartu video diperlukan bukan untuk merender "grafik" pada mesin virtual, tetapi untuk memproses dan menghitung data yang secara konstan datang dari semua batch yang berjalan. Untuk memproses aliran ini, tim harus mengerahkan seluruh sistem node, di mana P100 Tesla bekerja. Kartu video memproses dan menghitung data yang diperoleh, kemudian menghasilkan hasil rata-rata di semua batch dan membandingkannya dengan indikator OpenAI sebelumnya.
Kapasitas seperti itu memungkinkan untuk mensimulasikan jaringan saraf sekitar 60 pihak per menit, untuk masing-masing jaringan saraf menganalisis sekitar 1,04 juta siklus agen-menengah, seperti yang disebutkan sebelumnya.
Bagaimana OpenAI melihat permainan
Uang adalah debu, jika Anda memilikinya tentu saja. Bahkan perkiraan perkiraan biaya pelatihan OpenAI satu hari menyebabkan sedikit kejutan, dan panas yang dihasilkan di server Google Cloud sudah cukup untuk memanaskan kota kecil. Tetapi yang jauh lebih menarik adalah bagaimana OpenAI "melihat" permainan.
Jelas bahwa bot tidak memerlukan rendering grafik, tetapi kekuatan seperti itu digunakan karena suatu alasan. Bot dalam aksinya bergantung pada
API Valve standar untuk bot , yang melaluinya jaringan saraf menerima aliran data tentang ruang di sekitarnya. API diperlukan untuk menjalankan data melalui
jaringan LSTM single-layer 1024 blok dan, sebagai hasilnya, menerima solusi jangka pendek yang konsisten dengan strategi jangka panjang yang tersedia untuk jaringan saraf.
Jaringan LSTM menentukan prioritas tugas untuk bot “di sini dan sekarang”, dan sesuai dengan model perilaku jaringan saraf jangka panjang, tindakan yang paling menguntungkan dipilih. Sebagai contoh, bot siap berkonsentrasi pada creep hit terakhir untuk mendapatkan emas dan pengalaman, yang konsisten dengan model memperoleh manfaat jangka panjang dalam bentuk objek dan keuntungan selanjutnya dalam permainan.
Menurut informasi dari pengembang, semua pihak terjadi dengan menggambar acara di peta dengan frekuensi 30 FPS. Jaringan saraf OpenAI terus-menerus menganalisis setiap bingkai melalui LSTM, berdasarkan pada hasil pengambilan keputusan lebih lanjut. Pada saat yang sama, bot memiliki prioritas sendiri: semua interaksi yang mungkin dengan lingkungan menjadi sasaran analisis yang paling teliti melalui area yang dipilih secara khusus dari "visi" bot - ini adalah 800x800 kotak dibagi menjadi 64 100x100 sel (ukuran rentang aksi dan pergerakan dalam gim diambil, dan ukuran kotak adalah 8x8 ) Beginilah cara bot sebagian "melihat" game pada satu frame tertentu:
Konstruktor lengkap dengan kemampuan untuk berganti tindakan, memperkirakan ukuran kotak dan kemungkinan lain untuk "memutar pengaturan" tersedia di blog resmi pengembang di bagian Model structureDan di sini adalah visualisasi dari jaringan LSTM dalam hal peramalan waktu-nyata dari peristiwa-peristiwa permainan:
Selain LSTM dan menilai situasi di sini dan sekarang, bot OpenAI terus-menerus menggunakan kisi "peramalan" dan menetapkan prioritasnya sendiri. Begini tampilannya bagi orang-orang:

Kotak hijau adalah area dengan prioritas tertinggi dan aksi bot saat ini (serangan, gerakan, dan sebagainya). Kotak hijau muda memiliki prioritas lebih rendah, tetapi bot dapat beralih ke sektor ini kapan saja. Dua kotak abu-abu lagi - area aktivitas potensial, jika tidak ada yang berubah.
Lihat bagaimana bot "melihat" permainan dan membuat keputusan berdasarkan empat zona ini dapat dilihat dalam video di bawah ini:
Perlu dicatat bahwa area prioritas bot tidak selalu terletak di sebelah model karakter. Saat menyeret peta, keempat kotak dengan mudah digeser untuk beberapa layar dari posisi bot saat ini, yaitu, OpenAI secara bersamaan menganalisis seluruh ruang permainan untuk ketersediaan dan kelayakan tindakan apa pun, dan bukan hanya satu layar.
OpenAI terus-menerus bermain dengan sendirinya. Pada saat yang sama, 80% bot dilatih, dan 20% menggunakan taktik dan strategi yang sudah dikembangkan. Pendekatan ini memungkinkan jaringan saraf untuk belajar dari kesalahannya sendiri, menemukan pola yang rentan dalam perilaku aktual dan pada saat yang sama mengkonsolidasikan pola perilaku yang sukses.
Besok sudah. Orang profesional versus mesin
Alih-alih hasilnya, ada baiknya kembali ke topik konfrontasi besok antara pemain profesional dan OpenAI.
Rinciannya belum diketahui, tetapi dengan keyakinan kita dapat mengatakan bahwa jaringan saraf akan mengalami kesulitan. Tidak seperti lawan-lawannya di masa lalu, OpenAI akan menghadapi yang terbaik dari yang terbaik, dan kemungkinan manuver dan kerja tim dalam kerangka pertandingan menunjukkan akan memungkinkan orang untuk mencapai potensi penuh mereka. Format Solo Mid 1x1, tentu saja, sangat spektakuler, tetapi tidak mengungkapkan esensi keseluruhan permainan dan sangat tidak toleran terhadap kesalahan mikro yang sering dilakukan orang.
Seluruh pertanyaannya adalah seberapa serius profesional akan menghadapi konfrontasi ini. Jika ada informasi tambahan yang muncul, publikasi akan diperbarui.