Semua orang mungkin pernah mendengar bahwa AI yang disebut AlphaStar dari Google Deepmind telah mengotori para profesional dalam strategi real-time Starcraft 2 . Ini adalah kasus yang belum pernah terjadi sebelumnya dalam penelitian Kecerdasan Buatan. Tetapi saya ingin menyampaikan kritik yang membangun tentang pencapaian ini.

Saya akan mencoba untuk membuktikan dengan meyakinkan hal-hal berikut:

AlphaStar bermain dengan kecepatan super dan akurasi.
Deepmind mengklaim telah melarang AI melakukan tindakan yang secara fisik tidak mungkin dilakukan manusia. Pengembang tidak berhasil dalam hal ini dan mungkin tahu tentang cant mereka.
Alasan AlphaStar bermain pada kecepatan manusia super kemungkinan besar karena ketidakmampuannya untuk menyingkirkan keterampilan klik spam yang diperoleh. Saya menduga bahwa pengembang ingin membuat program lebih manusiawi, tetapi tidak bisa. Butuh waktu untuk mendekati tesis ini. Tapi ini adalah alasan utama mengapa saya menulis artikel, jadi harap bersabar.

Pertama-tama, saya ingin menjelaskan bahwa saya tidak profesional. Saya mengikuti perkembangan AI dan adegan Starcraft 2 selama bertahun-tahun, tapi saya tidak berpura-pura menjadi ahli. Jika Anda menemukan kesalahan, harap tunjukkan kesalahan tersebut. Saya hanya penggemar dan semua ini sangat menarik bagi saya. Ada banyak spekulasi dalam artikel ini, dan saya akui bahwa saya tidak dapat secara pasti membuktikan klaim utama. Dengan segala keberatan, jika Anda membaca artikel dan tidak setuju dengan saya, silakan berdebat secara konstruktif. Saya benar-benar ingin Anda menghalangi saya.

Bagaimanapun, AlphaStar adalah pencapaian yang luar biasa. Menurut pendapat saya, pencapaian terbesar Deepmind hari ini, dan saya menantikan bagaimana meningkatkan program ini lebih lanjut. Terima kasih atas kesabaran anda Jadi ayo pergi.

Kecepatan superhuman AlphaStar

David Silver, Co-Director AlphaStar: "AlphaStar tidak dapat merespon lebih cepat dan tidak dapat membuat lebih banyak klik daripada pemain live."

Inilah desainer AI utama yang membuat pernyataan penting (mulai 1:39)

Pada tahun 2018, Serral mendominasi adegan Starcraft 2. Dia adalah juara dunia yang berkuasa dan memenangkan tujuh dari sembilan turnamen besar di mana dia berpartisipasi, yang mengarah ke salah satu dominasi pemain tunggal paling kuat dalam sejarah Starcraft 2. Pria itu sangat cepat. Mungkin yang tercepat di dunia.

Tampilan orang pertama (mulai 13:00):

Lihatlah APM-nya di kiri atas. Ini adalah pengurangan untuk jumlah tindakan per menit. Bahkan, angka ini mencerminkan seberapa cepat pemain mengklik tombol mouse dan keyboard. Serral tidak pernah dapat menahan APM lebih dari 500 untuk waktu yang lama. Ada satu peningkatan hingga APM 800, tetapi hanya untuk sepersekian detik dan, kemungkinan besar, sebagai akibat dari klik spam, yang akan saya bicarakan segera.

Jadi, pemain tercepat di dunia mampu mempertahankan level APM 500 yang mengesankan, tetapi AlphaStar telah melonjak hingga 1500+. Indikator non-manusia lebih dari APM 1000 kadang-kadang berlangsung lima detik dan penuh dengan tindakan yang bermakna. 1.500 aksi per menit adalah 25 aksi per detik. Ini secara fisik tidak mungkin bagi manusia. Perlu diketahui juga bahwa lima detik di Starcraft adalah waktu yang lama, terutama di awal pertempuran besar. Jika laju manusia super dalam lima detik pertama memberi AI keuntungan, maka itu akan dengan mudah memenangkan pertarungan berkat efek bola salju. Inilah awal dari pertempuran AlphaStar di game ketiga melawan MaNa (dari 59:30):

AlphaStar memegang APM 1000+ selama lima detik. Komplikasi lain dalam game keempat dengan APM 1500+ setinggi langit (c 2:11:32):

Satu komentator menunjuk ke APM rata-rata yang dapat diterima. Tetapi jelas bahwa semburan ini jauh lebih tinggi dari kemampuan manusia.

Klik Spam, APM, dan Akurasi Bedah Robot

Sebagian besar pemain rentan terhadap klik spam. Klik tidak berguna yang tidak memengaruhi apa pun. Misalnya, seseorang memindahkan pasukan dan karena alasan tertentu mengklik beberapa kali di tujuan. Efek apa? Tidak ada Tentara tidak akan pergi lebih cepat. Satu klik sudah cukup. Lalu mengapa dia melakukan ini? Ada dua alasan:

Spam-klik adalah efek samping alami ketika seseorang mencoba mengklik secepat mungkin.
Membantu menghangatkan jari-jari Anda.

Ingat Serral? Kekuatannya yang mengesankan sebenarnya tidak dalam kecepatan, tetapi dalam akurasi. Tidak hanya memiliki APM yang sangat tinggi, tetapi juga sangat efektif (total klik per menit, kecuali untuk klik spam). Mulai sekarang, saya akan mengurangi APM efektif sebagai EPM. Penting untuk diingat bahwa EPM hanya mempertimbangkan tindakan yang bermakna.

Lihatlah bagaimana mantan profesional kehilangan akal di Twitter ketika dia mengenali EPM Serral:

Serral dalam tayangan ulang WCS Leipzig-nya secara konsisten memiliki 300+ EPM. 344 EPM dalam game vs bio mayor. 3 semi finalis lainnya sekitar 200 EPM. Orang Korea Teratas yang saya lihat adalah antara 200-240. Serral adalah 50% lebih cepat dari lawan-lawannya rata-rata. Menakutkan!
- Jos de Kroon (@Retjah) 1 Februari 2018

EPM 344-nya adalah indikator yang hampir tidak realistis. Sangat tinggi sehingga sulit bagi saya untuk percaya bahwa ini benar. Perbedaan antara APM dan EPM juga memengaruhi AlphaStar. Jika AI dapat bermain tanpa klik spam, apakah ini berarti EPM puncaknya kadang-kadang sama dengan puncak APM? Ini membuat lonjakan hingga 1000+ bahkan lebih tidak manusiawi. Ketika kami memperhitungkan bahwa AlphaStar bermain dengan presisi sempurna, kemampuan mekanisnya tampak sangat tidak masuk akal. Dia selalu mengklik tepat di mana dia ingin mengklik. Orang-orang ketinggalan, dan AlphaStar pada saat yang tepat mulai bekerja empat kali lebih cepat dari pemain tercepat di dunia - dengan akurasi yang hanya dapat diimpikan oleh seseorang.

Hampir semua orang di komunitas setuju bahwa AlphaStar melakukan urutan yang tidak dapat dilakukan oleh manusia. Dia lebih cepat dan lebih akurat daripada secara fisik. Profesional tercepat di dunia beberapa kali lebih lambat. Akurasi bahkan tidak bisa dibandingkan.

Klaim David Silver bahwa AlphaStar hanya dapat melakukan tindakan yang dapat diperbanyak seseorang sama sekali tidak benar.

Lakukan segalanya dengan benar atau hidupkan kecepatan?

Oriol Vinyals, Lead Architect, AlphaStar: "Sangat penting untuk menguasai game yang diakui sebagai" tantangan mendasar bagi AI. " Kami mencoba untuk menciptakan sistem cerdas yang mengambil alih kemampuan luar biasa kami, jadi sangat penting bagi mereka untuk belajar secara manusiawi mungkin. Tidak peduli seberapa keren kedengarannya, tetapi mencapai kinerja maksimum dalam permainan, seperti APM yang sangat tinggi, tidak benar-benar membantu kami mengukur kemampuan dan kemajuan agen kami, yang membuat tolok ukur menjadi tidak berguna. "

Mengapa Deepmind ingin membatasi agen untuk bermain sebagai pribadi? Mengapa tidak membiarkannya begitu saja tanpa batasan? Alasannya adalah bahwa di Starcraft 2, kekuatan super mekanik merusak gameplay. Dalam video ini, bot menyerang sekelompok tank dengan beberapa zergling, mewujudkan mikrotaktik sempurna. Biasanya zergling hampir tidak dapat berbuat apa-apa terhadap tank, tetapi berkat robot, mikrotaktik menjadi jauh lebih mematikan: mereka menghancurkan tank dengan kerugian minimal. Dengan manajemen unit yang baik, AI tidak perlu belajar strategi. Bagaimanapun, Deepmind tidak tertarik untuk menciptakan AI yang hanya mengalahkan profesional Starcraft, bahkan, mereka ingin menggunakan proyek ini sebagai batu loncatan dalam mempromosikan penelitian AI umum. Sangat menyedihkan bahwa salah satu manajer proyek menyatakan keterbatasan bersama dengan kemampuan manusia, ketika agen jelas-jelas melanggar mereka dan memenangkan permainannya dengan tepat berkat eksekusi manusia super.

AlphaStar lebih unggul dari orang-orang dalam manajemen unit - faktor ini tidak diperhitungkan ketika pengembang dengan hati-hati menyeimbangkan permainan. Kontrol tidak manusiawi ini mampu merusak pemikiran strategis apa pun yang telah dikuasai AI. Bahkan dapat membuat pemikiran strategis sama sekali tidak perlu. Program ini tidak hanya macet maksimal secara lokal. Jika permainan dimainkan dengan kecepatan dan akurasi yang tidak manusiawi, maka penyalahgunaan kontrol unit yang sempurna kemungkinan merupakan cara terbaik untuk menang. Tidak peduli seberapa sedih kedengarannya.

Berikut adalah apa yang dikatakan salah satu pro tentang kekuatan dan kelemahan AlphaStar, kalah darinya dengan skor 1-5:

MaNa: “Saya akan mengatakan bahwa kualitas terbaiknya adalah manajemen unit. AlphaStar mengalahkan semua game dengan jumlah unit yang kira-kira sama. Aspek terburuk dari sejumlah kecil permainan adalah penolakan keras kepala untuk meningkatkan. Dia begitu yakin akan kemenangan oleh unit dasar sehingga dia praktis tidak meningkatkan apa pun, yang ia bayar dalam pertandingan eksibisi [pertandingan terakhir dengan MaNa, di mana AI kalah - kira-kira. trans.]. Tidak banyak momen yang menentukan dalam pengambilan keputusan, jadi saya akan mengatakan bahwa mekanik menjadi alasan kemenangan.

Di antara penggemar Starcraft, hampir bulat bahwa AlphaStar menang hampir secara eksklusif karena kecepatannya yang super, waktu reaksi dan akurasi. Pro yang bermain melawannya tampaknya setuju dengan itu. Seorang karyawan Deepmind bermain melawan AlphaStar sebelum program dimainkan melawan para profesional. Kemungkinan besar, dia juga akan setuju dengan penilaian semacam itu. David Silver dan Oriol Vinyals mengulang mantra bahwa AlphaStar hanya mampu melakukan apa yang dilakukan seseorang, tetapi kita telah melihat bahwa ini tidak benar.

AlphaStar tampaknya tidak "melakukannya dengan benar," seperti yang dikatakan David (mulai 1:38):

Jelas ada yang salah di sini.

Mengapa Deepmind memungkinkan kecepatan manusia super AlphaStar?

Akhirnya, mari kita beralih ke hal utama. Terima kasih sudah membaca ke tempat ini. Tapi pertama-tama, untuk meringkas.

Kami tahu apa itu APM, EPM, dan klik spam.
Kami memiliki beberapa pemahaman tentang kemampuan maksimal manusia.
Game AlphaStar secara langsung bertentangan dengan klaim pengembang tentang keterbatasannya.
Komunitas Starcraft 2 setuju bahwa AlphaStar menang berkat kontrol unit yang tidak manusiawi dan bahkan tidak memerlukan pemikiran strategis yang sangat baik.
Deepmind tidak berangkat untuk membuat bot cepat, jadi seharusnya tidak dimainkan seperti itu.
Sangat tidak mungkin bahwa tidak ada tim Starcraft AI yang berpikir bahwa seseorang tidak dapat mengulang semburan APM 1500+. Spesialis Starcraft mereka harus tahu lebih banyak tentang Starcraft daripada saya. Mereka bekerja sama dengan Blizzard, yang memiliki kekayaan intelektual di StarCraft. Adalah kepentingan mereka (lihat paragraf sebelumnya, serta pernyataan oleh Silver dan Vinyals) untuk membuat bot bertindak sedekat mungkin dengan orang tersebut.

Mengingat semua poin ini, mengapa Deepmind bahkan memungkinkan AI untuk secara eksplisit menghindari keterbatasan tubuh manusia?

Ini adalah spekulasi murni di pihak saya, dan saya tidak mengaku tahu persis kisahnya. Tetapi saya curiga bahwa hal-hal berikut telah terjadi:

Pada awal proyek, Deepmind menyetujui batasan ketat. Pada titik ini, AlphaStar melarang ledakan APM manusia super yang kita lihat dalam demo. Jika saya merancang sistem, saya akan menetapkan batasan seperti itu:

APM rata-rata maksimum sepanjang permainan .
Maksimum pendek APM . Saya pikir itu bijaksana untuk mengaturnya di 4-6 klik per detik. Ingat Serral dan EPM 344-nya, yang merupakan potongan di atas pesaing? Ini kurang dari enam klik per detik. Terhadap MaNa, program ini menghasilkan 25 klik per detik untuk jangka waktu yang lama. Ini jauh lebih cepat daripada klik spam tercepat seseorang, jadi tidak mungkin bahwa pembatasan awal memungkinkan ini.
Waktu minimum antar klik . Bahkan jika Anda membatasi kecepatan maksimum selama ledakan, bot dapat mengklik dengan sangat cepat pada saat singkat selama interval yang diizinkan, yang tidak mampu dilakukan seseorang.

Beberapa menyarankan menambahkan unsur keacakan keakuratan klik, tetapi saya menduga ini akan mengurangi kecepatan belajar terlalu banyak.

Jadi, tetapkan batas. Apa selanjutnya Deepmind kemudian meluncurkan pelatihan simulasi pada ribuan video game amatir kelas atas. Pada tahap ini, agen hanya mencoba meniru apa yang dilakukan orang - dan dia menguasai klik spam. Ini sangat mungkin karena orang sering membuatnya. Ini hampir merupakan model perilaku yang paling berulang pada orang, sehingga harus sangat mengakar dalam perilaku agen.

Semburan APM maksimum AlphaStar pada awalnya mendekati batas yang ditentukan. Tetapi sebagian besar klik AlphaStar ternyata adalah klik spam, jadi APMnya tidak cukup untuk pertarungan normal. Tetapi tanpa eksperimen, tidak ada pelatihan. Inilah yang dikatakan salah satu pengembang di AMA kemarin: Saya pikir dia sedikit tercoreng dalam penipuan ini:

Oriol Vinyals, Arsitek Utama, AlphaStar: “Mengajar AI bermain dengan APM rendah cukup menarik. Pada hari-hari awal, agen kami dilatih dengan APM yang sangat rendah dan umumnya tidak mampu melakukan manajemen mikro. ”

Untuk mempercepat pembelajaran, pengembang meningkatkan batas APM dengan memungkinkan ledakan singkat. Berikut adalah batasan APM yang berlaku untuk AlphaStar dalam pertandingan demo:

Oriol Vinyals: “Secara khusus, kami menetapkan batas 600 APM pada interval 5 detik, 400 APM pada interval 15 detik, 320 untuk 30 detik dan 300 untuk 60 detik. Jika agen mengeluarkan lebih banyak tindakan pada interval ini, kami membuang / mengabaikannya. Nilai-nilai ini diambil dari statistik manusia. "

Jika Anda tidak terlalu mengenal Starcraft, maka batasan seperti itu terlihat masuk akal, tetapi mereka memungkinkan ledakan APM manusia super, yang telah kita bicarakan sebelumnya, serta akurasi manusia super.

Ada batasan jumlah maksimum klik spam. Biasanya ini adalah perintah untuk bergerak atau menyerang ketika klik dilakukan pada peta. Coba seberapa cepat Anda dapat mengklik tombol mouse. Agen mempelajari klik spam dari pemain dan tidak akan mengklik lebih cepat dari seseorang. Artinya, klik APM tambahan pada kecepatan manusia super "sewenang-wenang" untuk percobaan.

APM sewenang-wenang digunakan untuk eksperimen pertempuran. Interaksi ini sering terjadi selama pelatihan. AlphaStar mulai mempelajari jenis perilaku baru yang mengarah ke hasil yang lebih baik, dan persentase spam dalam klik berkurang.

Jika agen mengetahui manfaatnya, mengapa Deepmind tidak kembali ke pembatasan yang lebih keras dan lebih manusiawi pada APM? Tentunya mereka menyadari bahwa AI menunjukkan kemampuan manusia super. Komunitas Starcraft telah hampir secara bulat mengakui manajemen mikro AlphaStar yang tidak manusiawi. Pros mengatakan kepada AMA bahwa kekuatan utama AlphaStar adalah kontrolnya atas unit, dan kelemahan utamanya adalah pemikiran strategis. Pengembang Deepmind pasti sampai pada kesimpulan yang sama. Mungkin alasannya adalah bahwa agen tidak dapat menghilangkan klik spam. Meskipun sebagian besar waktu dia bertindak jelas, tetapi masih secara teratur jatuh ke dalam klik spam. Ini terlihat jelas pada pertandingan pertama melawan MaNa, ketika Alphastar bangkit (dari 39:30):

Perhatikan dengan cermat lingkaran biru dengan unit sorot

Agen spam mengklik tim untuk memindahkan unit dengan kecepatan 800 APM. Dia tidak pernah sepenuhnya menghilangkan kebodohan manusia, meskipun tindakan ini sama sekali tidak berguna dan memakan batas APM-nya. Bug ini sangat berbahaya selama pertempuran besar. Mungkin, batas APM dinaikkan untuk memperbaiki sambungan dan memungkinkan agen bekerja secara normal pada saat-saat seperti itu.

Apa yang begitu penting tentang ini?

Saya menduga bahwa agen tidak bisa menghilangkan klik spam yang dia pelajari selama pelatihan simulasi pada manusia. Deepmind harus mengotak-atik batas APM untuk memungkinkan eksperimen dan kemajuan lebih lanjut. Namun, efek samping yang tidak menyenangkan dari permainan manusia super muncul, karena itu, pada dasarnya, agen tersebut melanggar aturan, mampu menerapkan strategi yang awalnya dilarang baginya.

Ini adalah hal yang penting, karena pemukulan terhadap para profesional secara langsung bertentangan dengan misi yang telah berulang kali dinyatakan oleh Deepmind. Karena itu, grafik ini meninggalkan rasa kemunafikan yang masam di mulut:

Gambar ini diterbitkan oleh Deepmind di blog-nya.

Sepertinya bagan ini dirancang untuk menyesatkan orang yang tidak terbiasa dengan Starcraft 2. Ini menggambarkan APM yang seharusnya diterima dari AlphaStar. Lihatlah APM MaNa dan bandingkan dengan AlphaStar. Meskipun rata-rata lebih tinggi di MaNa, ekor AlphaStar jauh melampaui kemampuan manusia. Harap dicatat bahwa MaNa memiliki puncak APM sekitar 750, sementara AlphaStar memiliki puncak lebih dari 1.500. Sekarang pertimbangkan bahwa dalam seseorang, APM lebih dari setengah terdiri dari klik spam, dan EPM AlphaStar adalah klik yang sangat akurat.

Sekarang lihat APM di TLO. Ekornya pergi ke tahun 2000. Pikirkan sebentar. Bagaimana ini mungkin? Ini dimungkinkan berkat trik yang disebut "quick fire." TLO tidak mengklik superfast. Dia hanya memegang tombol - dan game mendaftarkannya sebagai 2000 APM. Satu-satunya hal yang dapat Anda lakukan dengan fast fire adalah spam dengan kecepatan gila. Itu saja. TLO hanya menggunakan ini untuk beberapa alasan. Tetapi pada saat yang sama, ledakan APM manusia super AlphaStar tertutup - dan jumlahnya terlihat realistis bagi orang-orang yang tidak terbiasa dengan Starcraft.

Posting blog Deepmind tidak mencoba menjelaskan angka-angka TLO yang absurd. Jika mereka tidak menjelaskan TLO yang berlebihan, mereka seharusnya tidak memasukkannya dalam jadwal. Intinya.

Statistik seperti itu nyaris bohong. Deepmind harus mematuhi standar yang lebih tinggi.

Sudahkah AlphaStar menerapkan kecepatan manusia super sebagai tambalan untuk kesalahan pelatihan simulasi?

Kecepatan superhuman AlphaStar

Klik Spam, APM, dan Akurasi Bedah Robot

Lakukan segalanya dengan benar atau hidupkan kecepatan?

Mengapa Deepmind memungkinkan kecepatan manusia super AlphaStar?

Apa yang begitu penting tentang ini?

More articles: