اتخذت مجموعة من مهام التدريب مدعومة بالذكاء الاصطناعي القوي في إطار منصة OpenAI العالمية

التي أسسها Ilon Musk والمنتسبون ، وهي منظمة OpenAI غير الهادفة للربح ، والتي تهدف إلى إنشاء ذكاء اصطناعي آمن (أي عام ومفتوح) ، وقد اتخذت الخطوة التالية لتنفيذ خططها. OpenAI قدم الوسيطة الكون للتدريب والتعليم من AI قوية. نظريًا ، يمكن أن يتم التدريب على جميع معلومات البشرية ، التي يمكن الوصول إليها عبر الإنترنت. هذه هي الألعاب والمواقع الإلكترونية والتطبيقات الأخرى.

تسعة أسطر فقط من الكود - ويمكن لمنظمة العفو الدولية الوصول إلى الآلاف من بيئات التدريب.

باستخدام النظام الأساسي لبرمجيات Universe ، سيستخدم الوكيل الذكي جهاز كمبيوتر بنفس الطريقة التي يستخدمها الشخص تمامًا: سينظر إلى وحدات بكسل شاشة الكمبيوتر ويتفاعل باستخدام لوحة المفاتيح والماوس (بينما يكون افتراضيًا).

يتعلم الذكاء الاصطناعي العالم من خلال واجهة VNC للوصول عن بعد إلى سطح المكتب. من

المفترض أن يقوم بتدريب الوكيل الذكي على مجموعة كاملة من المهام. تفتح منصة الكون للذكاء الاصطناعي أي مهام يستطيع الشخص حلها على الكمبيوتر.

بيئات OpenAI Gym

إن افتتاح منصة عالمية عالمية هو استمرار للإجراءات المخططة لـ OpenAI لإنشاء AI عالمي مفتوح عالمي. في أبريل من هذا العام ، أصدرت المنظمة نسخة تجريبية عامة من مجموعة أدوات OpenAI Gym لتطوير ومقارنة خوارزميات التعلم المعزز. تتكون صالة "OpenAI Gym" "الرياضية" من عدد كبير من البيئات (من محاكي روبوت بشري إلى ألعاب Atari ). هناك موقع لمقارنة واستنساخ النتائج .

OpenAI Gym متوافق مع الخوارزميات المكتوبة في أي إطار عمل ، بما في ذلك Tensorflow و Theano. في البداية ، يتم إنشاء البيئات في Python ، ولكن في المستقبل ، يخطط المطورون لتمكينها من تنفيذها بأي لغة برمجة.

يعتقد OpenAI أن التعلم المعزز هو طريقة مهمة للتعلم الآلي من شأنها تحسين الذكاء الاصطناعي بشكل كبير. في عملية التعلم بهذه الطريقة ، يتعلم نظام الاختبار (الوكيل) من خلال التفاعل مع بيئة معينة. على عكس التدريس التقليدي مع المعلم ، فإن الاستجابة لقرارات الذكاء الاصطناعي المتخذة هي إشارات التعزيز ، في حين يتم تشكيل بعض قواعد التعزيز ديناميكيًا ويصعب فهمها ، أي استنادًا إلى النشاط المتزامن للخلايا العصبية الرسمية.

يتم التعرف على إشارة التعزيز من خلال وحدة التعرف على النص البصري بسرعة 60 إطارًا في الثانية: فيديو

الوسيطة OpenAI الكون

الكون الذي تم طرحه اليوم هو برنامج وسيط يدعم تمامًا مجموعة أدوات OpenAI Gym وبيئات وقت التشغيل. بفضل هذه الوسيطة ، من المخطط زيادة عدد البيئات لتدريب الذكاء الاصطناعي بشكل جذري.

في وقت سابق ، تضمن أكبر كتالوج لتطبيقات التعلم التعزيزي 55 لعبة Atari فقط (بيئة التعلم Atari) ، ولكن من المتوقع أن تظهر على منصة الكون من العديد من المطورين الآخرين ، بما في ذلك Valve و EA و Microsoft.

منذ البداية ، تتوفر الآلاف من الألعاب (ألعاب الفلاش ، والثعابين متعددة اللاعبين Slither ، و Starcraft ، و GTA V وغيرها) ، ومجموعة متنوعة من مهام المتصفح (مثل ملء النماذج) والتطبيقات (مثل الألغاز fold.it ) من خلال الوسيطة الكون) يمكن إطلاق أي لعبة مجانًا تقريبًا باستخدام عالم مكتبة python ، الذي يتم نشره في المجال العام على Github.

import gym
import universe # register Universe environments into Gym

env = gym.make('flashgames.DuskDrive-v0') # any Universe environment ID here
observation_n = env.reset()

while True:
  # agent which presses the Up arrow 60 times per second
  action_n = [[('KeyEvent', 'ArrowUp', True)] for _ in observation_n]
  observation_n, reward_n, done_n, info = env.step(action_n)
  env.render()

يطلق الرمز أعلاه عامل ذكاء اصطناعي للعب لعبة Dusk Drive .

لعبة الغسق حملة

«لدينا في نهاية المطاف الهدف هو تطوير وكيل ذكي واحد، التي هي قادرة على تطبيق بمرونة الخبرة المكتسبة في الكون، لمواجهة التحديات الجديدة وسرعة الحصول على تجربة جديدة من شأنها أن تكون خطوة مهمة على الطريق لAI قوي" - وقال في بيان OpenAI .

يتم تثبيت بيئات برمجيات الكون في حاويات Docker. كما ذكرنا من قبل ، فإنهم يتواصلون مع الوكيل الفكري من خلال الواجهة المرئية - من خلال "الشاشة" و "لوحة المفاتيح" و "الماوس" ، كما هو الحال مع الشخص. يتم تنفيذ الواجهة باستخدام برنامج VNC للوصول عن بعد إلى سطح المكتب.

من الناحية النظرية ، فإن التحسين المستمر لمهارات الذكاء الاصطناعي مع تراكم الخبرة في مختلف المهام الصغيرة سيساعده على إتقان كل مهمة جديدة بشكل أسرع وأسرع ، باستخدام المعرفة الموجودة. يمكن أن يصبح النظام الأساسي ومجموعة بيئات الكون للوكلاء الفكريين نفس المنصة الموحدة القياسية للتدريب والتعلم مع التعزيزات ، وهي مجموعة بيانات ImageNet - قاعدة بيانات صور لتدريب مصنعي الشبكات العصبية عند التدريس مع مدرس.

التدريب المعزز يمكن أن يكون فعالاً للغاية. على سبيل المثال ، تدرب الوكيل الفكري في الكون لمدة ستة أيام تقريبًا للعب لعبة الويب متعددة اللاعبين Slither. بعد ستة أيام ، يكسب الذكاء الاصطناعي ما معدله 1000 نقطة في جلسات الألعاب بأقصى درجة 1،400 نقطة. للمقارنة ، حصل موظف من مؤسسة OpenAI مع خمس ساعات من تجربة اللعبة على متوسط 1،400 نقطة مع نتيجة قصوى تبلغ 7050. في

الوقت الحالي ، يتوفر وكلاء من خلال الوسيطة الكون للألعاب والتطبيقات التالية من شركاء OpenAI: Portal ، Fable Anniversary ، World of Goo ، RimWorld ، Slime Rancher ، Shovel Knight ، SpaceChem، Wing Commander III ، Command & Conquer: Red Alert 2 ، Syndicate ، Magic Carpet ، Mirror's Edge ، Sid Meier's Alpha Centauri و Wolfram Mathematica . ستزداد القائمة.

عالم OpenAI. منصة مفتوحة لتدريب الذكاء الاصطناعي القوي

بيئات OpenAI Gym

الوسيطة OpenAI الكون

More articles: