
فك تشفير الجزء الثاني من يوم المستثمر تسلا الحكم الذاتي. دورة تدريب الطيار الآلي ، والبنية التحتية لجمع البيانات ، ووضع علامات تلقائية للبيانات ، وتقليد برامج التشغيل البشرية ، واكتشاف مسافة الفيديو ، والإشراف على المستشعر ، وغير ذلك الكثير.الجزء الأول هو تطوير الكمبيوتر الكامل ذاتية القيادة (FSDC) .المضيف: يمكن FSDC العمل مع الشبكات العصبية معقدة للغاية لمعالجة الصور. حان الوقت للحديث عن كيفية الحصول على الصور وكيف نحللها. لدينا مدير أول لمنظمة العفو الدولية في تسلا ، أندريه كاراتي ، الذي سوف يشرح لك كل هذا.
أندريه: لقد تدربت على الشبكات العصبية منذ حوالي عشر سنوات ، والآن لمدة 5-6 سنوات للاستخدام الصناعي. بما في ذلك المؤسسات المعروفة مثل Stanford و Open AI و Google. هذه المجموعة من الشبكات العصبية ليست فقط لمعالجة الصور ، ولكن أيضًا للغة الطبيعية. لقد صممت أبنية تجمع بين هاتين الطريقتين لرسالة الدكتوراه.
في ستانفورد ، درست دورة في الشبكات العصبية غير التطورية. كنت المعلم الرئيسي وطورت منهجًا كاملاً له. في البداية ، كان لدي حوالي 150 طالبًا ، وعلى مدار العامين أو الثلاثة أعوام القادمة ، ارتفع عدد الطلاب إلى 700 طالب. هذه دورة شهيرة للغاية ، واحدة من أكبر الدورات وأكثرها نجاحًا في جامعة ستانفورد في الوقت الحالي.
إيلون: أندري هو حقًا أحد أفضل المتخصصين في رؤية الماكينات في العالم. ربما الأفضل.
أندرو: شكرا لك. مرحبا بالجميع. أخبرك بيت عن شريحة قمنا بتطويرها خصيصًا للشبكات العصبية في السيارة. فريقي مسؤول عن تدريب هذه الشبكات العصبية. ويشمل ذلك جمع البيانات والتدريب ونشرها جزئيًا.
ماذا تفعل الشبكات العصبية في السيارة؟ هناك ثماني كاميرات في السيارة التي تقوم بتصوير الفيديو. تقوم الشبكات العصبية بمشاهدة مقاطع الفيديو هذه ، ومعالجتها ، والتنبؤ بما يشاهدونه. نحن مهتمون بعلامات الطرق والمشاركين في حركة المرور والأشياء الأخرى ومسافاتهم والطرق وإشارات المرور وإشارات المرور وما إلى ذلك.

يمكن تقسيم عرضي التقديمي إلى ثلاثة أجزاء. أولاً ، سوف أقدم لكم بإيجاز الشبكات العصبية وكيف تعمل وكيف يتم تدريبهم. يجب أن يتم ذلك حتى يكون واضحًا في الجزء الثاني سبب أهمية وجود أسطول ضخم من سيارات تسلا (أسطول). لماذا هذا عامل رئيسي في تدريب الشبكات العصبية التي تعمل بكفاءة على الطريق؟ في الجزء الثالث ، سأتحدث عن رؤية الماكينة ، والألياف ، وكيفية تقدير المسافة باستخدام الفيديو فقط.
كيف تعمل الشبكات العصبية؟
(ليس هناك الكثير جديد ، يمكنك الانتقال إلى العنوان التالي)المهمة الرئيسية التي تحلها الشبكات في السيارة هي التعرف على الأنماط. بالنسبة لنا نحن البشر ، هذه مهمة بسيطة للغاية. نظرت إلى الصور وشاهدت التشيلو أو القارب أو الإغوانا أو المقص. سهل جدا وبسيط بالنسبة لك ، ولكن ليس للكمبيوتر. السبب هو أن صور الكمبيوتر هذه هي مجرد مجموعة من البكسلات ، حيث يكون كل بكسل هو قيمة السطوع في تلك المرحلة. بدلاً من مجرد رؤية الصورة ، يتلقى الكمبيوتر مليون رقم في صفيف.
إيلون: مصفوفة ، إذا كنت تريد. حقا المصفوفة.
أندرو: نعم. نحتاج إلى الانتقال من شبكة البيكسل هذه وقيم السطوع إلى مفاهيم المستوى الأعلى مثل الإغوانا وما إلى ذلك. كما يمكنك أن تتخيل ، فإن صورة الإغوانا هذه لها نمط سطوع محدد. لكن الإغوانا يمكن تصويرها بطرق مختلفة ، بأشكال مختلفة ، في ظروف الإضاءة المختلفة ، على خلفية مختلفة. يمكنك العثور على العديد من الصور المختلفة للإغوانا ويجب أن نتعرف عليها في أي ظرف من الظروف.
والسبب الذي يجعلك وأنا قادرًا على التعامل مع هذا هو أن لدينا شبكة عصبية ضخمة تعمل على معالجة الصور. يدخل الضوء في شبكية العين ويتم إرساله إلى الجزء الخلفي من عقلك إلى القشرة البصرية. يتكون القشرة الدماغية من العديد من الخلايا العصبية المرتبطة ببعضها البعض وتؤدي التعرف على الأنماط.
في السنوات الخمس الماضية ، بدأت أيضًا الأساليب الحديثة لمعالجة الصور باستخدام أجهزة الكمبيوتر في استخدام الشبكات العصبية ، ولكن في هذه الحالة ، الشبكات العصبية الاصطناعية. الشبكات العصبية الاصطناعية هي تقريب رياضي خام للقشرة البصرية. هناك أيضا الخلايا العصبية هنا ، فهي مرتبطة مع بعضها البعض. تتضمن الشبكة العصبية النموذجية عشرات أو مئات الملايين من الخلايا العصبية ، ولكل خلية عصبية آلاف الروابط.
يمكننا التقاط شبكة عصبية وإظهار صور لها ، مثل الإغوانا لدينا ، وستقوم الشبكة بعمل تنبؤات تراه. أولاً ، تتم تهيئة الشبكات العصبية تمامًا عن طريق الصدفة ، وجميع أوزان الروابط بين الخلايا العصبية هي أرقام عشوائية. لذلك ، فإن توقعات الشبكة ستكون عشوائية أيضًا. قد يتضح أن الشبكة تعتقد أنها على الأرجح قارب. أثناء التدريب ، نعلم ونلاحظ أن الإغوانا على الصورة. نقول ببساطة أننا نرغب في زيادة احتمال وجود الإغوانا في هذه الصورة ، واحتمالية انخفاض كل شيء آخر. ثم يتم استخدام عملية رياضية تسمى طريقة الانتشار الخلفي. نزول التدرج العشوائي ، والذي يسمح لنا بنشر الإشارة على طول الروابط وتحديث أوزانها. سنقوم بتحديث وزن كل من هذه المركبات قليلاً ، وبمجرد اكتمال التحديث ، سيزداد احتمال وجود الإغوانا لهذه الصورة زيادة طفيفة ، وستقل احتمالية الإجابات الأخرى.
بالطبع ، نحن نفعل هذا مع أكثر من صورة واحدة. لدينا مجموعة كبيرة من البيانات الموسومة. عادة ما تكون هذه ملايين الصور أو آلاف العلامات أو نحو ذلك. تتكرر عملية التعلم مرارًا وتكرارًا. يمكنك عرض صورة على الكمبيوتر ، ويخبرك برأيه ، ثم تقول للإجابة الصحيحة ، ويتم تكوين الشبكة قليلاً. تكرر هذا ملايين المرات ، وأحيانًا تعرض نفس الصورة مئات المرات. عادة ما يستغرق التدريب عدة ساعات أو عدة أيام.
الآن شيء غير بديهي عن عمل الشبكات العصبية. انهم حقا بحاجة الى الكثير من الأمثلة. لا يناسبك رأسك فقط ، ولكنه يبدأ فعليًا من نقطة الصفر ، فهم لا يعرفون شيئًا. إليك مثال على ذلك - كلب لطيف ، وربما لا تعرف سلالاتها. هذا هو اليابانيه الاسبانيه. نحن ننظر إلى هذه الصورة ونرى كلبًا يابانيًا. يمكننا أن نقول: "حسنًا ، أفهم ، الآن أعرف شكل الإسباني الياباني". إذا عرضت عليك بعض الصور الأخرى للكلاب الأخرى ، يمكنك العثور على أسبان يابانيين آخرين بينهم. ما عليك سوى مثال واحد ، لكن أجهزة الكمبيوتر لا تستطيع ذلك. يحتاجون إلى الكثير من البيانات حول اللغة اليابانية ، وآلاف الأمثلة ، في أوضاع مختلفة ، وظروف إضاءة مختلفة ، على خلفيات مختلفة ، إلخ. تحتاج إلى إظهار الكمبيوتر كيف يبدو الإسباني الياباني من وجهات نظر مختلفة. وهو يحتاج بالفعل إلى كل هذه البيانات ، وإلا فلن يتمكن الكمبيوتر من معرفة القالب المطلوب.
تخطيط صورة للطيار الآلي
فكيف يرتبط كل هذا بالقيادة الذاتية. نحن لسنا قلقين للغاية بشأن سلالات الكلاب. ربما سوف يهتمون في المستقبل. ولكن الآن نحن مهتمون بعلامات الطرق ، والأشياء الموجودة على الطريق ، وأين هي ، وأين يمكننا الذهاب ، وهكذا. الآن ليس لدينا علامات مثل الإغوانا فقط ، ولكن لدينا صور للطريق ، ونحن مهتمون ، على سبيل المثال ، بعلامات الطرق. ينظر الشخص إلى الصورة ويضعها بالماوس.

لدينا الفرصة للاتصال بالسيارات تسلا وطلب المزيد من الصور. إذا طلبت صورًا عشوائية ، فستحصل على صور حيث تسير السيارة على الطريق السريع كقاعدة عامة. ستكون هذه مجموعة بيانات عشوائية وسنعمل على ترميزها.
إذا قمت بتحديد مجموعات عشوائية فقط ، فسوف تتعلم شبكتك حالة مرور بسيطة ومشتركة وستعمل بشكل جيد فقط. عندما تظهر لها مثالًا مختلفًا قليلاً ، فلنفترض صورة لطريق يتحول إلى منطقة سكنية. قد تعطي شبكتك النتيجة الخاطئة. سوف تقول "حسنًا ، لقد رأيت عدة مرات ، والطريق يمضي بشكل مستقيم."

بالطبع ، هذا غير صحيح تماما. لكن لا يمكننا إلقاء اللوم على الشبكة العصبية. إنها لا تعرف ما إذا كانت الشجرة الموجودة على اليسار أو السيارة الموجودة على اليمين أو تلك المباني الموجودة في الخلفية مهمة. الشبكة لا تعرف شيئا عن هذا. نعلم جميعًا أن خط العلامات مهم وحقيقة أنه يتحول قليلاً إلى الجانب. يجب أن تأخذ الشبكة هذا في الاعتبار ، ولكن لا توجد آلية يمكننا من خلالها إخبار الشبكة العصبية بأن هذه الحدود من علامات الطريق مهمة حقًا. الأداة الوحيدة بين أيدينا هي البيانات.

نلتقط صوراً خاطئة للشبكة ونضع علامة عليها بشكل صحيح. في هذه الحالة ، نحتفل بالتحول المميّز. فأنت بحاجة إلى نقل العديد من الصور المماثلة إلى الشبكة العصبية. ومع مرور الوقت ، سوف تتراكم المعرفة وتتعلم كيفية فهم هذا النمط ، لفهم أن هذا الجزء من الصورة لا يلعب دورًا ، ولكن هذا الترميز مهم جدًا. ستتعلم الشبكة كيفية العثور على المسار بشكل صحيح.
ليس فقط حجم مجموعة بيانات التدريب هو المهم. نحن بحاجة إلى أكثر من ملايين الصور. يجب القيام بالكثير من العمل لتغطية مساحة المواقف التي يمكن أن تلبيها السيارة على الطريق. تحتاج إلى تعليم الكمبيوتر للعمل في الليل والمطر. يمكن أن يعكس الطريق الضوء مثل المرآة ، والإضاءة يمكن أن تختلف في حدود واسعة ، وسوف تبدو الصور مختلفة للغاية.

يجب أن نعلم الكمبيوتر كيفية التعامل مع الظلال والشوك والكائنات الكبيرة التي تشغل معظم الصورة. كيفية العمل مع الأنفاق أو في منطقة إصلاح الطرق. وفي كل هذه الحالات لا توجد آلية مباشرة لإخبار الشبكة بما يجب القيام به. لدينا فقط مجموعة بيانات ضخمة. يمكننا التقاط الصور ووضع العلامات وتدريب الشبكة حتى تبدأ في فهم بنيتها.
مجموعات البيانات الكبيرة والمتنوعة تساعد الشبكات على العمل بشكل جيد للغاية. هذا ليس اكتشافنا. التجارب والبحث جوجل ، الفيسبوك ، بايدو ، Deepmind من الأبجدية. جميعها تظهر نتائج مماثلة - الشبكات العصبية تحب البيانات بالفعل ، مثل الكمية والتنوع. إضافة المزيد من البيانات ودقة الشبكات العصبية آخذ في الازدياد.
سيكون لديك لتطوير الطيار الآلي لمحاكاة سلوك السيارات في المحاكاة
يشير عدد من الخبراء إلى أنه بإمكاننا استخدام المحاكاة للحصول على البيانات اللازمة بالمقياس الصحيح. في تسلا ، طرحنا هذا السؤال مرارًا وتكرارًا. لدينا محاكاة الخاصة بنا. نحن نستخدم المحاكاة على نطاق واسع لتطوير وتقييم البرمجيات. استخدمناها للتدريب بنجاح كبير. ولكن في النهاية ، عندما يتعلق الأمر بتدريب البيانات الخاصة بالشبكات العصبية ، فلا شيء يمكن أن يحل محل البيانات الحقيقية. تواجه المحاكاة مشكلات في تصميم مظهر المشاركين والفيزياء وسلوكهم.

العالم الحقيقي يلقي بنا على مجموعة من المواقف غير المتوقعة. ظروف صعبة مع الثلوج والأشجار والرياح. مختلف التحف البصرية التي يصعب نمذجة. مناطق إصلاح الطرق والشجيرات والأكياس البلاستيكية المعلقة في مهب الريح. يمكن أن يكون هناك الكثير من الناس والكبار والأطفال والحيوانات مختلطة. نمذجة سلوك وتفاعل كل هذا مهمة غير قابلة للذوبان على الإطلاق.

هذا لا يتعلق بحركة المشاة. إنها تتعلق بكيفية تفاعل المشاة مع بعضهم البعض ، وكيف تتفاعل السيارات مع بعضهم البعض ، وكيف يتفاعلون معك. كل هذا من الصعب جدا محاكاة. تحتاج إلى تطوير الطيار الآلي أولاً ، فقط لمحاكاة سلوك السيارات في المحاكاة.
هذا صعب حقا. يمكن أن يكون كلابًا ، وحيوانات غريبة ، وأحيانًا لا يمثل شيئًا لا يمكنك التظاهر به ، إنه ببساطة شيء لا يخطر ببالك مطلقًا. لم أكن أعرف أن الشاحنة يمكن أن تحمل الشاحنة التي تحمل الشاحنة التي تحمل شاحنة أخرى. ولكن في العالم الواقعي ، يحدث هذا والعديد من الأشياء الأخرى التي يصعب التوصل إليها. التنوع الذي أراه في البيانات الواردة من السيارات هو مجرد مجنون فيما يتعلق بما لدينا في جهاز محاكاة. على الرغم من أن لدينا محاكاة جيدة.
إيلون: المحاكاة كما لو كنت تخترع واجبك المنزلي لنفسك. إذا كنت تعلم أنك سوف تتظاهر ، حسنًا ، هذا بالطبع سوف تتعامل مع هذا. ولكن كما قال أندريه ، أنت لا تعرف ما لا تعرفه. العالم غريب للغاية ، وله ملايين الحالات الخاصة. إذا قام شخص ما بإنشاء محاكاة قيادة تُعيد إنتاج الواقع بأمانة ، فسيكون هذا بحد ذاته إنجازًا ضخمًا للبشرية. لكن لا أحد يستطيع فعل هذا. ببساطة لا توجد طريقة.
الأسطول هو مصدر البيانات الرئيسي للتدريب
أندريه: لكي تعمل الشبكات العصبية بشكل جيد ، تحتاج إلى مجموعة كبيرة ومتنوعة وحقيقية من البيانات. وإذا كان لديك واحدة ، يمكنك تدريب شبكتك العصبية وستعمل بشكل جيد للغاية. فلماذا تسلا خاصة جدا في هذا الصدد؟ الجواب ، بالطبع ، هو الأسطول (أسطول ، أسطول تسلا). يمكننا جمع البيانات من جميع مركبات تسلا واستخدامها للتدريب.
دعونا نلقي نظرة على مثال محدد لتحسين تشغيل كاشف الكائنات. سيعطيك هذا فكرة عن كيفية تدريبنا على الشبكات العصبية ، وكيف نستخدمها ، وكيف تتحسن مع مرور الوقت.
اكتشاف الكائن هو أحد أهم مهامنا. نحن بحاجة إلى تسليط الضوء على أبعاد السيارات وغيرها من الأشياء من أجل تعقبها وفهم كيف يمكن أن تتحرك. يمكننا أن نطلب من الناس وضع علامة على الصور. سيقول الناس: "هنا السيارات ، وهنا الدراجات" وما إلى ذلك. ويمكننا تدريب الشبكة العصبية على هذه البيانات. ولكن في بعض الحالات ، ستقوم الشبكة بعمل تنبؤات غير صحيحة.

على سبيل المثال ، إذا تعثرنا على سيارة موصلة بها دراجة في الخلف ، فإن شبكتنا العصبية ستكتشف كائنين - سيارة ودراجة. هكذا عملت عندما وصلت لأول مرة. بطريقته الخاصة ، هو على حق ، لأن كل من هذه الأشياء موجودة بالفعل هنا. لكن مخطط الطيار الآلي لا يهتم بحقيقة أن هذه الدراجة هي كائن منفصل يتحرك مع السيارة. الحقيقة هي أن هذه الدراجة متصلة بشكل صارم بالسيارة. من حيث الكائنات الموجودة على الطريق ، هذا كائن واحد - سيارة واحدة.

الآن نود أن نحتفل بالعديد من الأشياء المشابهة على أنها "سيارة واحدة". يستخدم فريقنا النهج التالي. نلتقط هذه الصورة أو العديد من الصور التي يوجد بها مثل هذا النموذج. ولدينا آلية للتعلم الآلي يمكننا من خلالها أن نطلب من الأسطول تزويدنا بأمثلة تشبهها. والأسطول يرسل الصور ردا على ذلك.

فيما يلي مثال على ستة صور تم تلقيها. تحتوي جميعها على دراجات ملحقة بالسيارات. سنقوم بتمييزها بشكل صحيح وسيعمل كاشفنا بشكل أفضل. ستبدأ الشبكة في فهم الوقت الذي تكون فيه الدراجة موصولة بالسيارة ، وأنه كائن واحد. يمكنك تدريب الشبكة على ذلك ، شريطة أن يكون لديك أمثلة كافية. وهذه هي الطريقة التي نحل بها مثل هذه المشاكل.
أنا أتحدث كثيرا عن الحصول على البيانات من سيارات تسلا. وأريد أن أقول على الفور أننا طورنا هذا النظام من البداية ، مع مراعاة السرية. جميع البيانات التي نستخدمها للتدريب مجهولة المصدر.
الأسطول يرسلنا ليس فقط الدراجات على السيارات. نحن نبحث باستمرار عن العديد من النماذج المختلفة. على سبيل المثال ، نبحث عن قوارب - يرسل الأسطول صوراً للقوارب على الطرقات. نريد صورًا لمناطق إصلاح الطرق ، ويرسل لنا الأسطول العديد من هذه الصور من جميع أنحاء العالم. أو على سبيل المثال ، القمامة على الطريق ، وهذا هو أيضا مهم جدا. يرسل لنا الأسطول صور الإطارات والأقماع والأكياس البلاستيكية وما شابه ذلك على الطريق.

يمكننا الحصول على ما يكفي من الصور ووضع علامات عليها بشكل صحيح ، وسوف تتعلم الشبكة العصبية كيفية العمل معهم في العالم الحقيقي. نحن بحاجة إلى الشبكة العصبية لفهم ما يحدث والرد بشكل صحيح.
عدم اليقين الشبكة العصبية يؤدي إلى جمع البيانات
الإجراء ، الذي نكرره مرارًا وتكرارًا لتدريب الشبكة العصبية ، هو على النحو التالي. لقد بدأنا بمجموعة عشوائية من الصور التي تلقيناها من الأسطول. نقوم بتمييز الصور وتدريب الشبكة العصبية وتحميلها في السيارات. لدينا آليات يمكننا من خلالها اكتشاف عدم الدقة في تشغيل الطيار الآلي. إذا رأينا أن الشبكة العصبية غير متأكد أو يوجد تدخل من برنامج التشغيل أو أحداث أخرى ، فسيتم إرسال البيانات التي حدث عليها تلقائيًا.

على سبيل المثال ، يتم التعرف على علامات النفق بشكل سيء. نلاحظ أن هناك مشكلة في الأنفاق. الصور المقابلة تندرج في اختبارات وحدتنا بحيث لا يمكن تكرار المشكلة لاحقًا. الآن ، لحل المشكلة ، نحتاج إلى الكثير من الأمثلة التدريبية. نطلب من الأسطول إرسال المزيد من صور الأنفاق إلينا ، ووضع علامات عليها بشكل صحيح ، وإضافتها إلى مجموعة التدريب وإعادة تدريب الشبكة ، ثم تحميلها في السيارات. هذه الدورة تتكرر مرارا وتكرارا. نحن نسمي هذه العملية التكرارية محرك البيانات (محرك البيانات؟ محرك البيانات؟). نقوم بتشغيل الشبكة في وضع الظل ، ونكتشف عدم الدقة ، ونطلب مزيدًا من البيانات ، ونضمها في مجموعة التدريب. نحن نفعل هذا لجميع أنواع التنبؤات بشبكاتنا العصبية.
ترميز البيانات التلقائي
تحدثت كثيرًا عن العلامات اليدوية للصور. هذه عملية مكلفة ، من حيث الوقت والمال. يمكن أن يكون مكلفا للغاية. أريد أن أتحدث عن كيف يمكنك استخدام الأسطول هنا. العلامات اليدوية هي عنق الزجاجة. نريد فقط نقل البيانات وترميزها تلقائيًا. وهناك عدة آليات لذلك.
على سبيل المثال ، أحد مشاريعنا الأخيرة هو إعادة بناء الكشف.
أنت تقود على الطريق السريع ، شخص ما يقود سيارته على اليسار أو اليمين ، وهو يعيد البناء في حاراتك.
إليك مقطع فيديو يكتشف فيه الطيار الآلي إعادة بناء. بالطبع ، نود اكتشافه في أقرب وقت ممكن. تتمثل طريقة حل هذه المشكلة في أننا لا نكتب رمزًا مثل: مؤشر الاتجاه الأيسر قيد التشغيل ، مؤشر الاتجاه الصحيح قيد التشغيل ، ما إذا كانت السيارة قد تحركت أفقياً بمرور الوقت. بدلاً من ذلك ، نستخدم التعلم التلقائي القائم على الأسطول.كيف يعمل؟ نطلب من الأسطول أن يرسل لنا البيانات كلما تم تسجيل إعادة بناء في حارة لدينا. ثم نرجع الوقت إلى الوراء ونلاحظ تلقائيًا أن هذه السيارة ستعيد بناء أمامك في 1.3 ثانية. هذه البيانات يمكن استخدامها لتدريب الشبكة العصبية. وبالتالي ، فإن الشبكة العصبية نفسها سوف تستخرج العلامات الضرورية. على سبيل المثال ، السيارة تجوب ثم تعيد البناء ، أو أن لديها إشارة تشغيل. تتعرف الشبكة العصبية على كل هذا من خلال الأمثلة المصنفة تلقائيًا.تحقق الظل
نطلب من الأسطول إرسال البيانات إلينا تلقائيًا. يمكننا جمع نصف مليون صورة أو نحو ذلك ، وسيتم تحديد عمليات إعادة الإنشاء على الإطلاق. نقوم بتدريب الشبكة وتحميلها في الأسطول. ولكن حتى يتم تشغيله بالكامل ، ولكن تشغيله في وضع الظل. في هذا الوضع ، تصدر الشبكة باستمرار تنبؤات: "مهلا ، أعتقد أن هذه السيارة ستتم إعادة بنائها." ونحن نبحث عن توقعات خاطئة.
فيما يلي مثال على مقطع تم الحصول عليه من وضع الظل. الوضع هنا ليس واضحًا إلى حد ما ، واعتقدت الشبكة أن السيارة الموجودة على اليمين كانت على وشك إعادة البناء. وقد تلاحظ أنه يمزح قليلاً مع خط العلامات. كان رد فعل الشبكة على ذلك ، واقترح أن السيارة ستكون في حارة لدينا قريبا. لكن هذا لم يحدث.تعمل الشبكة في وضع الظل وتقوم بالتنبؤات. من بينها كاذبة إيجابية وسلبية كاذبة. تتفاعل الشبكة أحيانًا عن طريق الخطأ ، وأحيانًا تتخطى الأحداث. كل هذه الأخطاء تؤدي إلى جمع البيانات. تم وضع علامة على البيانات ودمجها في التدريب دون بذل جهد إضافي. ونحن لا نعرض الناس للخطر في هذه العملية. نقوم بإعادة تدريب الشبكة ونستخدم وضع الظل مرة أخرى. يمكننا تكرار ذلك عدة مرات ، وتقييم الإنذارات الكاذبة في ظروف حركة المرور الحقيقية. بمجرد أن تناسبنا المؤشرات ، نضغط ببساطة على المفتاح ونترك الشبكة تتحكم في السيارة.أطلقنا واحدة من الإصدارات الأولى من كاشف إعادة البناء ، منذ حوالي ثلاثة أشهر. إذا لاحظت أن الجهاز أصبح أفضل بكثير في اكتشاف إعادة البناء ، فهذا تدريب على الأسطول أثناء العمل. ولم يصب شخص واحد في هذه العملية. إنه مجرد تدريب كثير على الشبكات العصبية استنادًا إلى بيانات حقيقية ، باستخدام وضع الظل وتحليل النتائج.إيلون: في الواقع ، يقوم جميع السائقين باستمرار بتدريب الشبكة. لا يهم ما إذا كان الطيار الآلي قيد التشغيل أم لا. الشبكة تتعلم. يقوم كل ميل تم اجتيازه بواسطة جهاز به HW2.0 أو معدات أعلى بتعليم الشبكة.أثناء القيادة ، تقوم بالفعل بترميز البيانات
أندريه: هناك مشروع آخر مثير للاهتمام نستخدمه في مخطط تدريب الأسطول وهو توقع الطريق. عندما تقود السيارة ، فأنت تقوم بالفعل بترميز البيانات. أنت تخبرنا كيف تقود في مواقف القيادة المختلفة. إليك أحد السائقين الذين تحولوا إلى اليسار عند التقاطع. لدينا فيديو كامل لجميع الكاميرات ، ونعرف المسار الذي اختاره السائق. نحن نعرف أيضًا ما هي سرعة وزاوية دوران عجلة القيادة. نجمعها جميعًا ونفهم المسار الذي اختاره شخص ما في هذا الموقف المروري. ويمكننا استخدام هذا كتدريس مع مدرس. نحن فقط نحصل على الكمية اللازمة من البيانات من الأسطول ، ندرب الشبكة على هذه المسارات ، وبعد ذلك يمكن للشبكة العصبية أن تتنبأ بالمسار.وهذا ما يسمى التعلم التقليد. نأخذ مسارات الناس من العالم الحقيقي ونحاول تقليدها. ومرة أخرى يمكننا أن نتبع نهجنا التكراري.فيما يلي مثال للتنبؤ بمسار في ظروف الطرق الصعبة. في الفيديو ، نقوم بتراكب توقعات الشبكة. الأخضر يمثل المسار الذي ستتحرك به الشبكة.
إيلون: الجنون هو أن الشبكة تتنبأ بمسار لا تستطيع رؤيته. مع دقة عالية بشكل لا يصدق. إنها لا ترى ما يحيط بها ، لكنها تعتقد أن احتمال هذا المسار مرتفع للغاية. واتضح أن يكون على حق. اليوم سترى ذلك في السيارات ، وسنضمّن رؤية معززة حتى تتمكن من رؤية علامات وإسقاطات المسار المتراكبة على الفيديو.أندريه: في الواقع ، تحت الغطاء ، يحدث أكثر ، وإيلون: في الواقع ، إنه أمر مخيف بعض الشيء (أندريه يضحك).أندرو: بالطبع ، أفتقد الكثير من التفاصيل. قد لا ترغب في استخدام جميع برامج التشغيل في صف واحد للترميز ، وتريد تقليد الأفضل. ونحن نستخدم عددًا من الطرق لإعداد هذه البيانات. ومن المثير للاهتمام ، هذا التوقع هو في الواقع ثلاثي الأبعاد. هذا هو المسار في الفضاء ثلاثي الأبعاد التي نعرضها في 2D. لكن لدى الشبكة معلومات حول المنحدر ، وهذا مهم جدًا للقيادة.توقع الطريقة التي تعمل حاليا في السيارات. بالمناسبة ، عندما تجاوزت التقاطع على الطريق السريع ، منذ حوالي خمسة أشهر ، لم تتمكن سيارتك من التعامل معه. الآن ما في وسعها. هذا هو التنبؤ بالطريقة ، في العمل ، في سياراتك. قمنا بتشغيله منذ فترة. واليوم يمكنك أن ترى كيف تعمل عند التقاطعات. يتم الحصول على جزء كبير من التدريب للتغلب على التقاطعات عن طريق تمييز البيانات تلقائيًا.تمكنت من التحدث عن المكونات الرئيسية للتدريب على الشبكات العصبية. تحتاج إلى مجموعة كبيرة ومتنوعة من البيانات الحقيقية. في تسلا ، نحصل عليه باستخدام الأسطول. نحن نستخدم محرك البيانات ، ووضع الظل وتقسم البيانات التلقائي باستخدام الأسطول. ويمكننا توسيع نطاق هذا النهج.إدراك العمق بواسطة الفيديو
في الجزء التالي من خطابي سأتحدث عن إدراك العمق من خلال الرؤية. ربما تعلم أن السيارات تستخدم نوعين على الأقل من أجهزة الاستشعار. أحدهما هو كاميرات الفيديو ذات السطوع ، والآخر هو lidar ، والذي تستخدمه العديد من الشركات. Lidar يعطي قياسات نقطة المسافة من حولك.أود أن أشير إلى أنك جئت جميعًا إلى هنا باستخدام شبكتك ورؤيتك العصبية فقط. لم تطلق النار بالليزر من عينيك ولا تزال هنا.من الواضح أن الشبكة العصبية البشرية تستخرج المسافة وترى أن العالم ثلاثي الأبعاد بشكل حصري من خلال الرؤية. انها تستخدم عددا من الحيل. سأتحدث باختصار عن بعضهم. على سبيل المثال ، لدينا عينان ، حتى تحصل على صورتين من العالم أمامك. يجمع عقلك بين هذه المعلومات للحصول على تقدير المسافات ، ويتم ذلك عن طريق تثليث النقاط في صورتين. في العديد من الحيوانات ، توجد العينان على الجانبين ويتقاطع مجال نظرهما قليلاً. هذه الحيوانات تستخدم هيكل (الحركة). إنهم يحركون رؤوسهم للحصول على العديد من صور العالم من نقاط مختلفة ويمكنهم أيضًا تطبيق التثليث.
حتى مع إغلاق عين واحدة وبدون حراك تمامًا ، فأنت تحتفظ بشعور ما من إدراك المسافة. إذا قمت بإغلاق عين واحدة ، فلن يبدو لك أنني أصبحت أقرب مترين أو مائة متر أخرى. وذلك لأن هناك العديد من التقنيات أحادي العين القوية التي ينطبق عليها عقلك أيضًا. على سبيل المثال ، وهم بصري شائع ، مع اثنين من خطوط متطابقة على خلفية السكك الحديدية. يقوم عقلك بتقييم المشهد ويتوقع أن يكون أحدهما أكبر من الآخر بسبب اختفاء خطوط السكك الحديدية عن بعد. يقوم عقلك بالكثير من هذا تلقائيًا ، ويمكن للشبكات العصبية الاصطناعية القيام بذلك أيضًا.سأقدم ثلاثة أمثلة حول كيفية تحقيق إدراك العمق في الفيديو. نهج كلاسيكي واثنين على أساس الشبكات العصبية.
يمكننا التقاط مقطع فيديو في بضع ثوانٍ وإعادة إنشاء المناطق المحيطة ثلاثية الأبعاد باستخدام طرق التثليث والرؤية الاستريو. نحن نطبق طرق مماثلة في السيارة. الشيء الرئيسي هو أن الإشارة لديها بالفعل المعلومات اللازمة ، والسؤال الوحيد هو استخراجها.بمناسبة المسافة باستخدام الرادار
كما قلت ، الشبكات العصبية هي أداة قوية جدا للتعرف البصري. إذا كنت تريد منهم أن يتعرفوا على المسافة ، فأنت بحاجة إلى تمييز المسافات ، ثم ستتعلم الشبكة كيفية القيام بذلك. لا شيء يقيد الشبكات في قدرتها على التنبؤ بمسافة غير وجود بيانات ذات علامات.نستخدم رادار موجه إلى الأمام. يقيس هذا الرادار ويبلغ المسافة إلى الأشياء التي تراها الشبكة العصبية. بدلاً من إخبار الأشخاص بأن "هذه السيارة تبعد حوالي 25 مترًا" ، يمكنك ترميز البيانات بشكل أفضل باستخدام المستشعرات. الرادار يعمل بشكل جيد للغاية في هذه المسافة. يمكنك ترميز البيانات وتدريب الشبكة العصبية. إذا كانت لديك بيانات كافية ، ستكون الشبكة العصبية جيدة جدًا في التنبؤ بالمسافة.
في هذه الصورة ، تُظهر الدوائر الأجسام التي يستقبلها الرادار ، وتكون المكعبات هي الكائنات التي تستقبلها الشبكة العصبية. وإذا كانت الشبكة تعمل بشكل جيد ، ثم في العرض العلوي ، يجب أن تتوافق مواقف المكعبات مع موضع الدوائر التي نلاحظها. الشبكات العصبية تعمل بشكل جيد للغاية مع التنبؤ عن بعد. يمكنهم معرفة أحجام المركبات المختلفة ، ووفقًا لحجمها على الصورة ، يمكنك تحديد المسافة بدقة.الإشراف الذاتي
الآلية الأخيرة ، التي سأتحدث عنها لفترة وجيزة ، هي تقنية أكثر قليلاً. لا يوجد سوى عدد قليل من المقالات ، وخاصة في العام الماضي أو اثنين ، حول هذا النهج. ويسمى الإشراف الذاتي.
ما يجري هنا. يمكنك تحميل مقاطع فيديو غير مسماة على الشبكة العصبية. ولا يزال بإمكان الشبكة تعلم التعرف على المسافة. دون الخوض في التفاصيل ، تتمثل الفكرة في أن الشبكة العصبية تتنبأ بالمسافة في كل إطار من هذا الفيديو. ليس لدينا علامات للتحقق ، ولكن هناك اتساق الهدف - الوقت. بغض النظر عن المسافة التي تتنبأ بها الشبكة ، يجب أن تكون متسقة خلال الفيديو. والطريقة الوحيدة لتكون متسقة هي التنبؤ بالمسافة بشكل صحيح. تتوقع الشبكة تلقائيًا عمق جميع وحدات البكسل. لقد نجحنا في إعادة إنتاجه ، وهو يعمل بشكل جيد.—
لتلخيص.
يستخدم الناس الرؤية ، لا الليزر. أريد أن أؤكد أن التعرف البصري القوي ضروري للغاية للقيادة الذاتية. نحتاج إلى شبكات عصبية تفهم البيئة حقًا.
البيانات من الليدر أقل تشبعًا بالمعلومات. هل هذه صورة ظلية على الطريق ، هل هي حقيبة بلاستيكية أم إطار؟ سوف يمنحك Lidar ببساطة بضع نقاط ، في حين أن الرؤية يمكن أن تخبرك ما هي. هل هذا الرجل على دراجة ينظر إلى الخلف ، هل يحاول تغيير الخط أو هل يسير بخط مستقيم؟ في منطقة إصلاح الطرق ، ماذا تعني هذه العلامات وكيف يجب أن أتصرف هنا؟ نعم ، تم تصميم البنية التحتية للطرق بأكملها للاستهلاك البصري. كل العلامات ، إشارات المرور ، كل شيء مرئي ، هذا هو كل المعلومات. ويجب علينا استخدامه.هذه الفتاة شغوفة بالهاتف ، هل ستخطو على الطريق؟ يمكن العثور على إجابات لهذه الأسئلة فقط بمساعدة الرؤية وهي ضرورية لمستوى الطيار الآلي 4-5. وهذا ما نقوم بتطويره في تسلا. نحن نقوم بذلك من خلال التدريب على الشبكة العصبية على نطاق واسع ، ومحرك البيانات الخاص بنا ، ومساعدة الأسطول.في هذا الصدد ، ليدار هو محاولة لقطع الطريق. إنه يتحايل على المهمة الأساسية المتمثلة في رؤية الماكينة ، والتي يعد حلها ضروريًا للقيادة الذاتية. انه يعطي شعور زائف بالتقدم. Lidar هو جيد فقط لمظاهرات سريعة.التقدم يتناسب مع تواتر الاصطدامات مع المواقف المعقدة في العالم الحقيقي.

إذا أردت احتواء كل ما قيل على شريحة واحدة ، فستبدو هكذا. نحتاج إلى أنظمة من المستوى 4-5 يمكنها التعامل مع جميع المواقف الممكنة في 99.9999٪ من الحالات. سيكون السعي لتحقيق آخر تسعة صعبة وصعبة للغاية. سيتطلب ذلك نظام رؤية قوي للغاية للآلة.
تظهر هنا صورًا قد تواجهها في الطريق إلى المنازل العشرية العزيزة. في البداية ، لديك فقط سيارات تسير إلى الأمام ، ثم تبدأ هذه السيارات في النظر إلى حد ما على نحو غير عادي ، تظهر الدراجات عليها ، والسيارات على السيارات. ثم تصادف أحداثًا نادرة حقًا ، مثل السيارات المقلوبة أو حتى السيارات في قفزة. نلتقي بالكثير من البيانات الواردة من الأسطول.
ونحن نرى هذه الأحداث النادرة في كثير من الأحيان أكثر بكثير من منافسينا. يحدد هذا السرعة التي يمكننا بها الحصول على البيانات وإصلاح المشكلات من خلال تدريب الشبكات العصبية. تتناسب سرعة التقدم مع التردد الذي تواجهه في المواقف الصعبة في العالم الواقعي. وقد صادفناهم أكثر من أي شخص آخر. لذلك ، الطيار الآلي لدينا هو أفضل من غيرها. شكرا لك
سؤال وجواب
سؤال: كم البيانات التي تجمعها في المتوسط من كل سيارة؟
أندرو: الأمر لا يتعلق فقط بكمية البيانات ، بل يتعلق بالتنوع. في مرحلة ما ، لديك بالفعل صور كافية للقيادة على طول الطريق السريع ، وتفهمها الشبكة ، لم تعد ضرورية. لذلك ، نحن نركز بشكل استراتيجي على الحصول على البيانات الصحيحة. وبنيتنا التحتية ، مع تحليل معقد إلى حد ما ، تتيح لنا الحصول على البيانات التي نحتاجها الآن. لا يتعلق الأمر بالكميات الضخمة من البيانات ، بل يتعلق بالبيانات المختارة جيدًا.
سؤال: أتساءل كيف ستحل مشكلة تغيير الممرات. كلما حاولت إعادة البناء إلى دفق كثيف ، قطعوا عني. أصبح السلوك البشري غير عقلاني على طرق لوس أنجلوس. يريد الطيار الآلي القيادة بأمان ، ويتعين عليك القيام بذلك بشكل غير آمن.
أندرو: تحدثت عن محرك البيانات مثل تدريب الشبكات العصبية. لكننا نفعل الشيء نفسه على مستوى البرنامج. جميع المعلمات التي تؤثر على الاختيار ، على سبيل المثال ، عندما لإعادة البناء ، وكيف العدوانية. نحن أيضا تغييرها في وضع الظل ، ونلاحظ جيدا كيف تعمل وضبط مجريات الأمور. في الواقع ، تصميم مثل هذه الأساليب البحثية للحالة العامة هو مهمة صعبة. أعتقد أنه سيتعين علينا استخدام تدريب الأسطول لاتخاذ مثل هذه القرارات. متى يغير الناس الممرات؟ في أي سيناريوهات؟ متى يشعرون أن تغيير الممرات غير آمن؟ دعنا فقط نلقي نظرة على كمية كبيرة من البيانات ونعلم مصنف التعلم الآلي للتمييز عندما تكون إعادة البناء آمنة. سيكون بمقدور هؤلاء المصنفين كتابة تعليمات برمجية أفضل من الأشخاص ، لأنهم يعتمدون على كمية هائلة من البيانات حول سلوك السائقين.
إيلون: ربما ، سيكون لدينا وضع "حركة المرور في لوس أنجلوس". في مكان ما بعد وضع جنون ماكس. نعم ، سيصعب Mad Max وقتًا عصيبًا في لوس أنجلوس.
أندريه سوف تضطر إلى حل وسط. لا تريد إنشاء مواقف غير آمنة ، ولكنك ترغب في العودة إلى المنزل. والرقصات التي يؤديها الناس في نفس الوقت ، من الصعب للغاية البرمجة. أعتقد أن الشخص الصحيح هو التعلم الآلي. حيث ننظر فقط إلى العديد من الطرق التي يقوم بها الناس بذلك ومحاولة تقليدها.
إيلون: نحن الآن محافظون قليلاً ، ومع نمو ثقتنا ، سيكون من الممكن اختيار نظام أكثر عدوانية. سيكون المستخدمون قادرين على اختياره. في الأوضاع العدوانية ، عند محاولة تغيير الممرات في ازدحام مروري ، هناك فرصة ضئيلة لتجعد الجناح. لا يوجد خطر وقوع حادث خطير. سيكون لديك خيار ما إذا كنت توافق على فرصة غير صفرية في هز الجناح. لسوء الحظ ، هذه هي الطريقة الوحيدة للتورط في حركة المرور على الطريق السريع.
سؤال: هل يمكن أن يحدث ذلك في واحدة من تلك التسع بعد العلامة العشرية التي ستكون مفيدة؟ السؤال الثاني هو ، إذا كانت النجوم لا قيمة لها حقًا ، فما الذي سيحدث لأولئك الذين يبنون قراراتهم عليها؟
إيلون: سوف يتخلصون جميعًا من النجوم ، هذا هو توقعاتي ، يمكنك الكتابة. يجب أن أقول ، أنا لا أكره يدر بقدر ما قد يبدو. يستخدم SpaceX Dragon الغطاء الأيسر للانتقال إلى محطة الفضاء الدولية والرسو. وقد وضعت SpaceX ليدار الخاصة بها من نقطة الصفر لهذا الغرض. أنا شخصياً قادت هذا المشروع لأن ليدار منطقي في هذا السيناريو. لكن في السيارات ، إنه غبي. أنها مكلفة وليست ضرورية. وكما قال أندريه ، بمجرد أن تتعامل مع الفيديو ، سيصبح غطاء عديم الجدوى. سيكون لديك معدات باهظة الثمن غير مجدية للسيارة.
لدينا رادار أمامي. أنها غير مكلفة ومفيدة ، وخاصة في ظروف ضعف الرؤية. ضباب أو غبار أو ثلج ، يمكن للرادار رؤيته من خلالهم. إذا كنت تريد استخدام توليد الفوتون النشط ، فلا تستخدم الطول الموجي للضوء المرئي. نظرًا لأنك تمتلك البصريات السلبية ، فقد اهتمت بالفعل بكل شيء في الطيف المرئي. من الأفضل الآن استخدام طول موجة مع خصائص اختراق جيدة ، مثل الرادار. Lidar هو ببساطة الجيل النشط من الفوتونات في الطيف المرئي. تريد أن تولد بنشاط الفوتونات ، تفعل ذلك خارج الطيف المرئي. باستخدام 3.8 ملم مقابل 400-700 نانومتر ، ستتمكن من رؤية الظروف الجوية السيئة. لذلك ، لدينا رادار. وكذلك اثني عشر مجس بالموجات فوق الصوتية للبيئة المباشرة. يكون الرادار مفيدًا للغاية في اتجاه الحركة ، لأنه يتحرك بشكل سريع للغاية.
لقد أثارنا قضية أجهزة الاستشعار عدة مرات. هل هناك ما يكفي منهم؟ هل لدينا كل ما نحتاجه؟ تحتاج إلى إضافة شيء آخر؟ هممم. بما فيه الكفاية.
سؤال: يبدو أن السيارات تقوم بحساب ما لتحديد المعلومات المراد إرسالها إليك. هل يتم ذلك في الوقت الفعلي أو بناءً على المعلومات المخزنة؟
أندريه: يتم إجراء الحسابات في الوقت الحقيقي في السيارات نفسها. ننقل الظروف التي تهمنا ، والسيارات تفعل جميع الحسابات اللازمة. إذا لم يفعلوا ذلك ، فسيتعين علينا نقل جميع البيانات في صف واحد ومعالجتها في النهاية الخلفية. نحن لا نريد أن نفعل هذا.
إيلون: لدينا أربع مئة وخمسة وعشرين ألف سيارة مع HW2.0 +. هذا يعني أن لديهم ثماني كاميرات ورادار وأجهزة استشعار بالموجات فوق الصوتية وجهاز كمبيوتر nVidia على الأقل. يكفي حساب أي المعلومات المهمة وأيها غير مهمة. يقومون بضغط المعلومات الهامة وإرسالها إلى الشبكة للتدريب. هذا هو درجة كبيرة من ضغط البيانات من العالم الحقيقي.
سؤال: لديك هذه الشبكة التي تضم مئات الآلاف من أجهزة الكمبيوتر ، والتي تشبه مركز بيانات موزع قوي. هل ترى تطبيقه لأغراض أخرى غير الطيار الآلي؟
إيلون: أعتقد أن هذا يمكن استخدامه لشيء آخر. بينما نركز على الطيار الآلي. بمجرد وصولنا إلى المستوى الصحيح ، يمكننا التفكير في التطبيقات الأخرى. بحلول ذلك الوقت ، سيكون الملايين أو عشرات الملايين من السيارات باستخدام HW3.0 أو FSDC.
السؤال: حساب المرور؟
إيلون: نعم ، ربما. يمكن أن يكون شيء مثل AWS (خدمات الويب الأمازون).
سؤال: أنا سائق موديل 3 في مينيسوتا ، حيث يوجد الكثير من الثلج. لا يمكن للكاميرا والرادار رؤية علامات الطرق عبر الثلج. كيف ستحل هذه المشكلة؟ هل ستستخدم GPS عالي الدقة؟
أندرو: بالفعل اليوم ، يتصرف الطيار الآلي بشكل جيد على طريق ثلجي. حتى عندما تكون العلامات مخفية أو متوترة أو مغطاة بالمياه في أمطار غزيرة ، فإن الطيار الآلي لا يزال يتصرف بشكل جيد نسبيًا. لم نعالج بعد الطريق الثلجي على وجه التحديد من خلال محرك البيانات الخاص بنا. لكنني متأكد من أن هذه المشكلة يمكن حلها. لأنه في العديد من الصور لطريق ثلجي ، إذا سألت شخصًا عن المكان الذي يجب أن تكون فيه العلامات ، فسوف يعرضها عليك. يتفق الناس على مكان رسم خطوط العلامات. بينما يمكن للناس الموافقة على بياناتك وترميزها ، ستكون الشبكة العصبية قادرة على تعلم هذا وستعمل بشكل جيد. والسؤال الوحيد هو ما إذا كانت هناك معلومات كافية في الإشارة الأصلية. يكفي لشخص معلق؟ إذا كان الجواب نعم ، فإن الشبكة العصبية ستعمل بشكل جيد.
إيلون: هناك عدة مصادر مهمة للمعلومات في إشارة المصدر. لذلك العلامات ، وهذا هو واحد منهم فقط. المصدر الأكثر أهمية هو الممر. أين يمكنك الذهاب ، وحيث لا يمكنك ذلك. أكثر أهمية من العلامات. التعرف على الطريق يعمل بشكل جيد للغاية. أعتقد ، خاصة بعد فصل الشتاء القادم ، سوف يعمل بشكل لا يصدق. سوف نتساءل كيف يمكن أن يعمل هذا بشكل جيد. هذا مجنون فقط.
أندرو: الأمر لا يتعلق حتى بقدرة الناس على الترميز. طالما أنت ، أي شخص ، يمكنك التغلب على هذا الجزء من الطريق. سوف يتعلم الأسطول منك. نحن نعرف كيف قادت هنا. ومن الواضح أنك استخدمت الرؤية لهذا الغرض. لم تشاهد العلامات ، لكنك استخدمت هندسة المشهد بأكمله. ترى كيف ينحني الطريق ، وكيف تقع السيارات الأخرى من حولك. ستقوم الشبكة العصبية بتسليط الضوء تلقائيًا على كل هذه الأنماط ، وستحتاج فقط إلى الحصول على بيانات كافية حول كيفية تخطي الأشخاص لهذه المواقف.
إيلون: من المهم جدًا عدم التمسك بإحكام بنظام GPS. خطأ GPS يمكن أن يكون كبيرا جدا. ويمكن أن يكون الوضع الحقيقي لحركة المرور غير متوقعة. يمكن أن يكون إصلاح الطرق أو التفاف. إذا كانت السيارة تعتمد بشكل كبير على GPS ، فهذا وضع سيء. أنت تسأل عن مشكلة. GPS مفيد لاستخدامه فقط ك التلميح.
سؤال: يتحدث بعض منافسيك عن كيفية استخدامهم للخرائط عالية الدقة لتحسين الإدراك وتخطيط المسار. هل تستخدم شيئًا مشابهًا في نظامك ، هل ترى أي فائدة في هذا؟ هل هناك مناطق ترغب في الحصول على مزيد من البيانات فيها ، ليس من الأسطول ، ولكن شيء يشبه البطاقات؟
إيلون: أعتقد أن الخرائط عالية الدقة فكرة سيئة للغاية. يصبح النظام غير مستقر للغاية. غير قادر على التكيف مع التغييرات إذا كنت متصلًا بنظام GPS والخرائط عالية الدقة ولا تعطي الأولوية للرؤية. الرؤية هي الشيء الذي يجب أن يفعل كل شيء. انظر ، العلامات هي مجرد مبدأ توجيهي ، وليس الشيء الأكثر أهمية. حاولنا استخدام بطاقات الترميز وأدركنا سريعًا أن هذا خطأ كبير. لقد تخلينا عنها تمامًا.
سؤال: فهم مكان وجود الأشياء وكيفية تحرك السيارات أمر مفيد للغاية. ولكن ماذا عن الجانب التفاوضي؟ أثناء وقوف السيارات ، عند الدوار وفي المواقف الأخرى التي تتفاعل فيها مع السيارات الأخرى التي يقودها الأشخاص. إنه فن أكثر منه علم.
إيلون: إنه يعمل بشكل جيد. إذا نظرت إلى مواقف مع إعادة ترتيب ، وما إلى ذلك ، فإن الطيار الآلي يتواءم عادة.
أندرو: نستخدم الآن الكثير من التعلم الآلي لإنشاء فكرة عن العالم الحقيقي. علاوة على ذلك ، لدينا جدولة ووحدة تحكم والعديد من الاستدلال حول كيفية القيادة ، وكيفية أخذ السيارات الأخرى في الاعتبار ، وهلم جرا. وكما هو الحال في التعرف على الأنماط ، هناك العديد من الحالات غير القياسية هنا ، إنها مثل لعبة الصقور والحمام ، والتي تلعبها مع أشخاص آخرين. نحن على ثقة من أننا في نهاية المطاف سوف نستخدم التدريب القائم على الأسطول لحل هذه المشكلة. كتاب الاستدلال الكتابة اليدوية تقع بسرعة على هضبة.
السؤال: هل لديك وضع الفصيلة؟ هل النظام قادر على ذلك؟
أندريه: أنا متأكد تمامًا من أننا يمكن أن نصنع مثل هذا النظام. لكن مرة أخرى ، إذا كنت تدرب الشبكة لتقليد الناس. يتم إرفاق الأشخاص والقيادة أمام السيارة وتتذكر الشبكة هذا السلوك. هناك نوع من السحر ، كل شيء يحدث في حد ذاته. تنخفض المشكلات المختلفة إلى واحدة ، فقط اجمع مجموعة البيانات واستخدمها لتدريب الشبكة العصبية.
إيلون: ثلاث خطوات للقيادة الذاتية. الأول هو ببساطة تنفيذ هذه الوظيفة. والثاني هو إحضاره إلى الحد الذي لا يحتاج فيه أي شخص في السيارة إلى الانتباه إلى الطريق على الإطلاق. والثالث هو إظهار مستوى الموثوقية التي تقنع المنظمين. هذه ثلاثة مستويات. نتوقع أن نصل إلى المستوى الأول هذا العام. ونتوقع ، في مكان ما في الربع الثاني من العام المقبل ، الوصول إلى مستوى من الثقة عندما لا يحتاج الشخص إلى إبقاء يديه على عجلة القيادة والنظر إلى الطريق. بعد ذلك ، نتوقع موافقة الجهات التنظيمية في بعض الولايات القضائية على الأقل بحلول نهاية العام المقبل. هذه هي توقعاتي.
بالنسبة للشاحنات ، من المرجح أن يتم اعتماد نظام القافلة من قبل المنظمين في وقت أقرب من أي شيء آخر. ربما في الرحلات الطويلة ، يمكنك استخدام سائق واحد في السيارة الأمامية و 4 شاحنات شبه خلفه في وضع القافلة.
سؤال: أنا معجب جدا بتحسين الطيار الآلي. في الأسبوع الماضي كنت أقود في الممر الأيمن من الطريق السريع ، وكان هناك مدخل. تمكنت My Model 3 من اكتشاف سيارتين تدخلان على الطريق السريع وتباطأت بحيث بنيت إحدى السيارات بهدوء أمامي والآخر ورائي. ثم فكرت ، اللعنة ، هذا مجنون ، لم أكن أعرف أن طراز 3 الخاص بي قادر على ذلك.
لكن في نفس الأسبوع كنت أقود السيارة مرة أخرى في الحارة اليمنى ، وكان هناك طريق ضيق ، تم دمج حاراتي اليمنى مع اليسار. وكان نموذجي 3 غير قادر على الرد بشكل صحيح ، كان علي التدخل. هل تستطيع أن تقول كيف تسلا يمكن أن تحل هذه المشكلة؟
أندرو: تحدثت عن البنية التحتية لجمع البيانات. إذا تدخلت ، فعلى الأرجح حصلنا على هذا الكليب. حصل على الإحصائيات ، على سبيل المثال ، مع ما احتمال تدفقنا بشكل صحيح في الدفق. ننظر إلى هذه الأرقام وننظر إلى المقاطع ونرى ما هو الخطأ. ونحن نحاول تصحيح السلوك من أجل تحقيق تحسن بالمقارنة مع المعايير.
إيلون: حسنًا ، لدينا عرض تقديمي آخر عن البرنامج. كان لدينا عرض تقديمي حول المعدات مع Pete ، ثم الشبكات العصبية مع Andrey ، والآن يتبع البرنامج مع Stuart.
...