ترجمة الجزء الأول من عرض يوم مستثمر تسلا للحكم الذاتي حول تطوير جهاز كمبيوتر كامل القيادة الذاتية للطيار الآلي تسلا. نملأ الفجوة بين مراجعات الأطروحة للعرض ومحتواه.يتم ترجمة نص العرض التقديمي بالقرب من النص الأصلي. أسئلة للمتكلم - بشكل انتقائي مع الاختصارات.المضيف: مرحبا بالجميع. آسف للتأخر مرحبًا بك في اليوم الأول من القيادة المستقلة. آمل أن نتمكن من القيام بذلك بشكل منتظم لإطلاعك على آخر التطورات.
منذ حوالي ثلاثة أشهر ، كنا نستعد لتقرير أرباح الربع الرابع مع إيلون وغيره من المسؤولين التنفيذيين. قلت بعد ذلك أن أكبر فجوة في المحادثات مع المستثمرين ، بين ما أراه داخل الشركة وما هو تصورها الخارجي ، هو تقدمنا في القيادة المستقلة. وهذا أمر مفهوم ، خلال العامين الماضيين تحدثنا عن زيادة إنتاج النموذج 3 ، الذي دار حوله الكثير من النقاش. في الواقع ، لقد حدث الكثير في الخلفية.
لقد عملنا على شريحة جديدة للطيار الآلي ، وأعدنا تصميم الشبكة العصبية لرؤية الماكينات بالكامل ، وبدأنا أخيرًا في إطلاق الكمبيوتر الكامل القيادة الذاتية (FSDC). كنا نظن أنه من الجيد فتح الحجاب فقط ، ودعوة الجميع والتحدث عن كل ما فعلناه خلال العامين الماضيين.
منذ حوالي ثلاث سنوات أردنا استخدامها ، أردنا العثور على أفضل رقاقة للقيادة الذاتية. وجدنا أنه لا توجد شريحة تم تصميمها من الألف إلى الياء للشبكات العصبية. لذلك ، قمنا بدعوة زميلي بيت بانون ، نائب رئيس تصميم الدوائر المتكاملة ، لتطوير مثل هذه الشريحة بالنسبة لنا. لديه حوالي 35 عامًا من الخبرة في تطوير الرقاقات. بما في ذلك 12 عامًا في شركة PASemi ، التي اشترتها Apple لاحقًا. لقد عمل على عشرات من الهياكل والتطبيقات المختلفة ، وكان المصمم الرئيسي لشركة Apple iPhone 5 ، قبل وقت قصير من انضمامه إلى Tesla. ينضم إلينا أيضًا على Elon Musk. شكرا لك
إيلون: في الواقع ، كنت سأقدم بيت ، لكن بما أنهم فعلوا ذلك بالفعل ، سأضيف أنه ببساطة أفضل أنظمة ومهندس دوائر متكامل في العالم أعرفه. إنه لشرف لك أنت وفريقك في تسلا. من فضلك أخبرنا عن العمل الرائع الذي قمت به.
بيت: شكرا إيلون. يسعدني أن أكون هنا هذا الصباح ومن الرائع حقًا أن أخبركم عن كل العمل الذي أنجزناه أنا وزملائي هنا في تسلا خلال السنوات الثلاث الماضية. سوف أخبركم قليلاً عن كيف بدأ كل شيء ، وبعد ذلك سوف أعرض لكم على جهاز الكمبيوتر FSDC وأقول لكم كيف يعمل. سنخوض في الرقاقة نفسها وننظر في بعض التفاصيل. سوف أصف كيف يعمل مسرع الشبكة العصبية المتخصصة الذي قمنا بتصميمه ثم يعرض بعض النتائج ، وآمل أنه بحلول ذلك الوقت لن تغفو بعد.
تم تعييني في فبراير 2016. سألت إيلون عما إذا كان مستعدًا للإنفاق بالقدر اللازم لإنشاء هذا النظام المتخصص ، سألني: "هل سنفوز؟" ، أجبته: "حسنًا ، نعم بالطبع ،" ثم قال "أنا في عمل" وبدأ كل شيء. . قمنا بتوظيف مجموعة من الأشخاص وبدأنا في التفكير في شكل شريحة مصممة خصيصًا للقيادة المستقلة تمامًا. لقد أمضينا ثمانية عشر شهراً في تطوير الإصدار الأول ، وفي أغسطس 2017 أصدرناه للإنتاج. لقد حصلنا على الشريحة في ديسمبر ، وقد نجحت ، وحققت نجاحًا كبيرًا في المحاولة الأولى. في أبريل 2018 ، أجرينا العديد من التغييرات وأصدرنا الإصدار B zero Rev. في يوليو 2018 ، تم اعتماد الشريحة ، وبدأنا الإنتاج على نطاق واسع. في ديسمبر 2018 ، تم إطلاق حزمة القيادة المستقلة على معدات جديدة ، وتمكنا من المضي قدمًا في تحويل سيارات الشركة واختبارها في العالم الواقعي. في مارس 2019 بدأنا في تثبيت جهاز كمبيوتر جديد في الطرازين S و X ، وفي أبريل - في الطراز 3.
لذلك ، استغرق البرنامج بأكمله ، من توظيف أول الموظفين إلى الإطلاق الكامل في جميع النماذج الثلاثة من سياراتنا ، أكثر من ثلاث سنوات بقليل. ربما هذا هو أسرع برنامج لتطوير النظام شاركت فيه على الإطلاق. وهو يتحدث بالفعل عن فوائد التكامل الرأسي العالي ، مما يتيح لك القيام بالتصميم المتوازي وتسريع عملية النشر.
من حيث الأهداف ، ركزنا بالكامل فقط على متطلبات تسلا ، وهذا يبسط الحياة إلى حد كبير. إذا كان لديك عميل واحد ، فلا داعي للقلق بشأن الآخرين. كان أحد الأهداف الحفاظ على الطاقة أقل من 100 واط حتى نتمكن من تحويل الأجهزة الحالية. أردنا أيضًا خفض التكاليف لتوفير التكرار لمزيد من الأمان.
في الوقت الذي وضعنا فيه أصابعنا في السماء ، قلت إن قيادة السيارة تتطلب أداءً عصبياً للشبكة لا يقل عن 50 تريليون عملية في الثانية. لذلك ، أردنا الحصول على أكثر من ذلك بكثير ، وأفضل ، وأكثر من ذلك. تحدد أحجام الدُفعات عدد العناصر التي تعمل معها في نفس الوقت. على سبيل المثال ، تبلغ أحجام حزم Google TPUs 256 حزمة ، وتحتاج إلى الانتظار حتى يتوفر لديك 256 عنصرًا قبل البدء. لم نرغب في الانتظار وتطوير محركنا بحجم حزمة واحد. بمجرد ظهور الصورة ، نقوم بمعالجتها على الفور لتقليل التأخير وزيادة الأمان.
كنا في حاجة إلى معالج رسومات للقيام ببعض عمليات ما بعد المعالجة. في البداية ، شغل الكثير ، لكننا افترضنا أنه بمرور الوقت سيكون أصغر ، لأن الشبكات العصبية تتحسن وأفضل. وهذا ما حدث بالفعل. لقد تحملنا المخاطر من خلال وضع معالج رسومات متواضع إلى حد ما في التصميم ، وقد تحول ذلك إلى فكرة جيدة.
الأمان مهم للغاية ، إذا لم يكن لديك سيارة محمية ، فلن يكون لديك سيارة آمنة. لذلك ، يولى الكثير من الاهتمام للأمن وبالطبع الأمن.
من حيث بنية الرقاقة ، كما ذكر إيلون سابقًا ، في عام 2016 ، لم يكن هناك أي مسرع تم إنشاؤه أصلاً للشبكات العصبية. أضاف الجميع ببساطة تعليمات إلى وحدة المعالجة المركزية الخاصة بهم ، GPU أو DSP. لا أحد فعل مع 0. لذلك ، قررنا أن نفعل ذلك بأنفسنا. بالنسبة للمكونات الأخرى ، قمنا بشراء وحدات CPU ووحدات معالجة الرسومات الصناعية القياسية IP ، مما أتاح لنا تقليل وقت التطوير والمخاطر.
شيء آخر كان غير متوقع بعض الشيء بالنسبة لي هو القدرة على استخدام الأوامر الموجودة في تسلا. كان لدى Tesla فرق ممتازة من مطوري إمدادات الطاقة ، وتحليل سلامة الإشارة ، وتصميم السكن ، والبرامج الثابتة ، وبرامج النظام ، وتطوير لوحات الدارات الكهربائية ، وبرنامج جيد للتحقق من صحة النظام. كنا قادرين على استخدام كل هذا لتسريع البرنامج.

هذا هو كيف يبدو. على اليمين تشاهد موصلات الفيديو القادمة من كاميرات السيارة. جهازي كمبيوتر مستقلان في وسط اللوحة ، على اليسار - موصلات الطاقة والتحكم. أنا أحب ذلك عندما يأتي الحل إلى عناصره الأساسية. لديك فيديو وجهاز كمبيوتر وقوة ، بسيط وواضح. فيما يلي حل الأجهزة 2.5 السابق ، والذي تضمن الكمبيوتر ، والذي قمنا بتثبيته خلال العامين الماضيين. هنا تصميم جديد لكمبيوتر FSD. إنها متشابهة جدا. هذا ، بالطبع ، بسبب القيود المفروضة على برنامج تحديث السيارات. أود أن أشير إلى أن هذا هو في الواقع جهاز كمبيوتر صغير إلى حد ما. يتم وضعه خلف صندوق القفازات ، ولا يشغل نصف صندوق السيارة.
كما قلت سابقًا ، يوجد جهازي كمبيوتر مستقلان تمامًا على السبورة. يتم تسليط الضوء عليها باللون الأزرق والأخضر. على جانبي كل شركة نفط الجنوب ، يمكنك رؤية رقائق DRAM. في الجزء السفلي الأيسر ، ترى شرائح FLASH تمثل نظام الملفات. يوجد جهازي كمبيوتر مستقلان يقومان بتشغيل وتشغيل نظام التشغيل الخاص بهما.
Ilon: المبدأ العام هو أنه في حالة فشل أي جزء ، يمكن للآلة مواصلة التحرك. الكاميرا ، دائرة الطاقة ، واحدة من رقائق الكمبيوتر تسلا فشل - يستمر الجهاز في التحرك. احتمال فشل هذا الكمبيوتر هو أقل بكثير من احتمال أن يفقد السائق وعيه. هذا هو مؤشر رئيسي ، على الأقل ترتيب من حيث الحجم.
بيت: نعم ، لذلك من بين الأشياء التي نقوم بها للمحافظة على تشغيل الكمبيوتر مصادر الطاقة الزائدة. تعمل الشريحة الأولى على مصدر طاقة واحد ، والثانية على أخرى. نفس الشيء بالنسبة للكاميرات ، نصف الكاميرات الموجودة في مزود الطاقة موضحة باللون الأزرق ، والنصف الآخر باللون الأخضر. تتلقى كلتا الرقاقات كل الفيديو وتعالجه بشكل مستقل.
من وجهة نظر القيادة ، التسلسل هو جمع الكثير من المعلومات من جميع أنحاء العالم من حولك ، ليس لدينا فقط الكاميرات ، ولكن أيضًا الرادار ، GPS ، الخرائط ، مثبت الدوران (IMU) ، أجهزة الاستشعار بالموجات فوق الصوتية حول السيارة. لدينا زاوية توجيه ، ونعرف كيف يجب أن يكون تسارع السيارة. كل هذا يأتي معا لتشكيل خطة. عندما تكون الخطة جاهزة ، يتبادل جهازي الكمبيوتر إصداراتهما من الخطة للتأكد من مطابقتها.
على افتراض أن الخطة هي نفسها ، فإننا نصدر إشارات التحكم والقيادة. الآن بعد أن انتقلت باستخدام عناصر التحكم الجديدة ، فأنت تريد بالتأكيد اختباره. نتحقق من أن إشارات التحكم المرسلة تتزامن مع ما نعتزم إرساله إلى المشغلات في السيارة. تستخدم المستشعرات للتحقق من أن التحكم يحدث بالفعل. إذا طلبت من السيارة تسريع السيارة أو إبطاءها أو الدوران يمينًا أو يسارًا ، فيمكنك النظر إلى مقاييس التسارع والتأكد من حدوث ذلك بالفعل. هناك الكثير من التكرار والازدواجية لكل من بياناتنا وقدراتنا على مراقبة البيانات.
دعنا نتحدث عن الشريحة. يتم تعبئتها في BGA 37.5 مم مع 1600 دبابيس ، معظمها قوة والأرض. إذا قمت بإزالة الغطاء ، يمكنك رؤية الركيزة والبلور في الوسط. إذا قمت بفصل البلورة وقلبتها ، فستشاهد 13000 مطبوعات C4 منتشرة على السطح. فيما يلي الطبقات المعدنية الاثني عشر للدائرة المتكاملة. هذا عبارة عن عملية FinFET CMOS تبلغ مساحتها 14 نانومتر وقياسها 260 ملم مربع ، وهي دائرة صغيرة. للمقارنة ، رقاقة الهاتف الخليوي التقليدية حوالي 100 مم 2. سيكون معالج الرسومات عالي الأداء حوالي 600-800 مم. لذلك نحن في الوسط. أود أن أسميها الوسط الذهبي ، وهذا هو حجم مناسب للتجميع. يوجد 250 مليون عنصر منطقي و 6 مليارات ترانزستور ، رغم أنني كنت أعمل على هذا كله طوال هذا الوقت ، إلا أنني أذهلني. يتم تصنيع الرقاقة واختبارها وفقًا لمعايير AEC Q100 للسيارات.
أود فقط أن أتجول في الشريحة وأشرح جميع أجزائها. سأذهب بنفس ترتيب البكسل القادم من الكاميرا. في الزاوية العلوية اليسرى ، يمكنك رؤية واجهة الكاميرا. يمكننا أن نأخذ 2.5 مليار بكسل في الثانية ، وهو أكثر من كاف لجميع أجهزة الاستشعار المتاحة. شبكة تقوم بتوزيع البيانات من نظام الذاكرة على وحدات تحكم الذاكرة على الحواف اليمنى واليسرى للرقاقة. نحن نستخدم LPDDR4 القياسي الذي يعمل بسرعة 4266 جيجابت في الثانية. هذا يعطينا سرعة قصوى تبلغ 68 غيغابايت في الثانية. هذا هو عرض النطاق الترددي جيد جدا ، ولكن ليس المفرط ، ونحن نحاول البقاء في منتصف الطريق. يحتوي معالج معالجة الصور على خط أنابيب داخلي 24 بت ، والذي يسمح لنا باستخدام أجهزة استشعار HDR الموجودة في السيارة بشكل كامل. إنه يؤدي تعيين Tone المتقدم ، مما يساعد على إبراز التفاصيل والظلال بشكل أفضل ، وكذلك يؤدي إلى تقليل الضوضاء المتقدم ، مما يحسن ببساطة الجودة الشاملة للصور التي نستخدمها في شبكة عصبية.

مسرع الشبكة العصبية نفسها. هناك اثنان على رقاقة. كل واحد منهم لديه 32 ميغابايت من SRAM لتخزين النتائج المؤقتة. هذا يقلل من كمية البيانات التي نحتاج إلى نقلها إلى الشريحة والعكس ، مما يساعد على تقليل استهلاك الطاقة. يحتوي كل منها على مجموعة من مضاعفات 96 × 96 مع التراكم ، مما يسمح لنا بالقيام بما يقرب من 10،000 عملية MUL / ADD لكل دورة. هناك مسرع مخصص ReLU ، مسرع تجميع. يوفر كل واحد منهم 36 تريليون عملية في الثانية تعمل بتردد 2 جيجاهرتز. يمنح معجلان على الرقاقة 72 تريليون عملية في الثانية ، وهو أعلى بشكل ملحوظ من الهدف البالغ 50 تريليون.
سيتحدث برنامج تشفير الفيديو ، وهو الفيديو الذي نستخدمه في السيارة في العديد من المهام ، بما في ذلك إخراج الصور من كاميرا الرؤية الخلفية وتسجيل الفيديو ، وكذلك لتسجيل البيانات على السحابة ، وسيتحدث ستيوارت وأندرو عن هذا لاحقًا. يوجد معالج رسومات متواضع إلى حد ما على الشريحة. وهو يدعم 32 و 16 بت أرقام الفاصلة العائمة. أيضا 12 64 بت للأغراض العامة A72 المعالجات. تعمل على تردد 2.2 جيجا هرتز ، وهو ما يقرب من 2.5 مرة أعلى من أداء الحل السابق. يحتوي نظام الأمان على معالجين يعملان في وضع قفل الأمان. يتخذ هذا النظام القرار النهائي فيما إذا كان من الآمن إرسال إشارات التحكم إلى محركات السيارة. هذا هو المكان الذي تجتمع فيه الطائرتان ، ونقرر ما إذا كان من الآمن المضي قدمًا أم لا. وأخيرًا ، يتم استخدام نظام أمان تتمثل مهمته في ضمان استخدام رقاقة Tesla الموقعة بشكل تشفير فقط على هذه الشريحة.
قلت لك العديد من مؤشرات الأداء المختلفة ، وأعتقد أنه سيكون من المفيد أن ننظر إلى المستقبل. سننظر في شبكة عصبية من الكاميرا (الضيقة) الخاصة بنا. يستغرق 35 مليار عملية. إذا استخدمنا جميع وحدات المعالجة المركزية (CPU) البالغ عددها 12 لمعالجة هذه الشبكة ، فيمكننا تنفيذ 1.5 إطارًا في الثانية الواحدة ، فهي بطيئة جدًا. بالتأكيد لا يكفي لقيادة سيارة. إذا استخدمنا وحدات معالجة الرسومات مع 600 GFLOPs لنفس الشبكة ، فسنحصل على 17 إطارًا في الثانية الواحدة ، وهو ما لا يزال غير كافٍ لقيادة السيارة مع 8 كاميرات. يمكن لمسرع الشبكة العصبية الخاص بنا إنتاج 2100 إطار في الثانية. يمكنك أن ترى أن مقدار الحساب في وحدة المعالجة المركزية و GPU لا يكاد يذكر بالمقارنة مع مسرع الشبكة العصبية.
دعنا ننتقل إلى الحديث عن مسرع الشبكة العصبية. أنا فقط أشرب بعض الماء. على اليسار هنا رسم لشبكة عصبية لإعطائك فكرة عما يجري. تصل البيانات إلى الأعلى وتمريرها عبر كل كتلة. يتم نقل البيانات على طول الأسهم إلى كتل مختلفة ، والتي عادة ما تكون ملفوف أو تلافيف عكسي مع وظائف التنشيط (ReLUs). كتل خضراء تجمع بين الطبقات. من المهم أن يتم استخدام البيانات التي تم تلقيها بواسطة كتلة واحدة بواسطة الكتلة التالية ، ولم تعد بحاجة إليها - يمكنك التخلص منها. لذلك يتم إنشاء كل هذه البيانات المؤقتة وتدميرها عند المرور عبر الشبكة. ليست هناك حاجة لتخزينها خارج الشريحة في DRAM. لذلك ، نقوم فقط بتخزينها في SRAM ، وفي بضع دقائق سأشرح لماذا هذا مهم للغاية.

إذا نظرت إلى الجانب الأيمن ، سترى أنه في هذه الشبكة المكونة من 35 مليار عملية ، كلها تقريبًا عبارة عن ملفوف ، ومنتجات أساسية ذات قيمة ، والباقي عبارة عن deconvolution (ملفوف عكسي) ، استنادًا إلى المنتج القياسي ، ثم تكون ReLU والتجميع بسيطة نسبيًا العمليات. لذلك ، إذا كنت تقوم بتطوير مسرع ، فأنت تركز على تنفيذ المنتجات العددية بناءً على الجمع مع التراكم وتحسينها. لكن تخيل أنك تسرع هذه العملية بمقدار 10،000 مرة وتتحول 100٪ إلى 0.1٪. فجأة ، أصبحت عمليات ReLU والتجميع مهمة للغاية. لذلك ، يتضمن تطبيقنا مسرعات مخصصة لمعالجة ReLU وتجميعها.
تعمل الرقاقة في ميزانية حرارة محدودة. كنا بحاجة إلى توخي الحذر الشديد حول كيفية حرقنا السلطة. نريد تعظيم مقدار الحساب الذي يمكننا القيام به. لذلك ، اخترنا إضافة عدد صحيح 32 بت ، يستهلك طاقة أقل 9 مرات من إضافة النقطة العائمة. لقد اخترنا الضرب الصحيح ذي 8 بت ، والذي يستهلك أيضًا طاقة أقل بكثير من عمليات الضرب الأخرى ، ولديه دقة كافية للحصول على نتائج جيدة. أما بالنسبة للذاكرة. يعد الوصول إلى DRAM الخارجي أغلى بمائة مرة من حيث استهلاك الطاقة مقارنة باستخدام SRAM المحلي. من الواضح أننا نريد الاستفادة القصوى من SRAM المحلي.
من وجهة نظر الإدارة ، إليكم البيانات التي تم نشرها في مقال بقلم مارك هورويتز ، حيث درس بشكل دقيق مقدار الطاقة اللازمة لتنفيذ تعليمة واحدة على معالج عدد صحيح منتظم. وسترى أن عملية الإضافة تستهلك 0.15٪ فقط من إجمالي الطاقة. كل شيء آخر هو النفقات العامة للإدارة وأكثر من ذلك. لذلك ، في تصميمنا نسعى جاهدين للتخلص من كل هذا قدر الإمكان. ما يهمنا حقًا هو الحساب.

لذلك هنا هو التصميم الذي انتهينا منه. يمكنك أن ترى أنه في المكان الرئيسي يحتلها 32 ميغابايت من SRAM ، فهي اليسار واليمين ، في الوسط وأسفل. يتم تنفيذ جميع العمليات الحسابية في الجزء العلوي المركزي. في كل دورة ، نقرأ 256 بايت من بيانات التنشيط من صفيف SRAM ، و 128 بايت من الأوزان من صفيف SRAM ونجمعها في صفيف 96 × 96 ، والذي يؤدي 9000 إضافات مع تراكم لكل دورة عند 2 جيجا هرتز. هذا هو فقط 36.8 تريليون دولار. العمليات. الآن وبعد أن انتهينا من المنتج القياسي ، نقوم بتحميل البيانات ، ونمررها عبر ReLU المخصص ، واختيارياً من خلال السحب ، ثم نضعها في المخزن المؤقت للكتابة ، حيث يتم تجميع جميع النتائج. ثم نكتب 128 بايت في الساعة مرة أخرى إلى SRAM. وكل هذا يحدث بشكل مستمر. نحن نعمل مع منتجات العددية ، بينما نقوم بإلغاء تحميل النتائج السابقة ، ونقوم بسحب النتائج وكتابتها مرة أخرى إلى الذاكرة.
إذا قمت بتجميع كل هذا بسرعة 2 جيجا هرتز ، فستحتاج إلى 1 تيرابايت في الثانية من عرض النطاق الترددي SRAM لدعم العملية. والحديد يوفر هذا. واحد تيرابايت في الثانية الواحدة من عرض النطاق الترددي لكل مسرع ، واثنين من المعجلات لكل رقاقة - تيرابايت في الثانية الواحدة.يحتوي المسرع على مجموعة صغيرة نسبيًا من الأوامر. هناك عملية قراءة DMA لتحميل البيانات من الذاكرة ، عملية كتابة DMA لتحميل النتائج مرة أخرى إلى الذاكرة. ثلاثة تعليمات الإلتواء (الإلتواء ، deconvolution ، المنتج الداخلي). عمليتان بسيطتان نسبيًا هما التحول وعملية التشغيل (eltwise). وبالطبع ، يتم إيقاف العملية عند الانتهاء من العمليات الحسابية.كان لدينا لتطوير مترجم الشبكة العصبية. أخذنا شبكة عصبية مدربة من قبل فريق التطوير لدينا ، بالشكل الذي تم استخدامه في الأجهزة القديمة. عندما تقوم بتجميعها للاستخدام على معجل جديد ، فإن المترجم ينفذ دمج الطبقات ، مما يسمح لنا بزيادة عدد العمليات الحسابية لكل مكالمة إلى SRAM. كما أنه يؤدي إلى تجانس الوصول إلى الذاكرة. نحن ننفذ حشو القنوات لتقليل التعارضات بين بنوك الذاكرة. تخصيص الذاكرة يأخذ أيضا البنوك SRAM في الاعتبار. هذه هي الحالة عندما يمكن تنفيذ معالجة التعارض في الأجهزة. ولكن مع تنفيذ البرامج ، فإننا نوفر على الأجهزة بسبب بعض التعقيدات في البرامج. نقوم أيضًا بإدراج عمليات DMA تلقائيًا بحيث تصل البيانات لإجراء العمليات الحسابية في الوقت المحدد ، دون إيقاف المعالجة. في النهاية ، نولد الرمز ،الأوزان البيانات ، ضغط وإضافة المجموع الاختباري لاتفاقية حقوق الطفل لموثوقية. يتم تحميل الشبكة العصبية في SRAM عند بدء التشغيل وهناك طوال الوقت.وبالتالي ، لبدء الشبكة ، يمكنك تحديد عنوان المخزن المؤقت للإدخال ، والذي يحتوي على الصورة الجديدة التي وصلت للتو من الكاميرا ؛ تعيين عنوان المخزن المؤقت الإخراج ؛ اضبط المؤشر على وزن الشبكة ؛ دعنا نذهب. المسرع "يذهب إلى نفسه" ، وسوف يمر عبر الشبكة العصبية بأكملها ، عادة لمدة مليون أو مليوني دورة زمنية. عند الانتهاء ، تتلقى مقاطعة ويمكن بعد النتائج.أنتقل إلى النتائج. كان هدفنا تلبية 100 واط. أظهرت القياسات على السيارات التي تقود مع مجموعة كاملة من الطيار الآلي أننا تبدد 72 واط. هذا أكبر قليلاً مما كان عليه في المشروع السابق ، ولكن التحسين الكبير في الأداء هو عذر جيد. من هذه 72 واط ، يتم استهلاك حوالي 15 واط في الشبكات العصبية. تكلفة هذا الحل حوالي 80 ٪ من ما دفعناه من قبل. من حيث الأداء ، أخذنا الشبكة العصبية (الضيقة) للكاميرا ، التي ذكرتها بالفعل ، من خلال 35 مليار عملية ، أطلقناها على المعدات القديمة وتلقينا 110 إطارات في الثانية. أخذنا نفس البيانات ونفس الشبكة ، وقمنا بتجميعها للكمبيوتر FSD الجديد ، وباستخدام جميع المعجلات الأربعة ، يمكننا معالجة 2300 إطارًا في الثانية.ايلون:أعتقد أن هذا ربما يكون أهم شريحةلدى Pete: لم أعمل مطلقًا في مشروع كان فيه تحسين الإنتاجية أكثر من 3. لذلك كان ممتعًا للغاية. بالمقارنة مع حل nvidia Drive Xavier ، توفر الشريحة 21 تريليون. عمليات ، بينما FSDC لدينا مع اثنين من رقائق - 144 تريليون دولار. العمليات.في الختام ، أعتقد أننا قمنا بإنشاء حل يوفر أداءً رائعًا قدره 144 تريليون. عمليات لمعالجة الشبكة العصبية. لديها خصائص القوة المعلقة. تمكنا من الضغط على كل هذه الإنتاجية في ميزانية الحرارة التي كانت لدينا. هذا يسمح لك بتطبيق حل الازدواجية. يتحمل الكمبيوتر تكلفة معتدلة ، والأمر المهم حقًا ، سيوفر FSDC مستوى جديدًا من الأمان والحكم الذاتي في سيارات Tesla ، دون التأثير على تكلفتها وعدد الكيلومترات المقطوعة. كلنا نتطلع إليه.Ilon: إذا كانت لديك أسئلة حول المعدات ، فاطلبها الآن.إن السبب الذي جعلني طلبت من بيت القيام بعمل تفصيلي أكثر تفصيلاً ربما ربما يكون معظم الناس قد قدّروا أن الغوص في كمبيوتر Tesla FSD هو على النحو التالي. للوهلة الأولى يبدو من غير المعقول كيف يمكن أن يحدث أن Tesla ، الذي لم يسبق له تصميم مثل هذه الرقائق من قبل ، أنشأ أفضل شرائح في العالم. ولكن هذا هو بالضبط ما حدث. وليس فقط الأفضل بهامش صغير ، ولكن الأفضل بهامش كبير. جميع تسلا المصنعة الآن لديها هذا الكمبيوتر. لقد قمنا بالتبديل من حل Nvidia لـ S و X منذ شهر وتغيير الموديل 3 قبل عشرة أيام. تحتوي جميع السيارات المنتجة على جميع الأجهزة اللازمة وكل ما هو ضروري للقيادة الذاتية بالكامل. سأقولها مرة أخرى: جميع سيارات تسلا أنتجت الآن ،لديك كل ما تحتاجه للقيادة الذاتية الكاملة. كل ما عليك فعله هو تحسين البرنامج. في وقت لاحق اليوم ، يمكنك قيادة السيارات باستخدام إصدار لمطوري برامج القيادة المستقلة المحسنة. سترى بنفسك. الأسئلة.س: هل لديك القدرة على استخدام وظائف التنشيط بخلاف ReLU؟بيت: نعم ، لدينا السيني ، على سبيل المثالس: ربما كان الأمر يستحق التحول إلى عملية تصنيع أكثر إحكاما ، ربما 10 نانومتر أو 7 نانومتر؟بيت: في الوقت الذي بدأنا فيه التصميم ، لم تكن جميع عناوين IP التي أردنا الحصول عليها متوفرة في 10 نانومترIlon: تجدر الإشارة إلى أننا أكملنا هذا التصميم منذ حوالي عام ونصف العام وبدأنا الجيل القادم. اليوم نحن لا نتحدث عن الجيل القادم ، لكننا بالفعل في منتصف الطريق. كل ما هو واضح لشريحة الجيل القادم ، ونحن نفعل.س: تم تصميم الكمبيوتر للعمل مع الكاميرات. هل يمكنني استخدامه مع ليدار؟ايلون:Lidar هو قرار كارثي ، وأي شخص يعتمد على Lidar محكوم عليه. محكوم. أكثر مما ينبغي. أجهزة الاستشعار عزيزي التي ليست هناك حاجة. انها مثل وجود مجموعة من التطبيقات غير الضرورية باهظة الثمن. واحدة صغيرة واحدة لا شيء ، ولكن حفنة هو بالفعل كابوس. هذا غبي ، سترى.س: هل يمكنك تقييم تأثير استهلاك الطاقة على الأميال؟بيت: بالنسبة للطراز 3 ، يبلغ الاستهلاك المستهدف 250 واط لكل ميل.ايلون:يعتمد على طبيعة القيادة. في المدينة ، سيكون التأثير أكبر بكثير من التأثير على الطريق السريع. تقود سيارتك في المدينة لمدة ساعة ولديك حل افتراضي يستهلك 1 كيلو وات. ستفقد 6 كيلومترات في الموديل 3. إذا كان متوسط السرعة 25 كم / ساعة ، فسوف تفقد 25٪. إن استهلاك النظام له تأثير كبير على عدد الكيلومترات في مدينة ، حيث نعتقد أنه سيكون هناك جزء كبير من سوق robotax ، وبالتالي فإن الطاقة مهمة للغاية.س: ما مدى موثوقية التكنولوجيا الخاصة بك فيما يتعلق بالملكية الفكرية ، هل لن تمنح IP مجانًا؟بيت: لقد قدمنا عشرات براءات الاختراع لهذه التكنولوجيا. هذا هو الجبر الخطي بشكل أساسي ، ولا أعتقد أنه يمكنك الحصول على براءة اختراع. (ايلون يضحك)س:تستطيع الدائرة الصغرى الخاصة بك القيام بشيء ما ، وربما تشفير جميع الأوزان بحيث تظلملكيتك الفكرية في الداخل ، ولا يمكن لأحد أن يسرقها. إيلون: أوه ، أود مقابلة شخص يمكنه القيام بذلك. وأود أن استئجاره في لحظة. هذه مشكلة صعبة للغاية. حتى إذا كان يمكنك استخراج البيانات ، فستحتاج إلى قدر كبير من الموارد لاستخدامها بطريقة ما.ميزة كبيرة مستدامة بالنسبة لنا هو الأسطول. لا أحد لديه أسطول. يتم تحديث وتحسين الأوزان باستمرار بناء على مليارات الأميال المقطوعة. تسلا لديها مائة مرة أكثر السيارات مع الأجهزة اللازمة للتدريب من جميع الآخرين مجتمعة. بحلول نهاية هذا الربع ، سيكون لدينا 500000 سيارة مع 8 كاميرات و 12 مجس فوق صوتي. في غضون عام ، سيكون لدينا أكثر من مليون سيارة مع FSDC. هذه مجرد ميزة بيانات ضخمة. يشبه هذا كيف يتمتع محرك بحث Google بميزة كبيرة ، لأن الناس يستخدمونه ، ويقوم الأشخاص بالفعل بتدريب Google على استفساراتهم.المضيف:شيء واحد يجب أن نتذكره حول FSD هو أنه يمكن أن يعمل مع شبكات عصبية أكثر تعقيدًا من أجل التعرف على الصورة بشكل أكثر دقة. لقد حان الوقت للحديث عن كيفية حصولنا على هذه الصور بالفعل وكيف نحللها. هنا لدينا مدير أول لمنظمة العفو الدولية - أندريه كاربتي ، الذي سوف يشرح لك كل هذا. أندريه حاصل على درجة الدكتوراه من جامعة ستانفورد ، حيث درس علوم الكمبيوتر مع التركيز على الاعتراف والتعلم العميق.إيلون: أندري ، لماذا لا تبدأ للتو ، هيا. خرج العديد من الأطباء من ستانفورد ، هذا ليس بالأمر المهم. يقوم أندري بتدريس دورة في الرؤية الحاسوبية في جامعة ستانفورد ، وهو الأمر الأكثر أهمية. من فضلك قل عن نفسك.
(تبين أن الترجمة ليست بالأمر السريع ، لا أعرف إذا كان لديّ ما يكفي للجزء الثاني حول نظام التدريب على الشبكات العصبية ، على الرغم من أنه يبدو لي أكثرها إثارة للاهتمام).