टेस्ला ऑटोपायलट के लिए पूर्ण स्व-ड्राइविंग कंप्यूटर के विकास पर टेस्ला स्वायत्त निवेशक दिवस प्रस्तुति के पहले भाग का अनुवाद। हम प्रस्तुति और इसकी सामग्री के लिए थीसिस समीक्षाओं के बीच की खाई को भरते हैं।प्रस्तुति का पाठ मूल के करीब अनुवादित है। स्पीकर के लिए प्रश्न - संक्षिप्त रूप से संक्षिप्त रूप से।होस्ट: सभी को नमस्कार। देर से आने के लिए क्षमा करें। स्वायत्त ड्राइविंग के हमारे पहले दिन में आपका स्वागत है। मुझे उम्मीद है कि आप अपने घटनाक्रम पर अपडेट रखने के लिए हम इसे नियमित रूप से कर सकते हैं।
लगभग तीन महीने पहले, हम इलोन और अन्य अधिकारियों के साथ चौथी तिमाही की आय रिपोर्ट की तैयारी कर रहे थे। मैंने तब कहा था कि निवेशकों के साथ बातचीत में सबसे बड़ी खाई, जो मैं कंपनी के अंदर देखता हूं और इसकी बाहरी धारणा क्या है, स्वायत्त ड्राइविंग में हमारी प्रगति है। और यह समझ में आता है, पिछले कुछ वर्षों से हमने मॉडल 3 के उत्पादन को बढ़ाने के बारे में बात की, जिसके बारे में बहुत बहस हुई। वास्तव में, पृष्ठभूमि में बहुत कुछ हुआ है।
हमने ऑटोपायलट के लिए एक नई चिप पर काम किया, पूरी तरह से मशीन दृष्टि तंत्रिका नेटवर्क को फिर से डिजाइन किया, और आखिरकार पूर्ण स्व-ड्राइविंग कंप्यूटर (एफएसडीसी) जारी करना शुरू किया। हमने सोचा था कि केवल घूंघट खोलना, सभी को आमंत्रित करना और पिछले दो वर्षों में हमने जो कुछ भी किया है, उसके बारे में बताना एक अच्छा विचार है।
लगभग तीन साल पहले हम उपयोग करना चाहते थे, हम स्वायत्त ड्राइविंग के लिए सबसे अच्छा चिप ढूंढना चाहते थे। हमने पाया कि कोई भी चिप नहीं है जिसे तंत्रिका नेटवर्क के लिए जमीन से डिजाइन किया गया था। इसलिए, हमने अपने सहयोगी पीट बैनन को एकीकृत सर्किट डिजाइन के उपाध्यक्ष को आमंत्रित किया, ताकि हमारे लिए इस तरह की चिप विकसित की जा सके। उन्हें चिप डेवलपमेंट का करीब 35 साल का अनुभव है। Pasemi में 12 साल शामिल हैं, जिसे बाद में Apple द्वारा अधिग्रहित किया गया था। उन्होंने दर्जनों विभिन्न आर्किटेक्चर और कार्यान्वयन पर काम किया, और टेस्ला में शामिल होने से कुछ समय पहले ही Apple iPhone 5 के मुख्य डिजाइनर थे। एलोन मस्क पर भी हमारा साथ देता है। आपका धन्यवाद
Ilon: वास्तव में, मैं पीट को पेश करने जा रहा था, लेकिन चूंकि वे पहले से ही ऐसा कर चुके हैं, इसलिए मैं जोड़ूंगा कि वह दुनिया का सबसे अच्छा सिस्टम और एकीकृत सर्किट आर्किटेक्ट है जिसे मैं जानता हूं। यह एक सम्मान है कि आप और आपकी टीम टेस्ला में हैं। कृपया हमें बस उस अविश्वसनीय काम के बारे में बताएं जो आपने किया है।
पीट: धन्यवाद इलोन। मैं आज सुबह यहां आकर प्रसन्न हूं और आपको उन सभी कार्यों के बारे में बताना बहुत अच्छा लगता है जो मैंने और मेरे सहयोगियों ने पिछले तीन वर्षों में टेस्ला में किए हैं। मैं आपको थोड़ा बताऊंगा कि यह सब कैसे शुरू हुआ, और फिर मैं आपको एफएसडीसी कंप्यूटर से परिचित कराऊंगा और आपको बताऊंगा कि यह कैसे काम करता है। हम खुद चिप में पहुंच जाएंगे और कुछ विवरणों पर विचार करेंगे। मैं वर्णन करूंगा कि विशेष तंत्रिका नेटवर्क त्वरक जो हमने डिज़ाइन किया था और फिर कुछ परिणाम दिखाता है, और मुझे उम्मीद है कि उस समय तक आप अभी तक सो नहीं पाएंगे।
मुझे फरवरी 2016 में काम पर रखा गया था। मैंने इलोन से पूछा कि क्या वह इस विशिष्ट प्रणाली को बनाने के लिए जितना खर्च करने के लिए तैयार था, उसने पूछा: "क्या हम जीतेंगे?", मैंने जवाब दिया: "ठीक है, हाँ, निश्चित रूप से," फिर उसने कहा "मैं व्यवसाय में हूँ" और यह सब शुरू हुआ । हमने लोगों के एक समूह को काम पर रखा और इस बारे में सोचना शुरू किया कि विशेष रूप से पूरी तरह से स्वायत्त ड्राइविंग के लिए बनाई गई चिप कैसी दिखेगी। हमने पहले संस्करण को विकसित करने में अठारह महीने बिताए, और अगस्त 2017 में इसे उत्पादन के लिए जारी किया। हमें दिसंबर में चिप मिला, यह काम किया, और वास्तव में पहली कोशिश में बहुत अच्छा काम किया। अप्रैल 2018 में, हमने कई बदलाव किए और संस्करण B शून्य Rev. जुलाई 2018 में, चिप को प्रमाणित किया गया था, और हमने पूर्ण पैमाने पर उत्पादन शुरू किया। दिसंबर 2018 में, नए उपकरणों पर स्वायत्त ड्राइविंग स्टैक लॉन्च किया गया था, और हम वास्तविक दुनिया में कंपनी की कारों के रूपांतरण और परीक्षण के साथ आगे बढ़ने में सक्षम थे। मार्च 2019 में हमने मॉडल एस और एक्स में एक नया कंप्यूटर स्थापित करना शुरू किया, और अप्रैल में - मॉडल 3 में।
इसलिए, पूरे कार्यक्रम, पहले कर्मचारियों को काम पर रखने से लेकर हमारी कारों के सभी तीन मॉडलों में पूर्ण लॉन्च तक, तीन साल से थोड़ा अधिक समय लगा। यह शायद सबसे तेज़ प्रणाली विकास कार्यक्रम है जिसमें मैंने कभी भी भाग लिया है। और यह वास्तव में उच्च ऊर्ध्वाधर एकीकरण के लाभों की बात करता है, जिससे आप समानांतर डिजाइन कर सकते हैं और तैनाती में तेजी ला सकते हैं।
लक्ष्यों के संदर्भ में, हम पूरी तरह से टेस्ला की आवश्यकताओं पर केंद्रित थे, और यह जीवन को सरल बनाता है। यदि आपके पास एक ही ग्राहक है, तो आपको दूसरों के बारे में चिंता करने की आवश्यकता नहीं है। इनमें से एक लक्ष्य 100 वाट से नीचे बिजली रखना था ताकि हम मौजूदा मशीनों को परिवर्तित कर सकें। हम अधिक सुरक्षा के लिए अतिरेक प्रदान करने के लिए लागत कम करना चाहते थे।
जिस समय हमने अपनी उंगलियां आकाश में उड़ाईं, मैंने तर्क दिया कि कार चलाने के लिए प्रति सेकंड कम से कम 50 ट्रिलियन ऑपरेशन के तंत्रिका नेटवर्क प्रदर्शन की आवश्यकता होगी। इसलिए, हम कम से कम और बेहतर और अधिक प्राप्त करना चाहते थे। बैच आकार आपके द्वारा एक ही समय में काम करने वाली वस्तुओं की संख्या निर्धारित करते हैं। उदाहरण के लिए, Google TPU का पैकेट आकार 256 है, और आपको प्रारंभ करने से पहले 256 आइटम संसाधित होने तक प्रतीक्षा करने की आवश्यकता है। हम इंतजार नहीं करना चाहते थे और अपने इंजन को एक पैकेज के आकार के साथ विकसित किया। जैसे ही छवि दिखाई देती है, हम तुरंत देरी को कम करने और सुरक्षा बढ़ाने के लिए इसे संसाधित करते हैं।
हमें कुछ पोस्ट-प्रोसेसिंग करने के लिए ग्राफिक्स प्रोसेसर की आवश्यकता थी। सबसे पहले, इसने काफी कब्जा कर लिया, लेकिन हमने यह मान लिया कि समय के साथ यह छोटा हो जाएगा, क्योंकि तंत्रिका नेटवर्क बेहतर और बेहतर हो रहे हैं। और यह वास्तव में हुआ। हमने डिजाइन में एक मामूली ग्राफिक्स प्रोसेसर डालकर जोखिम लिया, और यह एक अच्छा विचार था।
सुरक्षा बहुत महत्वपूर्ण है, यदि आपके पास संरक्षित कार नहीं है, तो आपके पास सुरक्षित कार नहीं हो सकती है। इसलिए, सुरक्षा और निश्चित रूप से, सुरक्षा पर बहुत ध्यान दिया जाता है।
चिप वास्तुकला के संदर्भ में, जैसा कि इलोन ने पहले उल्लेख किया था, 2016 में मूल रूप से तंत्रिका नेटवर्क के लिए कोई त्वरक नहीं बनाया गया था। सभी ने बस अपने CPU, GPU या DSP में निर्देश जोड़े। किसी ने 0. के साथ विकास नहीं किया। इसलिए, हमने इसे स्वयं करने का निर्णय लिया। अन्य घटकों के लिए, हमने मानक आईपी औद्योगिक सीपीयू और जीपीयू खरीदे, जिसने हमें विकास के समय और जोखिमों को कम करने की अनुमति दी।
एक और चीज जो मेरे लिए थोड़ी अप्रत्याशित थी, वह थी टेस्ला में मौजूदा कमांड्स का उपयोग करने की क्षमता। टेस्ला के पास बिजली आपूर्ति, सिग्नल अखंडता विश्लेषण, आवास डिजाइन, फर्मवेयर, सिस्टम सॉफ्टवेयर, सर्किट बोर्ड विकास और वास्तव में अच्छी प्रणाली सत्यापन कार्यक्रम के डेवलपर्स की उत्कृष्ट टीम थी। कार्यक्रम को गति देने के लिए हम यह सब उपयोग करने में सक्षम थे।

यह कैसा दिखता है। दाईं ओर आप कार के कैमरों से आने वाले वीडियो के लिए कनेक्टर्स देखते हैं। बोर्ड के केंद्र में दो स्वायत्त ड्राइविंग कंप्यूटर, बाईं ओर - बिजली की आपूर्ति और नियंत्रण कनेक्टर्स। मुझे यह पसंद है जब एक समाधान अपने मूल तत्वों के लिए नीचे आता है। आपके पास एक वीडियो, एक कंप्यूटर और बिजली, सरल और स्पष्ट है। यहां पिछला हार्डवेयर 2.5 समाधान है, जिसमें कंप्यूटर शामिल है, और जिसे हमने पिछले दो वर्षों में स्थापित किया है। यहाँ एक FSD कंप्यूटर के लिए एक नया डिज़ाइन है। वे बहुत समान हैं। यह, निश्चित रूप से, कार आधुनिकीकरण कार्यक्रम की सीमाओं के कारण है। मैं यह बताना चाहता हूं कि यह वास्तव में एक छोटा कंप्यूटर है। यह दस्ताने डिब्बे के पीछे रखा गया है, और ट्रंक के आधे हिस्से पर कब्जा नहीं करता है।
जैसा कि मैंने पहले कहा था, बोर्ड पर दो पूरी तरह से स्वतंत्र कंप्यूटर हैं। उन्हें नीले और हरे रंग में हाइलाइट किया गया है। प्रत्येक SoC के किनारों पर आप DRAM चिप्स देख सकते हैं। नीचे बाईं ओर आपको FLASH चिप्स दिखाई देता है जो फ़ाइल सिस्टम का प्रतिनिधित्व करता है। दो स्वतंत्र कंप्यूटर हैं जो बूट करते हैं और अपने स्वयं के ऑपरेटिंग सिस्टम के तहत चलते हैं।
इलोन: सामान्य सिद्धांत यह है कि यदि कोई भाग विफल हो जाता है, तो मशीन चलती रह सकती है। कैमरा, पावर सर्किट, टेस्ला कंप्यूटर चिप्स में से एक विफल हो जाता है - मशीन चलती रहती है। इस कंप्यूटर की विफलता की संभावना इस संभावना से काफी कम है कि चालक चेतना खो देगा। यह एक महत्वपूर्ण संकेतक है, कम से कम परिमाण का एक क्रम।
पीट: हाँ, इसलिए कंप्यूटर को चालू रखने के लिए हम जो काम करते हैं उनमें से एक है अनावश्यक बिजली की आपूर्ति। पहला चिप एक शक्ति स्रोत पर चलता है, और दूसरा दूसरे पर। वही कैमरों के लिए है, बिजली की आपूर्ति पर कैमरों के आधे नीले रंग में चिह्नित हैं, दूसरे आधे हरे पर। दोनों चिप्स सभी वीडियो प्राप्त करते हैं और इसे स्वतंत्र रूप से संसाधित करते हैं।
ड्राइविंग के दृष्टिकोण से, अनुक्रम आपके आसपास की दुनिया से बहुत सारी जानकारी एकत्र करने के लिए है, हमारे पास न केवल कैमरे हैं, बल्कि कार के चारों ओर रडार, जीपीएस, नक्शे, जाइरो स्टेबलाइजर (आईएमयू), अल्ट्रासोनिक सेंसर भी हैं। हमारे पास एक स्टीयरिंग कोण है, हम जानते हैं कि कार का त्वरण कैसा होना चाहिए। यह सब एक योजना बनाने के लिए एक साथ आता है। जब योजना तैयार होती है, तो दोनों कंप्यूटर यह सुनिश्चित करने के लिए योजना के अपने संस्करणों का आदान-प्रदान करते हैं कि वे मेल खाते हैं।
योजना को समान मानते हुए, हम नियंत्रण संकेत और ड्राइव जारी करते हैं। अब जब आप नए नियंत्रणों के साथ आगे बढ़ रहे हैं, तो आप निश्चित रूप से इसका परीक्षण करना चाहते हैं। हम सत्यापित करते हैं कि संचरित नियंत्रण संकेत उस कार के साथ मेल खाते हैं जो हम कार में एक्ट्यूएटर्स को प्रेषित करने का इरादा रखते हैं। सेंसर का उपयोग यह सत्यापित करने के लिए किया जाता है कि नियंत्रण वास्तव में हो रहा है। यदि आप कार को तेज करने, या धीमा करने, या दाएं या बाएं मुड़ने के लिए कहते हैं, तो आप एक्सेलेरोमीटर को देख सकते हैं और सुनिश्चित कर सकते हैं कि यह वास्तव में हो रहा है। हमारे डेटा और डेटा मॉनिटरिंग क्षमताओं दोनों के लिए महत्वपूर्ण अतिरेक और दोहराव है।
चलो चिप के बारे में बात करते हैं। यह 37.5 मिमी बीजीए में 1600 पिनों के साथ पैक किया गया है, जिनमें से अधिकांश बिजली और जमीन हैं। यदि आप कवर को हटाते हैं, तो आप केंद्र में सब्सट्रेट और क्रिस्टल देख सकते हैं। यदि आप क्रिस्टल को अलग करते हैं और इसे पलट देते हैं, तो आपको सतह पर 13,000 C4 बंप बिखरे हुए दिखाई देंगे। नीचे एकीकृत सर्किट के बारह धातु की परतें हैं। यह एक 14-नैनोमीटर FinFET CMOS प्रक्रिया है जो 260 mm.sq को मापता है, एक छोटा सर्किट है। तुलना के लिए, एक पारंपरिक सेल फोन चिप लगभग 100 मिमी 2 है। एक उच्च-प्रदर्शन ग्राफिक्स प्रोसेसर लगभग 600-800 mm.kv होगा। तो हम बीच में हैं। मैं इसे सुनहरा मतलब कहूंगा, यह विधानसभा के लिए एक सुविधाजनक आकार है। 250 मिलियन तर्क तत्व और 6 बिलियन ट्रांजिस्टर हैं, हालांकि, मैं इस समय इस पर काम कर रहा हूं, मुझे विस्मित करना। चिप AEC Q100 ऑटोमोटिव मानक के अनुसार निर्मित और परीक्षण किया गया है।
मैं बस चिप के चारों ओर जाऊंगा और इसके सभी भागों को समझाऊंगा। मैं उसी क्रम में जाऊंगा, जैसे कैमरे से आने वाला पिक्सेल। ऊपरी बाएं कोने में आप कैमरा इंटरफ़ेस देख सकते हैं। हम प्रति सेकंड 2.5 बिलियन पिक्सेल ले सकते हैं, जो सभी उपलब्ध सेंसर के लिए पर्याप्त से अधिक है। एक नेटवर्क जो चिप के दाएं और बाएं किनारों पर एक मेमोरी सिस्टम से मेमोरी कंट्रोलरों तक डेटा वितरित करता है। हम प्रति सेकंड 4266 गीगाबिट की गति से ऑपरेटिंग मानक LPDDR4 का उपयोग करते हैं। यह हमें प्रति सेकंड 68 गीगाबाइट का अधिकतम थ्रूपुट देता है। यह एक बहुत अच्छा बैंडविड्थ है, लेकिन अत्यधिक नहीं, हम बीच मैदान में रहने की कोशिश कर रहे हैं। इमेज प्रोसेसिंग प्रोसेसर में 24-बिट आंतरिक पाइपलाइन है, जो हमें कार में लगे एचडीआर सेंसर का पूरी तरह से उपयोग करने की अनुमति देता है। यह उन्नत टोन मैपिंग करता है, जो विवरण और छाया को बेहतर ढंग से हाइलाइट करने में मदद करता है, और उन्नत शोर में कमी भी करता है, जो कि एक तंत्रिका नेटवर्क में उपयोग की जाने वाली छवियों की समग्र गुणवत्ता में सुधार करता है।

तंत्रिका नेटवर्क त्वरक ही। चिप पर दो हैं। अस्थायी परिणामों को संग्रहीत करने के लिए उनमें से प्रत्येक में 32 मेगाबाइट SRAM है। यह उस डेटा की मात्रा को कम करता है, जिसे हमें चिप में स्थानांतरित करने की आवश्यकता है और इसके विपरीत, जो बिजली की खपत को कम करने में मदद करता है। प्रत्येक में संचय के साथ 96x96 गुणकों की एक सरणी होती है, जो हमें प्रति चक्र लगभग 10,000 MUL / ADD संचालन करने की अनुमति देती है। एक समर्पित ReLU त्वरक, एक पूलिंग त्वरक है। उनमें से प्रत्येक 2 गीगा की आवृत्ति पर 36 ट्रिलियन संचालन प्रति सेकंड संचालन प्रदान करता है। एक चिप पर दो त्वरक प्रति सेकंड 72 ट्रिलियन ऑपरेशन देते हैं, जो कि 50 ट्रिलियन के लक्ष्य से काफी अधिक है।
वीडियो एनकोडर, जिस वीडियो से हम कई कार्यों के लिए कार में उपयोग करते हैं, जिसमें रियर व्यू कैमरा से वीडियो आउटपुट करना, वीडियो रिकॉर्डिंग, साथ ही क्लाउड पर डेटा रिकॉर्ड करने के लिए स्टुअर्ट और एंड्रयू इस बारे में बाद में बात करेंगे। एक बल्कि मामूली ग्राफिक्स प्रोसेसर चिप पर स्थित है। यह 32 और 16 बिट फ्लोटिंग पॉइंट नंबरों को सपोर्ट करता है। इसके अलावा 12 64-बिट सामान्य-उद्देश्य A72 प्रोसेसर। वे 2.2 गीगाहर्ट्ज की आवृत्ति पर काम करते हैं, जो पिछले समाधान के प्रदर्शन की तुलना में लगभग 2.5 गुना अधिक है। सुरक्षा प्रणाली में दो प्रोसेसर होते हैं जो लॉकस्टेप मोड में काम करते हैं। यह प्रणाली अंतिम निर्णय लेती है कि वाहन के ड्राइव पर नियंत्रण संकेतों को संचारित करना सुरक्षित है या नहीं। यह वह जगह है जहां दो विमान एक साथ आते हैं, और हम तय करते हैं कि आगे बढ़ना सुरक्षित है या नहीं। और अंत में, एक सुरक्षा प्रणाली जिसका कार्य यह सुनिश्चित करना है कि इस चिप पर केवल क्रिप्टोग्राफिक रूप से हस्ताक्षरित टेस्ला सॉफ्टवेयर का उपयोग किया जाता है।
मैंने आपको कई अलग-अलग प्रदर्शन संकेतक बताए, और मुझे लगता है कि भविष्य को देखने के लिए यह उपयोगी होगा। हम अपने (संकीर्ण) कैमरे से एक तंत्रिका नेटवर्क पर विचार करेंगे। इसमें 35 बिलियन ऑपरेशन होते हैं। यदि हम इस नेटवर्क को संसाधित करने के लिए सभी 12 सीपीयू का उपयोग करते हैं, तो हम प्रति सेकंड 1.5 फ्रेम कर सकते हैं, यह बहुत धीमा है। कार चलाने के लिए बिल्कुल पर्याप्त नहीं है। यदि हम समान नेटवर्क के लिए 600 GFLOPs के साथ GPU का उपयोग करते हैं, तो हमें प्रति सेकंड 17 फ्रेम मिलेंगे, जो अभी भी 8 कैमरों के साथ कार चलाने के लिए पर्याप्त नहीं है। हमारे तंत्रिका नेटवर्क त्वरक प्रति सेकंड 2100 फ्रेम का उत्पादन कर सकते हैं। आप देख सकते हैं कि तंत्रिका नेटवर्क त्वरक की तुलना में सीपीयू और जीपीयू में गणना की मात्रा नगण्य है।
चलो एक तंत्रिका नेटवर्क त्वरक के बारे में बात करने के लिए आगे बढ़ते हैं। मैं केवल कुछ पानी पीऊंगा बाईं ओर यहाँ एक तंत्रिका नेटवर्क का एक चित्रण है जिससे आपको पता चल जाएगा कि क्या चल रहा है। डेटा शीर्ष पर आता है और प्रत्येक ब्लॉक से होकर गुजरता है। डेटा को विभिन्न ब्लॉकों में तीर के साथ प्रेषित किया जाता है, जो आमतौर पर सक्रियण कार्यों (ReLUs) के साथ दृढ़ संकल्प या उल्टे संकल्प होते हैं। ग्रीन ब्लॉक परतों को मिलाते हैं। यह महत्वपूर्ण है कि एक ब्लॉक द्वारा प्राप्त डेटा का उपयोग अगले ब्लॉक द्वारा किया जाता है, और अब आपको इसकी आवश्यकता नहीं है - आप इसे फेंक सकते हैं। तो यह सब अस्थायी डेटा नेटवर्क से गुजरते समय बनाया और नष्ट हो जाता है। उन्हें DRAM में चिप के बाहर स्टोर करने की कोई आवश्यकता नहीं है। इसलिए, हम उन्हें केवल SRAM में स्टोर करते हैं, और कुछ ही मिनटों में मैं बताऊंगा कि यह बहुत महत्वपूर्ण क्यों है।

यदि आप दाईं ओर देखते हैं, तो आप देखेंगे कि 35 बिलियन ऑपरेशंस के इस नेटवर्क में, लगभग सभी कॉन्फोल्यूशन हैं, अनिवार्य रूप से स्केलर प्रोडक्ट्स हैं, बाकी डेकोनेवोल्यूशन (रिवर्स कॉन्फोल्यूशंस) हैं, जो स्केलर प्रोडक्ट पर भी आधारित हैं, और फिर ReLU और पूलिंग अपेक्षाकृत सरल हैं संचालन। इसलिए, यदि आप एक त्वरक विकसित कर रहे हैं, तो आप संचय के साथ-साथ स्केलर उत्पादों को लागू करने और उन्हें अनुकूलित करने पर ध्यान केंद्रित करते हैं। लेकिन कल्पना करें कि आप इस ऑपरेशन को 10,000 गुना तेज करते हैं और 100% 0.1% में बदल जाते हैं। अचानक, ReLU और पूलिंग ऑपरेशन बहुत महत्वपूर्ण हो जाते हैं। इसलिए, हमारे कार्यान्वयन में ReLU प्रसंस्करण और पूलिंग के लिए समर्पित त्वरक शामिल हैं।
चिप एक सीमित गर्मी के बजट में काम करती है। हमें इस बात से बहुत सावधान रहने की जरूरत है कि हम कैसे बिजली जलाते हैं। हम अंकगणित की मात्रा को अधिकतम करना चाहते हैं जो हम कर सकते हैं। इसलिए, हमने 32 बिट पूर्णांक जोड़ को चुना, यह फ्लोटिंग पॉइंट जोड़ की तुलना में 9 गुना कम ऊर्जा खपत करता है। और हमने 8-बिट पूर्णांक गुणन को चुना, जो अन्य गुणन कार्यों की तुलना में काफी कम ऊर्जा की खपत करता है, और शायद अच्छे परिणाम प्राप्त करने के लिए पर्याप्त सटीकता है। स्मृति के लिए के रूप में। स्थानीय SRAM का उपयोग करने की तुलना में बाहरी DRAM का उपयोग बिजली की खपत के मामले में लगभग सौ गुना अधिक महंगा है। यह स्पष्ट है कि हम स्थानीय SRAM का अधिकतम लाभ उठाना चाहते हैं।
प्रबंधन के दृष्टिकोण से, यहां वह डेटा है जो मार्क होरोविट्ज द्वारा एक लेख में प्रकाशित किया गया था, जहां उन्होंने गंभीर रूप से जांच की कि नियमित पूर्णांक प्रोसेसर पर एकल निर्देश को निष्पादित करने में कितनी ऊर्जा लगती है। और आप देखते हैं कि अतिरिक्त ऑपरेशन कुल बिजली का केवल 0.15% खपत करता है। प्रबंधन और अधिक के लिए बाकी सब कुछ खत्म हो गया है। इसलिए, हमारे डिजाइन में हम यथासंभव इस सब से छुटकारा पाने का प्रयास करते हैं। क्या वास्तव में हमारे हित अंकगणित हैं।

तो यहां वह डिजाइन है जिसे हमने समाप्त कर दिया है। आप देख सकते हैं कि इसमें मुख्य स्थान SRAM के 32 मेगाबाइट्स का कब्जा है, वे बाएं, दाएं, केंद्र में और नीचे स्थित हैं। सभी गणना ऊपरी मध्य भाग में की जाती हैं। प्रत्येक चक्र में, हम SRAM सरणी से 256 बाइट्स सक्रियण डेटा को पढ़ते हैं, SRAM सरणी से वजन के 128 बाइट्स और उन्हें 96x96 सरणी में संयोजित करते हैं, जो 2 GHz पर प्रति चक्र संचय के साथ 9000 अतिरिक्त प्रदर्शन करता है। यह केवल 36.8 ट्रिलियन है। संचालन। अब जब हम स्केलर उत्पाद के साथ किया जाता है, तो हम डेटा अपलोड करते हैं, इसे डेडिकेटेड ReLU के माध्यम से पास करते हैं, वैकल्पिक रूप से खींचने के माध्यम से, और अंत में इसे राइट बफर में डालते हैं, जहां सभी परिणाम एकत्र होते हैं। और फिर हम SRAM पर वापस प्रति घड़ी 128 बाइट लिखते हैं। और ये सब लगातार होता रहता है। हम स्केलर उत्पादों के साथ काम करते हैं, जबकि हम पिछले परिणामों को अनलोड करते हैं, पुलिंग करते हैं और परिणामों को स्मृति में वापस लिखते हैं।
यदि आप इसे 2 गीगाहर्ट्ज पर स्टैक करते हैं, तो आपको ऑपरेशन का समर्थन करने के लिए SRAM बैंडविड्थ के 1 टेराबाइट प्रति सेकंड की आवश्यकता होगी। और लोहा यह प्रदान करता है। त्वरक प्रति सेकंड बैंडविड्थ के एक टेराबाइट प्रति चिप में दो त्वरक - प्रति सेकंड दो टेराबाइट्स।त्वरक के पास अपेक्षाकृत छोटा सा कमांड है। मेमोरी से डेटा लोड करने के लिए एक डीएमए रीड ऑपरेशन है, मेमोरी में वापस परिणाम अपलोड करने के लिए डीएमए लेखन ऑपरेशन। तीन दृढ़ संकल्प निर्देश (दृढ़ संकल्प, विघटन, आंतरिक-उत्पाद)। दो अपेक्षाकृत सरल ऑपरेशन शिफ्ट और एलिमेंट ऑपरेशन (एल्टवाइज) हैं। और हां, गणना समाप्त होने पर स्टॉप ऑपरेशन।हमें एक न्यूरल नेटवर्क कंपाइलर विकसित करना था। हमने अपनी विकास टीम द्वारा प्रशिक्षित एक तंत्रिका नेटवर्क लिया, जिस रूप में इसका उपयोग पुराने हार्डवेयर में किया गया था। जब आप एक नए एक्सीलरेटर पर उपयोग के लिए इसे संकलित करते हैं, तो कंपाइलर परतों का संलयन करता है, जो हमें SRAM को प्रत्येक कॉल के लिए गणना की संख्या बढ़ाने की अनुमति देता है। यह मेमोरी एक्सेस को स्मूथ करने का काम भी करता है। हम मेमोरी बैंकों के बीच संघर्ष को कम करने के लिए चैनल पैडिंग करते हैं। मेमोरी आवंटन SRAM बैंकों को भी ध्यान में रखता है। यह ऐसा मामला है जब हार्डवेयर में संघर्ष प्रसंस्करण को लागू किया जा सकता है। लेकिन सॉफ्टवेयर कार्यान्वयन के साथ, हम कुछ सॉफ्टवेयर जटिलता के कारण हार्डवेयर को बचाते हैं। हम स्वचालित रूप से डीएमए संचालन भी सम्मिलित करते हैं ताकि डेटा समय पर गणना के लिए आए, प्रसंस्करण को रोकने के बिना। अंत में, हम कोड उत्पन्न करते हैं,विश्वसनीयता के लिए CRC चेकसम को वेट डेटा, कंप्रेस और एड करें। तंत्रिका नेटवर्क को स्टार्टअप में SRAM में लोड किया जाता है और हर समय होता है।इस प्रकार, नेटवर्क शुरू करने के लिए, आप इनपुट बफर के पते को निर्दिष्ट करते हैं, जिसमें एक नई छवि होती है जो अभी कैमरे से आई है; आउटपुट बफ़र का पता सेट करें; नेटवर्क वजन के लिए सूचक सेट करें; चलो चलते हैं। त्वरक "स्वयं में चला जाता है" और क्रमिक रूप से पूरे तंत्रिका नेटवर्क से गुजरता है, आमतौर पर एक या दो मिलियन घड़ी चक्रों के लिए। पूरा होने पर, आप एक रुकावट प्राप्त करते हैं और परिणामों को पोस्ट-प्रोसेस कर सकते हैं।परिणामों की ओर मुड़ते हुए। हमारा लक्ष्य 100 वाटों को पूरा करना था। ऑटोपायलट के एक पूरे ढेर के साथ ड्राइव करने वाली कारों पर माप से पता चला है कि हम 72 वाटों को नष्ट कर देते हैं। यह पिछली परियोजना की तुलना में थोड़ा बड़ा है, लेकिन एक महत्वपूर्ण प्रदर्शन में सुधार एक अच्छा बहाना है। इन 72 वाटों में से लगभग 15 वाट तंत्रिका नेटवर्क में खपत होती है। इस समाधान की लागत लगभग 80% है जो हमने पहले भुगतान किया था। प्रदर्शन के संदर्भ में, हमने कैमरे के तंत्रिका नेटवर्क (संकीर्ण) को लिया, जिसका मैंने पहले ही उल्लेख किया था, 35 अरब संचालन के साथ, हमने इसे पुराने उपकरणों पर लॉन्च किया और प्रति सेकंड 110 फ्रेम प्राप्त किए। हमने एक ही डेटा और एक ही नेटवर्क लिया, इसे नए FSD कंप्यूटर के लिए संकलित किया और, सभी चार एक्सेलेरेटर का उपयोग करके, हम प्रति सेकंड 2300 फ्रेम प्रोसेस कर सकते हैं।एलोन:मुझे लगता है कि यह शायदपीट की सबसे महत्वपूर्ण स्लाइड है : मैंने कभी ऐसी परियोजना पर काम नहीं किया, जहां उत्पादकता में सुधार 3 से अधिक था। इसलिए यह बहुत मजेदार था। एनवीडिया ड्राइव जेवियर समाधान की तुलना में, चिप 21 ट्रिलियन प्रदान करता है। संचालन, जबकि दो चिप्स के साथ हमारे एफएसडीसी - 144 ट्रिलियन। संचालन।इसलिए, निष्कर्ष में, मुझे लगता है कि हमने एक समाधान बनाया है जो 144 ट्रिलियन के उत्कृष्ट प्रदर्शन को बचाता है। एक तंत्रिका नेटवर्क के प्रसंस्करण के लिए संचालन। इसमें बकाया बिजली विशेषताएं हैं। हम अपने पास मौजूद गर्मी बजट में इस सारी उत्पादकता को निचोड़ने में कामयाब रहे। यह आपको डुप्लिकेट समाधान को लागू करने की अनुमति देता है। कंप्यूटर की एक मध्यम लागत है, और जो वास्तव में महत्वपूर्ण है, एफएसडीसी अपनी लागत और माइलेज को प्रभावित किए बिना, टेस्ला कारों में सुरक्षा और स्वायत्तता का एक नया स्तर प्रदान करेगा। हम सभी इसके लिए तत्पर हैं।Ilon: यदि आपके पास उपकरण के बारे में प्रश्न हैं, तो उन्हें अभी पूछें।इसका कारण मैंने पीट को एक विस्तृत कार्य करने के लिए कहा, जो शायद ज्यादातर लोगों ने टेस्ला FSD कंप्यूटर में डाइविंग की तुलना में अधिक विस्तृत है। पहली नज़र में यह अविश्वसनीय लगता है कि ऐसा कैसे हो सकता है कि टेस्ला, जिसने पहले कभी इस तरह के चिप्स को डिज़ाइन नहीं किया था, ने दुनिया में सबसे अच्छा चिप बनाया। लेकिन वास्तव में ऐसा ही हुआ। और न केवल एक छोटे से मार्जिन द्वारा सबसे अच्छा है, बल्कि एक बड़े मार्जिन से सबसे अच्छा है। अभी निर्मित सभी टेस्ला के पास यह कंप्यूटर है। हमने लगभग एक महीने पहले एस और एक्स के लिए एनवीडिया समाधान से स्विच किया और लगभग 3 दिन पहले मॉडल 3 को स्विच किया। उत्पादित सभी कारों में सभी आवश्यक हार्डवेयर और पूरी तरह से स्वायत्त ड्राइविंग के लिए आवश्यक सब कुछ है। मैं इसे फिर से कहूंगा: सभी टेस्ला कारों का उत्पादन अब,आपके पास पूर्ण स्वायत्त ड्राइविंग के लिए आवश्यक सब कुछ है। आपको बस सॉफ्टवेयर में सुधार करना है। बाद में आज, आप उन्नत स्वायत्त ड्राइविंग सॉफ़्टवेयर के डेवलपर्स के लिए एक संस्करण के साथ कार चला सकते हैं। आप खुद ही देख लीजिएगा। प्रश्न।प्रश्न: क्या आपके पास ReLU के अलावा सक्रियण कार्यों का उपयोग करने की क्षमता है?पीट: हाँ, हमारे पास एक सिग्मोइड है, उदाहरण के लिएक्यू: शायद यह अधिक कॉम्पैक्ट विनिर्माण प्रक्रिया में स्विच करने के लायक था, शायद 10 एनएम या 7 एनएम?पीट: उस समय जब हमने डिजाइन करना शुरू किया था, न कि सभी आईपी जिन्हें हम 10 एनएमइलोन में उपलब्ध करना चाहते थे : यह ध्यान देने योग्य है कि हमने इस डिजाइन को लगभग डेढ़ साल पहले पूरा किया और अगली पीढ़ी शुरू की। आज हम अगली पीढ़ी के बारे में बात नहीं कर रहे हैं, लेकिन हम पहले से ही आधे हैं। अगली पीढ़ी की चिप के लिए यह सब स्पष्ट है, हम करते हैं।प्रश्न: कंप्यूटर को कैमरों के साथ काम करने के लिए डिज़ाइन किया गया है। क्या मैं इसे लिडार के साथ उपयोग कर सकता हूं?एलोन:लिडार एक विनाशकारी निर्णय है, और जो भी लिडार पर निर्भर है, वह बर्बाद है। बर्बाद। बहुत ज़्यादा। प्रिय सेंसर जिनकी जरूरत नहीं है। यह महंगे अनावश्यक ऐप्स का एक गुच्छा होने जैसा है। एक छोटा एक कुछ भी नहीं है, लेकिन एक गुच्छा पहले से ही एक बुरा सपना है। यह बेवकूफी है, आप देखेंगे।प्रश्न: क्या आप माइलेज पर ऊर्जा की खपत के प्रभाव का आकलन कर सकते हैं?पीट: मॉडल 3 के लिए, लक्ष्य खपत 250 वाट प्रति मील है।एलोन:ड्राइविंग की प्रकृति पर निर्भर करता है। शहर में, राजमार्ग की तुलना में प्रभाव बहुत अधिक होगा। आप एक घंटे के लिए शहर में ड्राइव करते हैं और आपके पास एक काल्पनिक समाधान है जो 1 किलोवाट की खपत करता है। आप मॉडल 3 पर 6 किमी खो देंगे। यदि औसत गति 25 किमी / घंटा है, तो आप 25% खो देते हैं। सिस्टम का उपभोग एक शहर में माइलेज पर बहुत अधिक प्रभाव डालता है जहां हम सोचते हैं कि रोबोटैक्स बाजार का एक बड़ा हिस्सा होगा, इसलिए बिजली बेहद महत्वपूर्ण है।प्रश्न: आईपी के संदर्भ में आपकी तकनीक कितनी विश्वसनीय है, क्या आप मुफ्त में आईपी देने नहीं जा रहे हैं?पीट: हमने इस तकनीक के लिए एक दर्जन पेटेंट दायर किए हैं। यह अनिवार्य रूप से रैखिक बीजगणित है, जो मुझे नहीं लगता कि आप पेटेंट करा सकते हैं। (इलोन हंसते हुए)क्यू:आपका माइक्रोक्रिसिट कुछ कर सकता है, हो सकता है कि सभी भारों को एन्क्रिप्ट कर दें ताकि आपकी बौद्धिक संपदा अंदर रहे और कोई भी इसे चुरा न सके।इलोन: ओह, मैं किसी ऐसे व्यक्ति से मिलना चाहूंगा जो यह कर सकता है। मैं उसे एक पल में काम पर रखूंगा। यह बहुत कठिन समस्या है। यहां तक कि अगर आप डेटा को निकाल सकते हैं, तो भी आपको किसी तरह इसका उपयोग करने के लिए भारी मात्रा में संसाधनों की आवश्यकता होगी।हमारे लिए बड़ा स्थायी लाभ बेड़ा है। किसी के पास बेड़ा नहीं है। अरबों मील की यात्रा के आधार पर वेट लगातार अपडेट और बेहतर होते जाते हैं। टेस्ला के पास सौ गुना ज्यादा कारें हैं जिनमें हार्डवेयर की ट्रेनिंग बाकी सभी के मुकाबले जरूरी है। इस तिमाही के अंत तक, हमारे पास 8 कैमरों और 12 अल्ट्रासोनिक सेंसर वाले 500,000 वाहन होंगे। एक वर्ष में हमारे पास एफएसडीसी के साथ एक मिलियन से अधिक कारें होंगी। यह सिर्फ एक बड़ा डेटा फायदा है। यह उसी तरह है जैसे Google सर्च इंजन को बहुत बड़ा फायदा होता है, क्योंकि लोग इसका उपयोग करते हैं, और लोग वास्तव में अपने प्रश्नों के साथ Google को प्रशिक्षित करते हैं।मेजबान:हमारे एफएसडी के बारे में याद रखने वाली एक बात यह है कि यह अधिक जटिल न्यूरल नेटवर्क के साथ अधिक सटीक छवि मान्यता के लिए काम कर सकता है। यह बात करने का समय है कि हम वास्तव में इन छवियों को कैसे प्राप्त करते हैं और हम उनका विश्लेषण कैसे करते हैं। यहां हमारे पास AI - एंड्री करपाटी के एक वरिष्ठ निदेशक हैं, जो आपको यह सब समझाएंगे। आंद्रेई स्टैनफोर्ड विश्वविद्यालय से पीएचडी हैं, जहां उन्होंने मान्यता और गहन शिक्षा पर जोर देने के साथ कंप्यूटर विज्ञान का अध्ययन किया।Ilon: एंड्री, आप अभी शुरू क्यों नहीं करते, चलो। कई डॉक्टर स्टैनफोर्ड से बाहर आए, इससे कोई फर्क नहीं पड़ता। एंड्री स्टैनफोर्ड में एक कंप्यूटर विज़न कोर्स पढ़ा रहे हैं, जो कि अधिक महत्वपूर्ण है। कृपया अपने बारे में बताएं।
(अनुवाद एक त्वरित मामला नहीं है, मुझे पता है कि क्या मेरे पास तंत्रिका नेटवर्क प्रशिक्षण प्रणाली के बारे में दूसरे भाग के लिए पर्याप्त है, हालांकि यह मुझे सबसे दिलचस्प लगता है।)