🏓 😯 🍤 Bagaimana Tesla Mengajarkan Autopilot 🏤 🤸 🖕🏿

Dekripsi bagian kedua dari Hari Investor Tes Otonomi. Siklus pelatihan Autopilot, infrastruktur pengumpulan data, pelabelan data otomatis, peniruan driver manusia, deteksi jarak video, pengawasan sensor dan banyak lagi.

Bagian pertama adalah pengembangan Full Self-Driving Computer (FSDC) .

Host: FSDC dapat bekerja dengan jaringan saraf yang sangat kompleks untuk pemrosesan gambar. Sudah waktunya untuk berbicara tentang bagaimana kita mendapatkan gambar dan bagaimana kita menganalisisnya. Kami memiliki direktur AI senior di Tesla, Andrei Karpaty, yang akan menjelaskan semua ini kepada Anda.

Andrei: Saya telah berlatih di jaringan saraf selama sepuluh tahun, dan sekarang selama 5-6 tahun untuk keperluan industri. Termasuk institusi terkenal seperti Stanford, Open AI dan Google. Serangkaian jaringan saraf ini tidak hanya untuk pemrosesan gambar, tetapi juga untuk bahasa alami. Saya merancang arsitektur yang menggabungkan dua modalitas ini untuk disertasi doktoral saya.

Di Stanford, saya mengajar mata kuliah tentang jaringan saraf dekonvolusi. Saya adalah guru utama dan mengembangkan seluruh kurikulum untuknya. Pada awalnya saya memiliki sekitar 150 siswa, selama dua atau tiga tahun ke depan jumlah siswa bertambah menjadi 700. Ini adalah kursus yang sangat populer, salah satu kursus terbesar dan paling sukses di Stanford sekarang.

Ilon: Andrey benar-benar salah satu spesialis penglihatan mesin terbaik di dunia. Mungkin yang terbaik.

Andrew: Terima kasih. Halo semuanya. Pete memberi tahu Anda tentang sebuah chip yang kami kembangkan secara khusus untuk jaringan saraf dalam sebuah mobil. Tim saya bertanggung jawab untuk melatih jaringan saraf ini. Ini termasuk pengumpulan data, pelatihan, dan, sebagian, penyebaran.

Apa yang dilakukan jaringan saraf dalam mobil. Ada delapan kamera di dalam mobil yang merekam video. Jaringan saraf menonton video ini, memprosesnya, dan membuat prediksi tentang apa yang mereka lihat. Kami tertarik pada marka jalan, peserta lalu lintas, objek lain dan jaraknya, jalan, lampu lalu lintas, rambu lalu lintas dan sebagainya.

Presentasi saya dapat dibagi menjadi tiga bagian. Pertama, saya akan secara singkat memperkenalkan Anda ke jaringan saraf dan bagaimana mereka bekerja dan bagaimana mereka dilatih. Ini harus dilakukan sehingga pada bagian kedua jelas mengapa sangat penting bahwa kita memiliki armada besar mobil Tesla (armada). Mengapa ini merupakan faktor kunci dalam pelatihan jaringan saraf yang bekerja secara efisien di jalan? Pada bagian ketiga, saya akan berbicara tentang visi mesin, LIDAR, dan bagaimana memperkirakan jarak hanya menggunakan video.

Bagaimana cara kerja jaringan saraf?

(Tidak banyak yang baru di sini, Anda dapat melewati dan pergi ke pos berikutnya)

Tugas utama yang dipecahkan jaringan dalam mobil adalah pengenalan pola. Bagi kita manusia, ini adalah tugas yang sangat sederhana. Anda melihat gambar dan melihat cello, perahu, iguana, atau gunting. Sangat mudah dan sederhana untuk Anda, tetapi tidak untuk komputer. Alasannya adalah bahwa gambar-gambar komputer ini hanyalah sebuah array piksel, di mana setiap piksel adalah nilai kecerahan pada titik itu. Alih-alih hanya melihat gambar, komputer menerima jutaan angka dalam sebuah array.

Ilon: Matrix, jika Anda mau. Benar-benar matriks.

Andrew: Ya. Kita perlu beralih dari kisi-kisi nilai piksel dan kecerahan ini ke konsep tingkat yang lebih tinggi seperti iguana dan sebagainya. Seperti yang dapat Anda bayangkan, gambar iguana ini memiliki pola kecerahan tertentu. Tetapi iguana dapat digambarkan dengan cara berbeda, dalam pose berbeda, dalam kondisi pencahayaan berbeda, pada latar belakang berbeda. Anda dapat menemukan banyak gambar iguana yang berbeda dan kami harus mengenalinya dalam kondisi apa pun.

Alasan Anda dan saya dapat dengan mudah menangani ini adalah karena kami memiliki jaringan saraf besar di dalam yang memproses gambar. Cahaya memasuki retina dan dikirim ke bagian belakang otak Anda ke korteks visual. Korteks serebral terdiri dari banyak neuron yang terhubung satu sama lain dan melakukan pengenalan pola.

Dalam lima tahun terakhir, pendekatan modern untuk pemrosesan gambar menggunakan komputer juga telah mulai menggunakan jaringan saraf, tetapi dalam kasus ini, jaringan saraf tiruan. Jaringan saraf tiruan adalah perkiraan matematis kasar dari korteks visual. Ada juga neuron di sini, mereka terhubung satu sama lain. Jaringan saraf tipikal meliputi puluhan atau ratusan juta neuron, dan setiap neuron memiliki ribuan tautan.

Kita bisa mengambil jaringan saraf dan menunjukkan gambar, seperti iguana kita, dan jaringan akan membuat prediksi yang dilihatnya. Pertama, jaringan saraf diinisialisasi sepenuhnya oleh kecelakaan, semua bobot koneksi antara neuron adalah angka acak. Oleh karena itu, perkiraan jaringan juga akan acak. Bisa jadi jaring itu mengira itu mungkin kapal. Selama pelatihan, kami tahu dan mencatat bahwa iguana ada di gambar. Kami hanya mengatakan bahwa kami ingin kemungkinan iguana untuk gambar ini meningkat, dan kemungkinan segalanya menurun. Kemudian proses matematika yang disebut metode propagasi balik digunakan. Stochastic gradient descent, yang memungkinkan kita untuk menyebarkan sinyal di sepanjang tautan dan memperbarui bobotnya. Kami akan memperbarui bobot masing-masing senyawa ini sedikit, dan segera setelah pembaruan selesai, probabilitas iguana untuk gambar ini akan sedikit meningkat, dan kemungkinan jawaban lainnya akan berkurang.

Tentu saja, kami melakukan ini dengan lebih dari satu gambar. Kami memiliki sejumlah besar data yang ditandai. Biasanya ini adalah jutaan gambar, ribuan tag atau lebih. Proses pembelajaran diulangi lagi dan lagi. Anda menunjukkan komputer sebuah gambar, itu memberi tahu Anda pendapatnya, lalu Anda mengatakan jawaban yang benar, dan jaringan sedikit terkonfigurasi. Anda mengulangi ini jutaan kali, terkadang menampilkan gambar yang sama ratusan kali. Pelatihan biasanya memakan waktu beberapa jam atau beberapa hari.

Sekarang sesuatu yang kontra-intuitif tentang pekerjaan jaringan saraf. Mereka benar-benar membutuhkan banyak contoh. Ini tidak hanya pas di kepala Anda, tetapi mereka benar-benar mulai dari awal, mereka tidak tahu apa-apa. Ini sebuah contoh - anjing yang lucu, dan Anda mungkin tidak tahu jenisnya. Ini adalah spaniel Jepang. Kami melihat gambar ini dan kami melihat orang Jepang. Kita dapat mengatakan: "Oke, saya mengerti, sekarang saya tahu seperti apa penampilan orang Jepang itu." Jika saya menunjukkan kepada Anda beberapa gambar anjing lain, Anda dapat menemukan spaniel Jepang lainnya di antara mereka. Anda hanya perlu satu contoh, tetapi komputer tidak bisa. Mereka membutuhkan banyak data tentang spaniel Jepang, ribuan contoh, dalam pose berbeda, kondisi pencahayaan berbeda, latar belakang berbeda, dll. Anda harus menunjukkan kepada komputer bagaimana tampilan orang Jepang dari sudut pandang yang berbeda. Dan dia benar-benar membutuhkan semua data ini, jika tidak, komputer tidak akan dapat mempelajari templat yang diinginkan.

Tata letak gambar untuk autopilot

Jadi bagaimana semua ini berhubungan dengan mengemudi secara otonom. Kami tidak terlalu peduli tentang ras anjing. Mungkin mereka akan peduli di masa depan. Tetapi sekarang kita tertarik pada tanda-tanda jalan, benda-benda di jalan, di mana mereka berada, ke mana kita bisa pergi, dan seterusnya. Sekarang kami tidak hanya memiliki label seperti iguana, tetapi kami memiliki gambar jalan, dan kami tertarik, misalnya, marka jalan. Seseorang melihat gambar dan menandainya dengan mouse.

Kami memiliki kesempatan untuk menghubungi mobil Tesla dan meminta lebih banyak foto. Jika Anda meminta foto acak, Anda akan mendapatkan gambar di mana, sebagai aturan, mobil hanya berjalan di sepanjang jalan raya. Ini akan menjadi kumpulan data acak dan kami akan menandainya.

Jika Anda hanya menandai set acak, jaringan Anda akan mempelajari situasi lalu lintas yang sederhana dan umum dan hanya akan berfungsi dengan baik di dalamnya. Ketika Anda menunjukkan padanya contoh yang sedikit berbeda, katakanlah gambar jalan berputar di area perumahan. Jaringan Anda mungkin memberikan hasil yang salah. Dia akan berkata, "Baiklah, saya telah melihat berkali-kali, jalannya lurus."

Tentu saja, ini sama sekali tidak benar. Tetapi kita tidak bisa menyalahkan jaringan saraf. Dia tidak tahu apakah pohon di sebelah kiri, mobil di sebelah kanan, atau bangunan di latar belakang itu penting. Jaringan tidak tahu apa-apa tentang ini. Kita semua tahu bahwa garis penandaan penting dan fakta bahwa garis itu sedikit berubah ke samping. Jaringan harus mempertimbangkan hal ini, tetapi tidak ada mekanisme yang dengannya kita dapat dengan mudah memberi tahu jaringan saraf bahwa pukulan tanda jalan ini sangat penting. Satu-satunya alat di tangan kami diberi label data.

Kami mengambil gambar yang salah jaringan, dan menandainya dengan benar. Dalam hal ini, kami menandai markup belokan. Maka Anda perlu mentransfer banyak gambar serupa ke jaringan saraf. Dan seiring waktu, dia akan mengumpulkan pengetahuan dan belajar untuk memahami pola ini, untuk memahami bahwa bagian gambar ini tidak berperan, tetapi peningkatan ini sangat penting. Jaringan akan belajar cara menemukan jalur dengan benar.

Tidak hanya ukuran kumpulan data pelatihan yang penting. Kami membutuhkan lebih dari jutaan gambar. Banyak pekerjaan yang perlu dilakukan untuk menutupi ruang situasi yang dapat dipenuhi oleh sebuah mobil di jalan. Anda perlu mengajar komputer untuk bekerja di malam hari dan di bawah hujan. Jalan dapat memantulkan cahaya seperti cermin, iluminasi dapat bervariasi dalam batas lebar, gambar akan terlihat sangat berbeda.

Kita harus mengajari komputer cara menangani bayangan, garpu, dan benda besar yang menempati sebagian besar gambar. Cara bekerja dengan terowongan atau di area perbaikan jalan. Dan dalam semua kasus ini tidak ada mekanisme langsung untuk memberi tahu jaringan apa yang harus dilakukan. Kami hanya memiliki kumpulan data yang sangat besar. Kita dapat mengambil gambar, menandai, dan melatih jaringan sampai mulai memahami strukturnya.

Kumpulan data yang besar dan beragam membantu jaringan bekerja dengan sangat baik. Ini bukan penemuan kami. Eksperimen dan penelitian Google, Facebook, Baidu, Deepmind dari Alphabet. Semua menunjukkan hasil yang serupa - jaringan saraf sangat menyukai data, seperti jumlah dan variasi. Tambahkan lebih banyak data dan keakuratan jaringan saraf berkembang.

Anda harus mengembangkan autopilot untuk mensimulasikan perilaku mobil dalam suatu simulasi

Sejumlah ahli menunjukkan bahwa kita dapat menggunakan simulasi untuk mendapatkan data yang diperlukan pada skala yang tepat. Di Tesla, kami telah berulang kali menanyakan pertanyaan ini. Kami memiliki simulator sendiri. Kami banyak menggunakan simulasi untuk mengembangkan dan mengevaluasi perangkat lunak. Kami menggunakannya untuk pelatihan dengan cukup sukses. Tetapi pada akhirnya, ketika datang ke pelatihan data untuk jaringan saraf, tidak ada yang bisa menggantikan data nyata. Simulasi memiliki masalah dengan pemodelan penampilan, fisika, dan perilaku peserta.

Dunia nyata memberi kita banyak situasi tak terduga. Kondisi sulit dengan salju, pohon, angin. Berbagai artefak visual yang sulit untuk dimodelkan. Area perbaikan jalan, semak-semak, kantong plastik tergantung di angin. Mungkin ada banyak orang, orang dewasa, anak-anak, dan hewan tercampur. Membuat model perilaku dan interaksi dari semua ini adalah tugas yang sama sekali tidak dapat larut.

Ini bukan tentang pergerakan pejalan kaki. Ini tentang bagaimana pejalan kaki bereaksi satu sama lain, dan bagaimana mobil bereaksi satu sama lain, bagaimana mereka bereaksi terhadap Anda. Semua ini sangat sulit untuk disimulasikan. Anda perlu mengembangkan autopilot terlebih dahulu, hanya untuk mensimulasikan perilaku mobil dalam suatu simulasi.

Ini sangat sulit. Ini bisa menjadi anjing, hewan eksotis, dan kadang-kadang itu bahkan bukan sesuatu yang Anda tidak bisa berpura-pura, itu adalah sesuatu yang tidak pernah terlintas dalam pikiran Anda. Saya tidak tahu bahwa sebuah truk dapat membawa truk yang membawa truk yang membawa truk lain. Tetapi di dunia nyata, ini dan banyak hal lain yang terjadi sulit untuk dipikirkan. Variasi yang saya lihat di data yang berasal dari mobil hanya gila dalam kaitannya dengan apa yang kita miliki di simulator. Meskipun kami memiliki simulator yang bagus.

Ilon: Simulasi seolah-olah Anda sedang menciptakan pekerjaan rumah Anda sendiri. Jika Anda tahu bahwa Anda akan berpura-pura, Oke, tentu saja Anda akan berurusan dengan ini. Tetapi seperti yang dikatakan Andrei, Anda tidak tahu apa yang tidak Anda ketahui. Dunia ini sangat aneh, ia memiliki jutaan kasus khusus. Jika seseorang menciptakan simulasi mengemudi yang dengan setia mereproduksi kenyataan, ini dengan sendirinya akan menjadi pencapaian yang monumental bagi umat manusia. Tetapi tidak ada yang bisa melakukan ini. Tidak mungkin.

Armada adalah sumber data utama untuk pelatihan

Andrei: Agar jaringan saraf berfungsi dengan baik, Anda memerlukan kumpulan data yang besar, beragam, dan nyata. Dan jika Anda memilikinya, Anda dapat melatih jaringan saraf Anda dan itu akan bekerja dengan sangat baik. Jadi mengapa Tesla begitu istimewa dalam hal ini? Jawabannya, tentu saja, adalah armada (armada, armada Tesla). Kami dapat mengumpulkan data dari semua kendaraan Tesla dan menggunakannya untuk pelatihan.

Mari kita lihat contoh spesifik meningkatkan operasi detektor objek. Ini akan memberi Anda gambaran tentang bagaimana kami melatih jaringan saraf, bagaimana kami menggunakannya, dan bagaimana mereka menjadi lebih baik dari waktu ke waktu.

Deteksi objek adalah salah satu tugas terpenting kami. Kita perlu menyoroti dimensi mobil dan objek lain untuk melacaknya dan memahami bagaimana mereka dapat bergerak. Kami dapat meminta orang untuk menandai gambar. Orang-orang akan berkata: "Ini mobil, ini sepeda" dan seterusnya. Dan kita bisa melatih jaringan saraf pada data ini. Namun dalam beberapa kasus, jaringan akan membuat perkiraan yang salah.

Sebagai contoh, jika kita menemukan sebuah mobil yang ditempelkan sepeda di belakang, maka jaringan saraf kita akan mendeteksi 2 objek - mobil dan sepeda. Begitulah cara dia bekerja ketika saya pertama kali tiba. Dan dengan caranya sendiri itu benar, karena kedua benda ini benar-benar hadir di sini. Tetapi perencana autopilot tidak peduli tentang fakta bahwa motor ini adalah objek terpisah yang bergerak dengan mobil. Yang benar adalah bahwa motor ini melekat erat pada mobil. Dalam hal objek di jalan, ini adalah satu objek - satu mobil.

Sekarang kami ingin menandai banyak objek serupa sebagai "satu mobil". Tim kami menggunakan pendekatan berikut. Kami mengambil gambar ini atau beberapa gambar di mana model tersebut hadir. Dan kami memiliki mekanisme pembelajaran mesin yang dengannya kami dapat meminta armada untuk memberi kami contoh yang terlihat sama. Dan armada mengirimkan gambar sebagai tanggapan.

Berikut adalah contoh enam gambar yang diterima. Semuanya mengandung sepeda yang melekat pada mobil. Kami akan menandai mereka dengan benar dan detektor kami akan bekerja lebih baik. Jaringan akan mulai mengerti ketika sepeda terpasang ke mobil, dan itu adalah satu objek. Anda dapat melatih jaringan dalam hal ini, asalkan Anda memiliki cukup contoh. Dan itulah cara kami memecahkan masalah seperti itu.

Saya berbicara banyak tentang mendapatkan data dari mobil Tesla. Dan saya ingin segera mengatakan bahwa kami mengembangkan sistem ini sejak awal, dengan mempertimbangkan kerahasiaan akun. Semua data yang kami gunakan untuk pelatihan dianonimkan.

Armada mengirim kami tidak hanya sepeda di mobil. Kami terus mencari berbagai model. Sebagai contoh, kami sedang mencari kapal - armada mengirimkan gambar perahu di jalan. Kami menginginkan gambar dari area perbaikan jalan, dan armada mengirimkan banyak gambar seperti itu dari seluruh dunia. Atau misalnya, sampah di jalan, ini juga sangat penting. Armada mengirimi kami gambar ban, kerucut, kantong plastik dan sejenisnya di jalan.

Kita bisa mendapatkan gambar yang cukup, menandainya dengan benar, dan jaringan saraf akan belajar bagaimana bekerja dengannya di dunia nyata. Kita membutuhkan jaringan saraf untuk memahami apa yang terjadi dan merespons dengan benar.

Ketidakpastian jaringan saraf memicu pengumpulan data

Prosedur, yang kami ulangi lagi dan lagi untuk melatih jaringan saraf, adalah sebagai berikut. Kami mulai dengan serangkaian gambar acak yang diterima dari armada. Kami menandai gambar, melatih jaringan saraf dan memuatnya ke dalam mobil. Kami memiliki mekanisme yang kami gunakan untuk mendeteksi ketidakakuratan dalam pengoperasian autopilot. Jika kita melihat bahwa jaringan saraf tidak yakin atau ada intervensi driver atau peristiwa lain, data yang terjadi ini dikirim secara otomatis.

Misalnya, tanda terowongan tidak dikenal dengan baik. Kami perhatikan ada masalah di terowongan. Gambar yang sesuai masuk dalam unit test kami sehingga masalah tidak dapat diulangi nanti. Sekarang, untuk memperbaiki masalah, kita perlu banyak contoh pelatihan. Kami meminta armada untuk mengirimi kami lebih banyak gambar dari terowongan, tandai dengan benar, menambahkannya ke set pelatihan dan melatih kembali jaringan, dan kemudian memuatnya ke dalam mobil. Siklus ini berulang berulang. Kami menyebutnya proses berulang mesin data (mesin data? Mesin data?). Kami menghidupkan jaringan dalam mode bayangan, mendeteksi ketidakakuratan, meminta lebih banyak data, memasukkannya ke dalam set pelatihan. Kami melakukan ini untuk semua jenis prediksi jaringan saraf kami.

Markup data otomatis

Saya berbicara banyak tentang markup gambar secara manual. Ini adalah proses yang mahal, baik dalam waktu maupun finansial. Itu bisa terlalu mahal. Saya ingin berbicara tentang bagaimana Anda dapat menggunakan armada di sini. Penandaan manual adalah hambatan. Kami hanya ingin mentransfer data dan menandainya secara otomatis. Dan ada beberapa mekanisme untuk ini.

Sebagai contoh, salah satu proyek terbaru kami adalah deteksi pembangunan kembali.Anda mengemudi di jalan raya, seseorang mengemudi di kiri atau kanan, dan dia membangun kembali ke jalur Anda.

Ini adalah video tempat autopilot mendeteksi pembangunan kembali. Tentu saja, kami ingin menemukannya sesegera mungkin. Pendekatan untuk menyelesaikan masalah ini adalah kita tidak menulis kode seperti: indikator arah kiri aktif, indikator arah kanan aktif, apakah mobil bergerak secara horizontal dari waktu ke waktu. Sebagai gantinya, kami menggunakan pembelajaran otomatis berbasis armada.

Bagaimana cara kerjanya? Kami meminta armada untuk mengirimkan data kepada kami setiap kali pembangunan kembali di jalur kami direkam. Kemudian kami memundurkan waktu mundur dan secara otomatis mencatat bahwa mobil ini akan dibangun kembali di depan Anda dalam 1,3 detik. Data ini dapat digunakan untuk melatih jaringan saraf. Dengan demikian, jaringan saraf itu sendiri akan mengekstraksi tanda-tanda yang diperlukan. Misalnya, sebuah mobil menggerogoti dan kemudian membangun kembali, atau ia memiliki lampu sein yang menyala. Jaringan saraf belajar tentang semua ini dari contoh yang berlabel otomatis.

Pemeriksaan Bayangan

Kami meminta armada untuk secara otomatis mengirimkan data kepada kami. Kami dapat mengumpulkan sekitar setengah juta gambar, dan pembangunan kembali akan ditandai pada semuanya. Kami melatih jaringan dan memuatnya ke dalam armada. Tetapi sampai kita menyalakannya sepenuhnya, tetapi jalankan dalam mode bayangan. Dalam mode ini, jaringan terus membuat prediksi: "Hei, saya pikir mobil ini akan dibangun kembali." Dan kami mencari ramalan yang salah.

Berikut adalah contoh klip yang kami dapatkan dari mode bayangan. Di sini situasinya tidak sedikit jelas, dan jaringan berpikir bahwa mobil di sebelah kanan akan dibangun kembali. Dan Anda mungkin memperhatikan bahwa dia sedikit menggoda dengan garis penandaan. Jaringan bereaksi terhadap ini, dan menyarankan bahwa mobil akan segera berada di jalur kami. Tetapi ini tidak terjadi.

Jaringan beroperasi dalam mode bayangan dan membuat prakiraan. Diantaranya adalah false positive dan false negative. Kadang-kadang jaringan bereaksi dengan keliru, dan kadang-kadang, ia melewatkan acara. Semua kesalahan ini memicu pengumpulan data. Data ditandai dan dimasukkan ke dalam pelatihan tanpa upaya tambahan. Dan kami tidak membahayakan orang dalam proses ini. Kami melatih ulang jaringan dan menggunakan mode bayangan lagi. Kami dapat mengulanginya beberapa kali, mengevaluasi alarm palsu dalam kondisi lalu lintas nyata. Setelah indikator sesuai dengan kami, kami cukup mengklik sakelar dan membiarkan jaringan mengontrol mobil.

Kami meluncurkan salah satu versi pertama detektor rekondisi, sekitar tiga bulan lalu. Jika Anda memperhatikan bahwa alat berat telah menjadi jauh lebih baik dalam mendeteksi pembangunan kembali, ini adalah latihan dengan armada yang sedang beraksi. Dan tidak ada satu orang pun yang terluka dalam proses ini. Itu hanya banyak pelatihan jaringan saraf berdasarkan data nyata, menggunakan mode bayangan dan menganalisis hasilnya.

Ilon: Faktanya, semua driver terus-menerus melatih jaringan. Tidak masalah apakah autopilot dihidupkan atau dimatikan. Jaringan sedang belajar. Setiap mil yang dilalui oleh mesin dengan HW2.0 atau peralatan yang lebih tinggi mendidik jaringan.

Saat Anda mengemudi, Anda sebenarnya menandai data

Andrei: Proyek menarik lainnya yang kami gunakan dalam skema pelatihan armada adalah memperkirakan jalannya. Saat Anda mengemudi, Anda sebenarnya menandai data. Anda memberi tahu kami cara mengemudi dalam situasi mengemudi yang berbeda. Berikut adalah salah satu driver belok kiri di persimpangan. Kami memiliki video lengkap dari semua kamera, dan kami tahu jalur yang dipilih pengemudi. Kita juga tahu kecepatan dan sudut rotasi setir itu. Kami menyatukan semuanya dan memahami jalan yang telah dipilih seseorang dalam situasi lalu lintas ini. Dan kita bisa menggunakan ini sebagai pengajaran dengan seorang guru. Kami hanya mendapatkan jumlah data yang diperlukan dari armada, melatih jaringan pada lintasan ini, dan setelah itu jaringan saraf dapat memprediksi jalur.

Ini disebut pembelajaran imitasi. Kami mengambil lintasan orang dari dunia nyata dan mencoba meniru mereka. Dan lagi kita bisa mengambil pendekatan berulang kami.

Berikut adalah contoh prediksi jalur dalam kondisi jalan yang sulit. Dalam video kami overlay perkiraan jaringan. Hijau menandai jalur yang akan dipindahkan jaringan.

Ilon: Kegilaannya adalah bahwa jaringan memprediksi jalur yang bahkan tidak dapat dilihatnya. Dengan presisi yang sangat tinggi. Dia tidak melihat apa yang ada di tikungan, tetapi percaya bahwa kemungkinan lintasan ini sangat tinggi. Dan ternyata itu benar. Hari ini Anda akan melihatnya di mobil, kami akan memasukkan penglihatan yang diperbesar sehingga Anda dapat melihat tanda dan proyeksi lintasan yang ditumpangkan pada video.

Andrei: Sebenarnya, di bawah tenda, yang paling banyak terjadi, dan

Ilon: Sebenarnya, ini sedikit menakutkan (Andrey tertawa).

Andrew: Tentu saja, saya kehilangan banyak detail. Anda mungkin tidak ingin menggunakan semua driver secara berurutan untuk menandai, Anda ingin meniru yang terbaik. Dan kami menggunakan sejumlah cara untuk menyiapkan data ini. Menariknya, ramalan ini sebenarnya tiga dimensi. Ini adalah jalur dalam ruang tiga dimensi yang kami tampilkan dalam 2D. Tetapi jaringan memiliki informasi tentang kemiringan, dan ini sangat penting untuk mengemudi.

Memprediksi cara saat ini bekerja di mobil. Ngomong-ngomong, ketika Anda melewati persimpangan di jalan raya, sekitar lima bulan lalu, mobil Anda tidak bisa mengatasinya. Sekarang bisa. Ini adalah prediksi jalan, beraksi, di mobil Anda. Kami menyalakannya beberapa saat yang lalu. Dan hari ini Anda bisa melihat cara kerjanya di persimpangan. Bagian penting dari pelatihan untuk mengatasi persimpangan diperoleh dengan secara otomatis menandai data.

Saya berhasil berbicara tentang komponen kunci dari pelatihan jaringan saraf. Anda membutuhkan kumpulan data nyata yang besar dan beragam. Di Tesla, kami mendapatkannya menggunakan armada. Kami menggunakan mesin data, mode bayangan dan partisi data otomatis menggunakan armada. Dan kita dapat meningkatkan pendekatan ini.

Persepsi kedalaman oleh video

Pada bagian selanjutnya dari pidato saya, saya akan berbicara tentang merasakan kedalaman melalui visi. Anda mungkin tahu bahwa mobil menggunakan setidaknya dua jenis sensor. Salah satunya adalah kamera video kecerahan, dan yang lainnya adalah LIDAR, yang digunakan banyak perusahaan. Lidar memberi titik pengukuran jarak di sekitar Anda.

Saya ingin mencatat bahwa Anda semua datang ke sini hanya menggunakan jaringan saraf dan visi Anda. Anda tidak menembak dengan laser dari mata Anda dan masih berakhir di sini.

Jelas bahwa jaringan syaraf manusia mengekstrak jarak dan memandang dunia sebagai tiga dimensi secara eksklusif melalui penglihatan. Dia menggunakan sejumlah trik. Saya akan berbicara secara singkat tentang beberapa dari mereka. Misalnya, kami memiliki dua mata, sehingga Anda mendapatkan dua gambar dunia di depan Anda. Otak Anda menggabungkan informasi ini untuk mendapatkan perkiraan jarak, ini dilakukan dengan melakukan triangulasi titik dalam dua gambar. Pada banyak hewan, mata terletak di sisi dan bidang pandangnya sedikit menyilang. Hewan ini menggunakan struktur (gerak). Mereka menggerakkan kepala mereka untuk mendapatkan banyak gambar dunia dari titik yang berbeda dan juga dapat menerapkan triangulasi.

Bahkan dengan satu mata tertutup dan benar-benar tidak bergerak, Anda mempertahankan indra persepsi jarak tertentu. Jika Anda menutup satu mata, Anda tidak akan merasa bahwa saya telah menjadi dua meter lebih dekat atau seratus meter lebih jauh. Ini karena ada banyak teknik bermata yang kuat yang juga diterapkan otak Anda. Misalnya, ilusi optik umum, dengan dua garis identik di latar belakang rel. Otak Anda mengevaluasi pemandangan dan mengharapkan salah satu dari mereka menjadi lebih besar dari yang lain karena jalur kereta api menghilang ke kejauhan. Otak Anda melakukan banyak hal ini secara otomatis, dan jaringan saraf tiruan dapat melakukannya juga.

Saya akan memberikan tiga contoh bagaimana Anda bisa mencapai persepsi kedalaman dalam video. Satu pendekatan klasik dan dua berdasarkan jaringan saraf.

Kami dapat mengambil klip video dalam beberapa detik dan membuat ulang lingkungan dalam 3D menggunakan metode triangulasi dan penglihatan stereo. Kami menerapkan metode serupa di dalam mobil. Yang utama adalah bahwa sinyal benar-benar memiliki informasi yang diperlukan, satu-satunya pertanyaan adalah mengekstraknya.

Menandai jarak menggunakan radar

Seperti yang saya katakan, jaringan saraf adalah alat pengenalan visual yang sangat kuat. Jika Anda ingin mereka mengenali jarak, Anda harus menandai jarak, dan kemudian jaringan akan belajar bagaimana melakukannya. Tidak ada yang membatasi jaringan dalam kemampuan mereka untuk memprediksi jarak selain memiliki data yang ditandai.

Kami menggunakan radar yang diarahkan ke depan. Radar ini mengukur dan menandai jarak ke objek yang dilihat jaringan saraf. Alih-alih memberi tahu orang-orang "mobil ini berjarak sekitar 25 meter", Anda dapat menandai data dengan lebih baik menggunakan sensor. Radar bekerja sangat baik pada jarak ini. Anda menandai data dan melatih jaringan saraf. Jika Anda memiliki cukup data, jaringan saraf akan sangat baik dalam memprediksi jarak.

Dalam gambar ini, lingkaran menunjukkan benda yang diterima oleh radar, dan kuboid adalah benda yang diterima oleh jaringan saraf. Dan jika jaringan bekerja dengan baik, maka pada tampilan atas, posisi kuboid harus bertepatan dengan posisi lingkaran, yang kami amati. Jaringan saraf bekerja sangat baik dengan prediksi jarak. Mereka dapat mempelajari ukuran kendaraan yang berbeda, dan menurut ukurannya pada gambar, cukup akurat menentukan jarak.

Pengawasan diri

Mekanisme terakhir, yang akan saya bicarakan secara singkat, sedikit lebih teknis. Hanya ada beberapa artikel, terutama dalam satu atau dua tahun terakhir, tentang pendekatan ini. Ini disebut pengawasan diri.

Apa yang sedang terjadi di sini. Anda mengunggah video mentah yang tidak berlabel ke jaringan saraf. Dan jaringan masih bisa belajar mengenali jarak. Tanpa merinci, idenya adalah bahwa jaringan saraf memprediksi jarak di setiap bingkai video ini. Kami tidak memiliki tag untuk verifikasi, tetapi ada konsistensi sasaran-waktu. Tidak peduli berapa jarak yang diprediksi jaringan, itu harus konsisten di seluruh video. Dan satu-satunya cara untuk konsisten adalah memprediksi jarak dengan benar. Jaringan secara otomatis memprediksi kedalaman untuk semua piksel. Kami berhasil mereproduksinya, dan itu bekerja dengan cukup baik.

—

Untuk meringkas.Orang menggunakan penglihatan, tidak ada laser. Saya ingin menekankan bahwa pengenalan visual yang kuat sangat penting untuk mengemudi secara otonom. Kami membutuhkan jaringan saraf yang benar-benar memahami lingkungan.

Data dari LIDAR jauh lebih jenuh dengan informasi. Apakah siluet ini di jalan, apakah itu kantong plastik atau ban? Lidar hanya akan memberi Anda beberapa poin, sementara visi dapat memberi tahu Anda apa itu. Apakah orang ini dengan sepeda melihat ke belakang, apakah dia mencoba untuk mengubah jalur atau dia akan langsung? Di zona perbaikan jalan, apa arti tanda-tanda ini dan bagaimana saya harus bersikap di sini? Ya, seluruh infrastruktur jalan dirancang untuk konsumsi visual. Semua tanda, lampu lalu lintas, semuanya untuk dilihat, di situlah semua informasi berada. Dan kita harus menggunakannya.

Gadis ini bergairah tentang telepon, apakah dia akan melangkah di jalan? Jawaban untuk pertanyaan semacam itu hanya dapat ditemukan dengan bantuan penglihatan dan itu diperlukan untuk autopilot level 4-5. Dan itulah yang kami kembangkan di Tesla. Kami melakukan ini melalui pelatihan jaringan saraf berskala besar, mesin data dan bantuan armada kami.

Dalam hal ini, lidar adalah upaya untuk memotong jalan. Ini menghindari tugas mendasar dari visi alat berat, solusi yang diperlukan untuk mengemudi secara otonom. Ini memberikan rasa kemajuan yang salah. Lidar hanya bagus untuk demonstrasi cepat.

Kemajuan sebanding dengan frekuensi tabrakan dengan situasi kompleks di dunia nyata.

Jika saya ingin menyesuaikan semua yang dikatakan pada satu slide, itu akan terlihat seperti ini. Kami membutuhkan sistem level 4-5 yang dapat menangani semua situasi yang mungkin dalam 99,9999% kasus. Mengejar sembilan terakhir akan sulit dan sangat sulit. Ini akan membutuhkan sistem visi alat berat yang sangat kuat.

Yang ditampilkan di sini adalah gambar-gambar yang mungkin Anda temui dalam perjalanan ke tempat desimal yang berharga. Pada awalnya, Anda hanya memiliki mobil ke depan, maka mobil-mobil ini mulai terlihat sedikit tidak biasa, sepeda muncul pada mereka, mobil di mobil. Kemudian Anda menemukan peristiwa yang sangat langka, seperti mobil terbalik atau bahkan mobil dalam lompatan. Kami memenuhi banyak hal dalam data yang berasal dari armada.

Dan kita melihat kejadian langka ini jauh lebih sering daripada pesaing kita. Ini menentukan kecepatan kita dapat memperoleh data dan memperbaiki masalah melalui pelatihan jaringan saraf. Kecepatan kemajuan sebanding dengan frekuensi Anda dihadapkan dengan situasi sulit di dunia nyata. Dan kami menemukan mereka lebih sering daripada orang lain. Karena itu, autopilot kami lebih baik daripada yang lain. Terima kasih

Tanya Jawab

Pertanyaan: Berapa banyak data yang Anda kumpulkan rata-rata dari setiap mobil?

Andrew: Ini bukan hanya tentang jumlah data, ini tentang keragaman. Pada titik tertentu, Anda sudah memiliki cukup gambar mengemudi di sepanjang jalan raya, jaringan memahaminya, tidak perlu lagi. Oleh karena itu, kami secara strategis fokus untuk mendapatkan data yang benar. Dan infrastruktur kami, dengan analisis yang agak rumit, memungkinkan kami untuk mendapatkan data yang kami butuhkan saat ini. Ini bukan tentang sejumlah besar data, ini tentang data yang dipilih dengan sangat baik.

Pertanyaan: Saya ingin tahu bagaimana Anda akan menyelesaikan masalah mengubah jalur. Setiap kali saya mencoba membangun kembali menjadi aliran yang padat, mereka memotong saya. Perilaku manusia menjadi tidak rasional di jalan-jalan Los Angeles. Autopilot ingin mengemudi dengan aman, dan Anda hampir harus melakukannya dengan tidak aman.

Andrew: Saya berbicara tentang mesin data sebagai pelatihan jaringan saraf. Tetapi kami melakukan hal yang sama di tingkat perangkat lunak. Semua parameter itu memengaruhi pilihan, misalnya kapan harus membangun kembali, seberapa agresif. Kami juga mengubahnya dalam mode bayangan, dan mengamati seberapa baik mereka bekerja dan menyesuaikan heuristik. Sebenarnya, merancang heuristik seperti itu untuk kasus umum adalah tugas yang sulit. Saya pikir kita harus menggunakan pelatihan armada untuk membuat keputusan seperti itu. Kapan orang berganti jalur? Dalam skenario apa? Kapan mereka merasa bahwa mengganti jalur tidak aman? Mari kita melihat sejumlah besar data dan mengajarkan classifier pembelajaran mesin untuk membedakan kapan pembangunan kembali aman. Klasifikasi ini akan dapat menulis kode yang jauh lebih baik daripada orang-orang, karena mereka bergantung pada sejumlah besar data pada perilaku pengemudi.

Ilon: Mungkin, kita akan memiliki mode "traffic in Los Angeles". Di suatu tempat setelah mode Mad Max. Ya, Mad Max akan mengalami kesulitan di Los Angeles.

Andrei harus berkompromi. Anda tidak ingin membuat situasi yang tidak aman, tetapi ingin pulang. Dan tarian yang dilakukan orang pada saat yang sama, sangat sulit untuk diprogram. Saya pikir yang tepat adalah pembelajaran mesin. Di mana kita hanya melihat banyak cara orang melakukan ini dan mencoba meniru mereka.

Ilon: Sekarang kami sedikit konservatif, dan, ketika kepercayaan kami tumbuh, akan mungkin untuk memilih rezim yang lebih agresif. Pengguna akan dapat memilihnya. Dalam mode agresif, ketika mencoba mengubah jalur dalam kemacetan lalu lintas, ada sedikit peluang untuk mengerutkan sayap. Tidak ada risiko kecelakaan serius. Anda akan memiliki pilihan apakah Anda setuju dengan peluang yang tidak nol untuk menumbuk sayap. Sayangnya, ini adalah satu-satunya cara untuk terjebak kemacetan di jalan raya.

Pertanyaan: Mungkinkah terjadi pada salah satu dari sembilan setelah titik desimal bahwa lidar akan berguna? Pertanyaan kedua adalah, jika sitar benar-benar tidak berharga, apa yang akan terjadi pada mereka yang membuat keputusan?

Ilon: Mereka semua akan menyingkirkan kapten, ini ramalan saya, Anda bisa menulis. Saya harus mengatakan, saya tidak membenci Lidar sebanyak mungkin. SpaceX Dragon menggunakan lidar untuk pindah ke ISS dan berlabuh. SpaceX telah mengembangkan lidar sendiri dari awal untuk ini. Saya pribadi memimpin proyek ini karena Lidar masuk akal dalam skenario ini. Tapi di dalam mobil itu sangat bodoh. Itu mahal dan tidak perlu. Dan, seperti yang dikatakan Andrei, segera setelah Anda menangani videonya, Lidar akan menjadi tidak berguna. Anda akan memiliki peralatan mahal yang tidak berguna untuk mobil.

Kami memiliki radar ke depan. Ini tidak mahal dan bermanfaat, terutama dalam kondisi visibilitas yang buruk. Kabut, debu, atau salju, radar dapat melihatnya. Jika Anda akan menggunakan pembuatan foton aktif, jangan gunakan panjang gelombang cahaya tampak. Karena, memiliki optik pasif, Anda telah menangani semuanya dalam spektrum yang terlihat. Sekarang lebih baik menggunakan panjang gelombang dengan sifat penetrasi yang bagus seperti radar. Lidar hanyalah generasi aktif foton dalam spektrum yang terlihat. Ingin secara aktif menghasilkan foton, lakukan di luar spektrum yang terlihat. Menggunakan 3,8 mm dibandingkan 400-700 nm Anda akan dapat melihat dalam kondisi cuaca buruk. Karena itu, kami memiliki radar. Serta dua belas sensor ultrasonik untuk lingkungan langsung. Radar ini paling berguna dalam arah gerakan, karena secara langsung Anda bergerak sangat cepat.

Kami telah mengangkat masalah sensor berkali-kali. Apakah jumlahnya cukup? Apakah kita memiliki semua yang kita butuhkan? Perlu menambahkan sesuatu yang lain? Hmmm Cukup.

Pertanyaan: Tampaknya mobil melakukan semacam perhitungan untuk menentukan informasi apa yang akan dikirimkan kepada Anda. Apakah ini dilakukan secara real time atau berdasarkan informasi yang tersimpan?

Andrey: Perhitungan dilakukan secara real time di dalam mobil itu sendiri. Kami menyampaikan persyaratan yang menarik bagi kami, dan mobil melakukan semua perhitungan yang diperlukan. Jika mereka tidak melakukan ini, kami harus mentransfer semua data dalam satu baris dan memprosesnya di back-end kami. Kami tidak ingin melakukan ini.

Ilon: Kami punya empat ratus dua puluh lima ribu mobil dengan HW2.0 +. Ini berarti bahwa mereka memiliki delapan kamera, radar, sensor ultrasonik dan setidaknya komputer nVidia. Cukup menghitung informasi mana yang penting dan mana yang tidak. Mereka mengompres informasi penting dan mengirimkannya ke jaringan untuk pelatihan. Ini adalah tingkat kompresi data yang sangat besar dari dunia nyata.

Pertanyaan: Anda memiliki jaringan ratusan ribu komputer ini, yang menyerupai pusat data terdistribusi yang kuat. Apakah Anda melihat penerapannya untuk tujuan selain autopilot?

Ilon: Saya kira ini bisa digunakan untuk hal lain. Sementara kami fokus pada autopilot. Segera setelah kami membawanya ke tingkat yang tepat, kita dapat memikirkan aplikasi lain. Pada saat itu, akan ada jutaan atau puluhan juta mobil dengan HW3.0 atau FSDC.

Pertanyaan: Menghitung lalu lintas?

Ilon: Ya, mungkin. bisa jadi sesuatu seperti AWS (Amazon Web Services).

Pertanyaan: Saya seorang pengemudi Model 3 di Minnesota, di mana ada banyak salju. Kamera dan radar tidak dapat melihat tanda jalan melalui salju. Bagaimana Anda akan menyelesaikan masalah ini? Apakah Anda akan menggunakan GPS dengan akurasi tinggi?

Andrew: Sudah hari ini, autopilot berperilaku cukup baik di jalan bersalju. Bahkan ketika tanda-tanda disembunyikan, atau usang, atau ditutupi dengan air dalam hujan lebat, autopilot masih berperilaku relatif baik. Kami belum secara khusus menangani jalan bersalju dengan mesin data kami. Tapi saya yakin masalah ini bisa diselesaikan. Karena dalam banyak gambar jalan bersalju, jika Anda bertanya kepada seseorang di mana tanda harus berada, ia akan menunjukkannya kepada Anda. Orang-orang sepakat di mana menggambar garis-garis tanda. Dan sementara orang dapat menyetujui dan menandai data Anda, jaringan saraf akan dapat mempelajari ini dan akan bekerja dengan baik. Satu-satunya pertanyaan adalah apakah ada cukup informasi dalam sinyal asli. Sudah cukup untuk annotator seseorang? Jika jawabannya adalah ya, maka jaringan saraf akan baik-baik saja.

Ilon: Ada beberapa sumber informasi penting dalam sinyal sumber. Jadi markup, ini hanya salah satunya. Sumber terpenting adalah jalan masuk. Ke mana Anda bisa pergi, dan ke mana Anda tidak bisa. Lebih penting daripada markup. Pengenalan jalan bekerja dengan sangat baik. Saya pikir, terutama setelah musim dingin yang akan datang, itu akan bekerja dengan sangat baik. Kami akan bertanya-tanya bagaimana ini bisa bekerja dengan baik. Ini gila.

Andrew: Ini bahkan bukan tentang kemampuan orang untuk menandai. Selama Anda, seseorang, dapat mengatasi bagian jalan ini. Armada akan belajar dari Anda. Kami tahu bagaimana Anda mengemudi di sini. Dan Anda jelas menggunakan visi untuk ini. Anda tidak melihat markup, tetapi Anda menggunakan geometri seluruh adegan. Anda melihat bagaimana tikungan jalan, bagaimana mobil lain berada di sekitar Anda. Jaringan saraf akan secara otomatis menyoroti semua pola ini, Anda hanya perlu mendapatkan data yang cukup tentang bagaimana orang mengatasi situasi seperti itu.

Ilon: Sangat penting untuk tidak menempel erat pada GPS. Kesalahan GPS bisa sangat signifikan. Dan situasi lalu lintas yang sebenarnya bisa tidak dapat diprediksi. Ini bisa berupa perbaikan jalan atau jalan memutar. Jika mobil terlalu mengandalkan GPS, ini adalah situasi yang buruk. Anda meminta masalah. GPS baik untuk digunakan hanya sebagai petunjuk.

Pertanyaan: Beberapa pesaing Anda berbicara tentang bagaimana mereka menggunakan peta definisi tinggi untuk meningkatkan persepsi dan perencanaan jalur. Apakah Anda menggunakan sesuatu yang serupa di sistem Anda, apakah Anda melihat manfaatnya? Apakah ada area di mana Anda ingin memiliki lebih banyak data, bukan dari armada, tetapi sesuatu seperti kartu?

Ilon: Saya pikir peta resolusi tinggi adalah ide yang sangat buruk. Sistem menjadi sangat tidak stabil. Tidak dapat beradaptasi dengan perubahan jika Anda terpasang pada GPS dan peta resolusi tinggi dan tidak memberikan prioritas pada penglihatan. Visi adalah hal yang harus melakukan segalanya. Lihat, markup hanyalah panduan, bukan hal yang paling penting. Kami mencoba menggunakan kartu markup dan dengan cepat menyadari bahwa ini adalah kesalahan besar. Kami benar-benar meninggalkan mereka.

Pertanyaan: Memahami di mana benda-benda itu berada dan bagaimana mobil-mobil itu bergerak sangat berguna. Tapi bagaimana dengan aspek negosiasi? Selama parkir, di bundaran dan dalam situasi lain di mana Anda berinteraksi dengan mobil lain yang dikendarai orang. Ini lebih merupakan seni daripada sains.

Ilon: Ini bekerja dengan cukup baik. Jika Anda melihat situasi dengan pengaturan ulang, dll., Autopilot biasanya berupaya.

Andrew: Sekarang kami menggunakan banyak pembelajaran mesin untuk menciptakan ide tentang dunia nyata. Di atas ini, kami memiliki penjadwal dan pengontrol dan banyak heuristik tentang cara mengemudi, cara memperhitungkan mobil lain, dan sebagainya. Dan seperti dalam pengenalan pola, ada banyak kasus non-standar di sini, itu seperti permainan elang dan merpati, yang Anda mainkan dengan orang lain. Kami yakin bahwa pada akhirnya kami akan menggunakan pelatihan berbasis armada untuk menyelesaikan masalah ini. Heuristik tulisan tangan dengan cepat bertumpu di dataran tinggi.

Pertanyaan: Apakah Anda memiliki mode peleton? Apakah sistem mampu melakukan ini?

Andrei: Saya benar-benar yakin bahwa kita dapat membuat rezim seperti itu. Tetapi sekali lagi, jika Anda hanya melatih jaringan untuk meniru orang. Orang-orang terhubung dan mengemudi di depan mobil dan jaringan mengingat perilaku ini. Ada semacam sihir di dalamnya, semuanya terjadi dengan sendirinya. Masalah yang berbeda datang ke satu, hanya mengumpulkan kumpulan data dan menggunakannya untuk melatih jaringan saraf.

Ilon: Tiga langkah untuk mengemudi secara otonom. Yang pertama adalah hanya mengimplementasikan fungsi ini. Yang kedua adalah membawanya sedemikian rupa sehingga seseorang di dalam mobil tidak perlu memperhatikan jalan sama sekali. Dan yang ketiga adalah untuk menunjukkan tingkat keandalan yang meyakinkan regulator. Ini adalah tiga level. Kami berharap dapat mencapai level pertama tahun ini. Dan kami berharap, di suatu tempat di kuartal kedua tahun depan, untuk mencapai tingkat kepercayaan ketika seseorang tidak lagi perlu menjaga tangannya di kemudi dan melihat jalan. Setelah itu, kami mengharapkan persetujuan pengaturan setidaknya di beberapa yurisdiksi pada akhir tahun depan. Ini adalah harapan saya.

Untuk truk, ada kemungkinan bahwa rezim konvoi akan disetujui oleh regulator lebih cepat dari yang lainnya. Mungkin untuk perjalanan jauh Anda dapat menggunakan satu pengemudi di mobil utama, dan 4 truk semi di belakangnya dalam mode konvoi.

Pertanyaan: Saya sangat terkesan dengan peningkatan autopilot. Minggu lalu saya mengendarai mobil di jalur kanan jalan tol, dan ada jalan masuk. Model 3 saya mampu mendeteksi dua mobil memasuki jalan raya dan melambat sehingga satu mobil diam-diam dibangun di depan saya dan yang lain di belakang saya. Lalu saya berpikir, sial, ini gila, saya tidak tahu bahwa Model 3 saya mampu seperti itu.

Tetapi pada minggu yang sama saya mengemudi lagi di jalur kanan, dan ada yang menyempit, jalur kanan saya bergabung dengan kiri. Dan Model 3 saya tidak dapat bereaksi dengan benar, saya harus turun tangan. Bisakah Anda tahu bagaimana Tesla dapat menyelesaikan masalah ini?

Andrew: Saya berbicara tentang infrastruktur pengumpulan data. Jika Anda campur tangan, kemungkinan besar kami mendapat klip ini. Dia masuk ke statistik, misalnya, dengan probabilitas apa kita mengalir ke aliran dengan benar. Kami melihat angka-angka ini, melihat klip, dan kami melihat apa yang salah. Dan kami berusaha untuk memperbaiki perilaku untuk mencapai peningkatan dibandingkan dengan tolok ukur.

Ilon: Ya, kami punya presentasi lain tentang perangkat lunak. Kami memiliki presentasi tentang peralatan dengan Pete, kemudian jaringan saraf dengan Andrey, dan sekarang perangkat lunak dengan Stuart mengikuti.
...

Bagaimana Tesla Mengajarkan Autopilot