Bagaimana mendefinisikan sistem penggerak otonom ujung ke ujung?
Definisi yang paling umum adalah bahwa sistem "end-to-end" adalah sistem yang memasukkan informasi sensor mentah dan secara langsung mengeluarkan variabel-variabel yang menjadi perhatian tugas tersebut. Misalnya, dalam pengenalan gambar, CNN dapat disebut "end-to-end" dibandingkan dengan metode fitur + pengklasifikasi tradisional.
Dalam tugas mengemudi otonom, data dari berbagai sensor (seperti kamera, LiDAR, Radar, atau IMU...) dimasukkan, dan sinyal kontrol kendaraan (seperti throttle atau sudut roda kemudi) langsung dikeluarkan. Untuk mempertimbangkan masalah adaptasi model kendaraan yang berbeda, keluarannya juga dapat disesuaikan dengan lintasan berkendara kendaraan.
Berdasarkan landasan ini, konsep modular end-to-end juga telah muncul, seperti UniAD, yang meningkatkan kinerja dengan memperkenalkan pengawasan terhadap tugas-tugas perantara yang relevan, selain sinyal kontrol keluaran akhir atau titik arah. Namun, dari definisi yang sempit tersebut, inti dari end-to-end seharusnya adalah transmisi informasi sensorik yang lossless.
Pertama-tama mari kita tinjau antarmuka antara modul penginderaan dan PnC dalam sistem non-end-to-end. Biasanya, kami mendeteksi objek yang masuk daftar putih (seperti mobil, orang, dll.) dan menganalisis serta memprediksi propertinya. Kita juga belajar tentang lingkungan statis (seperti struktur jalan, batas kecepatan, lampu lalu lintas, dll). Jika kami lebih detail, kami juga akan mendeteksi hambatan universal. Singkatnya, informasi yang dihasilkan oleh persepsi ini merupakan model tampilan adegan berkendara yang kompleks.
Namun, untuk beberapa adegan yang sangat jelas, abstraksi eksplisit saat ini tidak dapat sepenuhnya menggambarkan faktor-faktor yang mempengaruhi perilaku mengemudi dalam adegan tersebut, atau tugas yang perlu kita definisikan terlalu sepele, dan sulit untuk menyebutkan semua tugas yang diperlukan. Oleh karena itu, sistem end-to-end memberikan representasi komprehensif (mungkin secara implisit) dengan harapan dapat bertindak secara otomatis dan tanpa kerugian pada PnC dengan informasi ini. Menurut pendapat saya, semua sistem yang dapat memenuhi persyaratan ini dapat disebut generalized end-to-end.
Mengenai masalah lainnya, seperti beberapa optimalisasi skenario interaksi dinamis, saya yakin setidaknya tidak hanya end-to-end yang dapat menyelesaikan masalah ini, dan end-to-end mungkin bukan solusi terbaik. Metode tradisional dapat mengatasi masalah ini, dan tentu saja, jika jumlah data cukup besar, end-to-end dapat memberikan solusi yang lebih baik.
Beberapa kesalahpahaman tentang mengemudi otonom ujung ke ujung
1. Sinyal kontrol dan titik jalan harus dikeluarkan secara end-to-end.
Jika Anda setuju dengan konsep luas end-to-end yang dibahas di atas, maka masalah ini mudah untuk dipahami. End-to-end harus menekankan transmisi informasi yang lossless daripada mengeluarkan volume tugas secara langsung. Pendekatan sempit dan menyeluruh akan menyebabkan banyak masalah yang tidak perlu dan memerlukan banyak solusi terselubung untuk menjamin keamanan.
2. Sistem end-to-end harus didasarkan pada model besar atau visi murni.
Tidak ada hubungan yang diperlukan antara mengemudi otonom ujung ke ujung, mengemudi otonom model besar, dan mengemudi otonom visual murni karena keduanya merupakan konsep yang sepenuhnya independen; sistem end-to-end tidak harus didorong oleh model yang besar, juga tidak harus didorong oleh visi murni. dari.
3. Dalam jangka panjang, apakah mungkin sistem end-to-end yang disebutkan di atas dalam arti sempit mencapai pengemudian otonom di atas level L3?
Performa dari apa yang saat ini disebut FSD end-to-end murni masih jauh dari cukup untuk memenuhi keandalan dan stabilitas yang dibutuhkan pada level L3. Terus terang, jika sistem self-driving ingin diterima masyarakat, kuncinya adalah apakah masyarakat bisa menerima bahwa dalam beberapa kasus, mesin akan melakukan kesalahan, dan manusia bisa dengan mudah menyelesaikannya. Hal ini lebih sulit dilakukan pada sistem end-to-end yang murni.
Misalnya, Waymo dan Cruise di Amerika Utara mengalami banyak kecelakaan. Namun, kecelakaan terakhir Cruise mengakibatkan dua orang cedera, meskipun kecelakaan tersebut tidak dapat dihindari dan dapat diterima oleh pengemudi manusia. Namun, setelah kecelakaan ini, sistem salah menilai lokasi kecelakaan dan lokasi korban luka serta diturunkan ke mode pull-over sehingga menyebabkan korban luka terseret dalam waktu lama. Perilaku ini tidak dapat diterima oleh pengemudi manusia normal mana pun. Ini tidak akan dilakukan, dan hasilnya akan sangat buruk.
Selain itu, ini adalah peringatan bahwa kita harus mempertimbangkan dengan cermat bagaimana menghindari situasi ini selama pengembangan dan pengoperasian sistem mengemudi otonom.
4. Jadi pada saat ini, apa solusi praktis untuk sistem mengemudi berbantuan generasi berikutnya yang diproduksi secara massal?
Menurut pemahaman saya saat ini, ketika menggunakan apa yang disebut model end-to-end dalam berkendara, setelah mengeluarkan lintasan, solusi akan dikembalikan berdasarkan metode tradisional. Alternatifnya, perencana berbasis pembelajaran dan algoritma perencanaan lintasan tradisional mengeluarkan beberapa lintasan secara bersamaan dan kemudian memilih satu lintasan melalui selektor.
Solusi dan pilihan terselubung semacam ini membatasi batas atas kinerja sistem kaskade jika arsitektur sistem ini diadopsi. Jika metode ini masih didasarkan pada pembelajaran umpan balik murni, maka akan terjadi kegagalan yang tidak dapat diprediksi dan tujuan aman tidak akan tercapai sama sekali.
Jika kita mempertimbangkan untuk mengoptimalkan kembali atau memilih menggunakan metode perencanaan tradisional pada lintasan keluaran ini, hal ini setara dengan lintasan yang dihasilkan oleh metode berbasis pembelajaran; oleh karena itu, mengapa kita tidak langsung mengoptimalkan dan mencari lintasan ini?
Tentu saja, beberapa orang akan mengatakan bahwa masalah optimasi atau pencarian seperti itu bersifat non-cembung, memiliki state space yang besar, dan tidak mungkin dijalankan secara real-time pada sistem di dalam kendaraan. Saya mohon semua orang untuk mempertimbangkan pertanyaan ini dengan cermat: Dalam sepuluh tahun terakhir, sistem persepsi telah menerima setidaknya seratus kali lipat dividen daya komputasi, tetapi bagaimana dengan modul PnC kita?
Jika kita juga mengizinkan modul PnC menggunakan daya komputasi yang besar, dikombinasikan dengan beberapa kemajuan dalam algoritma pengoptimalan tingkat lanjut dalam beberapa tahun terakhir, apakah kesimpulan ini masih benar? Untuk masalah seperti ini, kita harus mempertimbangkan apa yang benar dari prinsip pertama.
5.Bagaimana cara menyelaraskan hubungan antara metode berbasis data dan metode tradisional?
Bermain catur adalah contoh yang sangat mirip dengan mengemudi secara otonom. Pada bulan Februari tahun ini, Deepmind menerbitkan sebuah artikel berjudul "Catur Tingkat Grandmaster Tanpa Pencarian", membahas apakah layak untuk hanya menggunakan pencarian berbasis data dan mengabaikan pencarian MCTS di AlphaGo dan AlphaZero. Mirip dengan mengemudi otonom, hanya satu jaringan yang digunakan untuk mengeluarkan tindakan secara langsung, sementara semua langkah berikutnya diabaikan.
Artikel tersebut menyimpulkan bahwa, meskipun terdapat banyak data dan parameter model, hasil yang cukup masuk akal dapat diperoleh tanpa menggunakan penelusuran. Namun terdapat perbedaan yang signifikan jika dibandingkan dengan metode yang menggunakan pencarian. Hal ini sangat berguna untuk menangani beberapa permainan akhir yang kompleks.
Untuk skenario kompleks atau kasus sudut yang memerlukan permainan multi-langkah, analogi ini masih menyulitkan untuk sepenuhnya meninggalkan algoritme pengoptimalan atau penelusuran tradisional. Memanfaatkan keunggulan berbagai teknologi seperti AlphaZero secara wajar adalah cara terbaik untuk meningkatkan kinerja.
6.Metode tradisional = berbasis aturan jika lain?
Saya harus mengoreksi konsep ini berulang kali saat berbicara dengan banyak orang. Banyak orang percaya bahwa selama hal tersebut tidak semata-mata berdasarkan data, maka hal tersebut tidak berdasarkan aturan. Misalnya, dalam catur, menghafal rumus dan catatan catur berdasarkan aturan, tetapi seperti AlphaGo dan AlphaZero, hal ini memberi model kemampuan untuk bersikap rasional melalui pengoptimalan dan pencarian. Menurut saya ini tidak bisa disebut berdasarkan aturan.
Oleh karena itu, model besar itu sendiri saat ini belum ada, dan para peneliti mencoba menyediakan model berbasis pembelajaran melalui metode seperti CoT. Namun, tidak seperti tugas yang memerlukan pengenalan gambar murni berdasarkan data dan alasan yang tidak dapat dijelaskan, setiap tindakan seseorang yang mengemudi memiliki kekuatan pendorong yang jelas.
Di bawah desain arsitektur algoritme yang sesuai, lintasan keputusan harus menjadi variabel dan dioptimalkan secara seragam di bawah panduan tujuan ilmiah, daripada secara paksa menambal dan menyesuaikan parameter untuk memperbaiki kasus yang berbeda. Sistem seperti itu secara alami tidak memiliki semua jenis aturan aneh yang dikodekan secara keras.
Kesimpulan
Singkatnya, end-to-end mungkin merupakan jalur teknis yang menjanjikan, namun bagaimana konsep ini diterapkan memerlukan lebih banyak penelitian. Menurut saya sekumpulan data dan parameter model bukanlah satu-satunya solusi yang tepat, dan jika kita ingin mengungguli yang lain, kita harus terus bekerja keras.
Waktu posting: 24 April-2024