एंड-टू-एंड स्वायत्त ड्रायव्हिंग सिस्टम: भविष्यातील ड्रायव्हिंग

एंड-टू-एंड ऑटोनॉमस ड्रायव्हिंग

एंड-टू-एंड ऑटोनॉमस ड्रायव्हिंग सिस्टमची व्याख्या कशी करावी?

सर्वात सामान्य व्याख्या अशी आहे की "एंड-टू-एंड" सिस्टम ही एक अशी प्रणाली आहे जी कच्ची सेन्सर माहिती इनपुट करते आणि कार्याशी संबंधित व्हेरिएबल्स थेट आउटपुट करते. उदाहरणार्थ, प्रतिमा ओळख मध्ये, पारंपारिक वैशिष्ट्य + वर्गीकरण पद्धतीच्या तुलनेत CNN ला "एंड-टू-एंड" म्हटले जाऊ शकते.

 

स्वायत्त ड्रायव्हिंग कार्यांमध्ये, विविध सेन्सर्समधील डेटा (जसे की कॅमेरा, LiDAR, रडार किंवा IMU...) इनपुट असतात आणि वाहन नियंत्रण सिग्नल (जसे की थ्रॉटल किंवा स्टीयरिंग व्हील अँगल) थेट आउटपुट असतात. वेगवेगळ्या वाहन मॉडेल्सच्या अनुकूलन समस्यांवर विचार करण्यासाठी, आउटपुट वाहनाच्या ड्रायव्हिंग प्रक्षेपणावर देखील शिथिल केले जाऊ शकते.

 

या पायावर आधारित, मॉड्यूलर एंड-टू-एंड संकल्पना देखील उदयास आल्या आहेत, जसे की UniAD, जे अंतिम आउटपुट कंट्रोल सिग्नल किंवा वेपॉइंट्स व्यतिरिक्त, संबंधित मध्यवर्ती कार्यांचे पर्यवेक्षण सादर करून कार्यप्रदर्शन सुधारतात. तथापि, अशा संकुचित व्याख्येवरून, अंत-टू-एंडचे सार संवेदी माहितीचे दोषरहित प्रसारण असावे.

 

प्रथम आपण नॉन-एंड-टू-एंड सिस्टममधील सेन्सिंग आणि PnC मॉड्यूल्समधील इंटरफेसचे पुनरावलोकन करूया. सहसा, आम्ही श्वेतसूचीबद्ध वस्तू (जसे की कार, लोक इ.) शोधतो आणि त्यांच्या गुणधर्मांचे विश्लेषण करतो आणि अंदाज लावतो. आम्ही स्थिर वातावरणाबद्दल देखील शिकतो (जसे की रस्त्याची रचना, वेग मर्यादा, रहदारी दिवे इ.). आम्ही अधिक तपशीलवार असल्यास, आम्ही सार्वत्रिक अडथळे देखील शोधू शकू. थोडक्यात, या धारणांद्वारे माहिती आउटपुट जटिल ड्रायव्हिंग दृश्यांचे प्रदर्शन मॉडेल बनवते.

 

तथापि, काही अगदी स्पष्ट दृश्यांसाठी, वर्तमान स्पष्ट अमूर्तता दृश्यातील ड्रायव्हिंग वर्तनावर परिणाम करणाऱ्या घटकांचे पूर्णपणे वर्णन करू शकत नाही किंवा आम्हाला परिभाषित करणे आवश्यक असलेली कार्ये खूप क्षुल्लक आहेत आणि सर्व आवश्यक कार्यांची गणना करणे कठीण आहे. म्हणून, एंड-टू-एंड सिस्टम या माहितीसह PnCs वर आपोआप आणि तोटाशिवाय कार्य करण्याच्या आशेसह (कदाचित गर्भितपणे) सर्वसमावेशक प्रतिनिधित्व प्रदान करतात. माझ्या मते, ही आवश्यकता पूर्ण करू शकतील अशा सर्व प्रणालींना सामान्यीकृत एंड-टू-एंड म्हटले जाऊ शकते.

 

इतर समस्यांबद्दल, जसे की डायनॅमिक परस्परसंवाद परिस्थितीचे काही ऑप्टिमायझेशन, माझा विश्वास आहे की किमान केवळ एंड-टू-एंड या समस्या सोडवू शकत नाहीत आणि एंड-टू-एंड हा सर्वोत्तम उपाय असू शकत नाही. पारंपारिक पद्धती या समस्यांचे निराकरण करू शकतात आणि अर्थातच, जेव्हा डेटाचे प्रमाण पुरेसे मोठे असते, तेव्हा एंड-टू-एंड एक चांगला उपाय देऊ शकतो.

एंड-टू-एंड ऑटोनॉमस ड्रायव्हिंगबद्दल काही गैरसमज

1. कंट्रोल सिग्नल आणि वेपॉइंट्स एंड-टू-एंड आउटपुट असणे आवश्यक आहे.

आपण वर चर्चा केलेल्या विस्तृत एंड-टू-एंड संकल्पनेशी सहमत असल्यास, ही समस्या समजून घेणे सोपे आहे. एंड-टू-एंडने टास्क व्हॉल्यूम थेट आउटपुट करण्याऐवजी माहितीच्या लॉसलेस ट्रान्समिशनवर जोर दिला पाहिजे. एक अरुंद एंड-टू-एंड दृष्टीकोन खूप अनावश्यक त्रास देईल आणि सुरक्षितता सुनिश्चित करण्यासाठी बरेच गुप्त उपाय आवश्यक आहेत.

2.एंड-टू-एंड सिस्टम मोठ्या मॉडेल किंवा शुद्ध दृष्टीवर आधारित असणे आवश्यक आहे.

एंड-टू-एंड ऑटोनॉमस ड्रायव्हिंग, लार्ज-मॉडेल ऑटोनॉमस ड्रायव्हिंग आणि पूर्णपणे व्हिज्युअल ऑटोनॉमस ड्रायव्हिंग यांच्यात कोणताही आवश्यक संबंध नाही कारण त्या पूर्णपणे स्वतंत्र संकल्पना आहेत; एण्ड-टू-एंड सिस्टम मोठ्या मॉडेल्सद्वारे चालविली जात नाही किंवा ती शुद्ध दृष्टीद्वारे चालविली जात नाही. च्या

एंड-टू-एंड स्वायत्त ड्रायव्हिंग संशोधन आणि विकास प्रणाली

3.दीर्घकाळात, वर नमूद केलेल्या एंड-टू-एंड सिस्टमला संकुचित अर्थाने L3 पातळीच्या वर स्वायत्त वाहन चालवणे शक्य आहे का?

 

सध्या ज्याला शुद्ध एंड-टू-एंड FSD म्हणतात त्याची कामगिरी L3 स्तरावर आवश्यक विश्वासार्हता आणि स्थिरता पूर्ण करण्यासाठी पुरेशी नाही. अधिक स्पष्टपणे सांगायचे तर, जर सेल्फ-ड्रायव्हिंग सिस्टीम जनतेला स्वीकारायची असेल तर, काही प्रकरणांमध्ये, यंत्र चुका करेल आणि मानव त्या सहजपणे सोडवू शकेल हे जनता स्वीकारू शकेल की नाही हे महत्त्वाचे आहे. शुद्ध एंड-टू-एंड सिस्टमसाठी हे अधिक कठीण आहे.

 

उदाहरणार्थ, उत्तर अमेरिकेतील Waymo आणि Cruise या दोघांनाही अनेक अपघात झाले आहेत. तथापि, क्रूझच्या शेवटच्या अपघातात दोन जखमी झाले, जरी असे अपघात मानवी ड्रायव्हर्ससाठी अपरिहार्य आणि स्वीकार्य आहेत. तथापि, या अपघातानंतर, यंत्रणेने अपघाताचे ठिकाण आणि जखमींचे स्थान चुकीचे ठरवले आणि पुल-ओव्हर मोडमध्ये डाउनग्रेड केले, ज्यामुळे जखमींना बराच वेळ ओढले गेले. हे वर्तन कोणत्याही सामान्य मानवी ड्रायव्हरला अस्वीकार्य आहे. हे केले जाणार नाही, आणि परिणाम खूप वाईट होतील.

 

शिवाय, हा एक वेक-अप कॉल आहे की आम्ही स्वायत्त ड्रायव्हिंग सिस्टमच्या विकास आणि ऑपरेशन दरम्यान ही परिस्थिती कशी टाळायची याचा काळजीपूर्वक विचार केला पाहिजे.

4.तर या क्षणी, पुढच्या पिढीसाठी मोठ्या प्रमाणात उत्पादित असिस्टेड ड्रायव्हिंग सिस्टमसाठी व्यावहारिक उपाय काय आहेत?

 

माझ्या सध्याच्या समजुतीनुसार, ड्रायव्हिंगमध्ये तथाकथित एंड-टू-एंड मॉडेल वापरताना, ट्रॅजेक्टोरी आउटपुट केल्यानंतर, ते पारंपारिक पद्धतींवर आधारित समाधान देईल. वैकल्पिकरित्या, लर्निंग-आधारित प्लॅनर आणि पारंपारिक मार्ग नियोजन अल्गोरिदम एकाच वेळी अनेक मार्ग आउटपुट करतात आणि नंतर निवडकर्त्याद्वारे एक मार्ग निवडा.

 

या प्रणाली आर्किटेक्चरचा अवलंब केल्यास या प्रकारचे गुप्त समाधान आणि निवड या कॅस्केड सिस्टमच्या कार्यक्षमतेची वरची मर्यादा मर्यादित करते. ही पद्धत अजूनही शुद्ध अभिप्राय शिक्षणावर आधारित असल्यास, अप्रत्याशित अपयश येतील आणि सुरक्षित राहण्याचे ध्येय अजिबात साध्य होणार नाही.

 

जर आपण या आउटपुट मार्गावर पारंपारिक नियोजन पद्धती वापरून पुन्हा-ऑप्टिमाइझ करणे किंवा निवडण्याचा विचार केला, तर हे शिक्षण-चालित पद्धतीद्वारे तयार केलेल्या प्रक्षेपकाच्या समतुल्य आहे; म्हणून, आम्ही थेट ऑप्टिमाइझ आणि या मार्गाचा शोध का करत नाही?

 

अर्थात, काही लोक असे म्हणतील की अशी ऑप्टिमायझेशन किंवा शोध समस्या नॉन-कन्व्हेक्स आहे, मोठ्या स्टेट स्पेस आहे आणि इन-व्हेइकल सिस्टमवर रिअल-टाइममध्ये चालवणे अशक्य आहे. मी प्रत्येकाने या प्रश्नाचा काळजीपूर्वक विचार करण्याची विनंती करतो: गेल्या दहा वर्षांत, आकलन प्रणालीला संगणकीय शक्तीच्या किमान शंभर पट लाभांश मिळाला आहे, परंतु आमच्या PnC मॉड्यूलचे काय?

 

जर आम्ही PnC मॉड्यूलला अलिकडच्या वर्षांत प्रगत ऑप्टिमायझेशन अल्गोरिदममधील काही प्रगतीसह मोठ्या संगणकीय शक्तीचा वापर करण्यास परवानगी दिली, तर हा निष्कर्ष अजूनही बरोबर आहे का? या प्रकारच्या समस्येसाठी, आपण पहिल्या तत्त्वांमधून काय बरोबर आहे याचा विचार केला पाहिजे.

5. डेटा-चालित आणि पारंपारिक पद्धतींमधील संबंध कसे जुळवायचे?

 

बुद्धिबळ खेळणे हे स्वायत्त ड्रायव्हिंगसारखेच एक उदाहरण आहे. या वर्षीच्या फेब्रुवारीमध्ये, Deepmind ने "Grandmaster-Level Chess Without Search" नावाचा लेख प्रकाशित केला, ज्यामध्ये AlphaGo आणि AlphaZero मध्ये फक्त डेटा-चालित वापरणे आणि MCTS शोध सोडून देणे व्यवहार्य आहे का यावर चर्चा केली. स्वायत्त ड्रायव्हिंग प्रमाणेच, थेट आउटपुट क्रिया करण्यासाठी फक्त एक नेटवर्क वापरले जाते, तर त्यानंतरच्या सर्व चरणांकडे दुर्लक्ष केले जाते.

 

लेखाचा निष्कर्ष असा आहे की, मोठ्या प्रमाणात डेटा आणि मॉडेल पॅरामीटर्स असूनही, शोध न वापरता वाजवी परिणाम मिळू शकतात. तथापि, शोध वापरण्याच्या पद्धतींच्या तुलनेत लक्षणीय फरक आहेत. काही जटिल एंडगेम्स हाताळण्यासाठी हे विशेषतः उपयुक्त आहे.

 

जटिल परिस्थिती किंवा कॉर्नर केसेससाठी ज्यांना मल्टी-स्टेप गेमची आवश्यकता असते, हे सादृश्य अजूनही पारंपारिक ऑप्टिमायझेशन किंवा शोध अल्गोरिदम पूर्णपणे सोडून देणे कठीण करते. AlphaZero सारख्या विविध तंत्रज्ञानाच्या फायद्यांचा वाजवीपणे वापर करणे हा कार्यप्रदर्शन सुधारण्याचा सर्वोत्तम मार्ग आहे.

वाहन नियंत्रण

6.पारंपारिक पद्धत = नियमावर आधारित असल्यास?

 

अनेक लोकांशी बोलताना मला ही संकल्पना पुन्हा पुन्हा दुरुस्त करावी लागली. बर्याच लोकांचा असा विश्वास आहे की जोपर्यंत तो पूर्णपणे डेटा-चालित नाही तोपर्यंत तो नियम-आधारित नाही. उदाहरणार्थ, बुद्धिबळात, रॉटद्वारे सूत्रे आणि बुद्धिबळ रेकॉर्ड लक्षात ठेवणे नियम-आधारित आहे, परंतु AlphaGo आणि AlphaZero प्रमाणे, हे मॉडेलला ऑप्टिमायझेशन आणि शोधाद्वारे तर्कसंगत बनण्याची क्षमता देते. याला नियमाधारित म्हणता येईल असे मला वाटत नाही.

 

यामुळे, मोठे मॉडेल सध्या गहाळ आहे आणि संशोधक CoT सारख्या पद्धतींद्वारे शिकण्यावर आधारित मॉडेल प्रदान करण्याचा प्रयत्न करीत आहेत. तथापि, शुद्ध डेटा-चालित प्रतिमा ओळख आणि स्पष्ट न करता येण्याजोग्या कारणांची आवश्यकता असलेल्या कार्यांच्या विपरीत, वाहन चालवणाऱ्या व्यक्तीच्या प्रत्येक कृतीमध्ये स्पष्ट प्रेरक शक्ती असते.

 

योग्य अल्गोरिदम आर्किटेक्चर डिझाइन अंतर्गत, वेगवेगळ्या प्रकरणांचे निराकरण करण्यासाठी पॅरामीटर्स जबरदस्तीने पॅचिंग आणि समायोजित करण्याऐवजी, निर्णयाचा मार्ग परिवर्तनीय झाला पाहिजे आणि वैज्ञानिक उद्दिष्टांच्या मार्गदर्शनाखाली समान रीतीने ऑप्टिमाइझ केला गेला पाहिजे. अशा प्रणालीमध्ये नैसर्गिकरित्या सर्व प्रकारचे हार्ड-कोड केलेले विचित्र नियम नसतात.

निष्कर्ष

थोडक्यात, एंड-टू-एंड हा एक आश्वासक तांत्रिक मार्ग असू शकतो, परंतु संकल्पना कशी लागू केली जाते यासाठी अधिक संशोधन आवश्यक आहे. मला वाटते की डेटा आणि मॉडेल पॅरामीटर्सचा एक समूह हा एकमेव योग्य उपाय नाही आणि जर आपल्याला इतरांना मागे टाकायचे असेल तर आपल्याला कठोर परिश्रम करत राहावे लागेल.


पोस्ट वेळ: एप्रिल-२४-२०२४