Cum se definește un sistem de conducere autonomă de la capăt la capăt?
Cea mai comună definiție este că un sistem „end-to-end” este un sistem care introduce informații brute ale senzorului și emite direct variabilele de interes pentru sarcină. De exemplu, în recunoașterea imaginilor, CNN poate fi numit „end-to-end” în comparație cu metoda tradițională caracteristică + clasificare.
În sarcinile de conducere autonomă, sunt introduse date de la diverși senzori (cum ar fi camere, LiDAR, radar sau IMU...), iar semnalele de control al vehiculului (cum ar fi unghiul de accelerație sau volan) sunt transmise direct. Pentru a lua în considerare problemele de adaptare ale diferitelor modele de vehicule, rezultatul poate fi, de asemenea, relaxat la traiectoria de conducere a vehiculului.
Pe această bază, au apărut și concepte modulare end-to-end, cum ar fi UniAD, care îmbunătățesc performanța prin introducerea de supraveghere a sarcinilor intermediare relevante, pe lângă semnalele finale de control al ieșirii sau punctele de referință. Cu toate acestea, dintr-o definiție atât de restrânsă, esența end-to-end ar trebui să fie transmiterea fără pierderi a informațiilor senzoriale.
Să trecem în revistă mai întâi interfețele dintre modulele de detectare și PnC în sistemele non-end-to-end. De obicei, detectăm obiectele incluse pe lista albă (cum ar fi mașini, oameni etc.) și le analizăm și le anticipăm proprietățile. Învățăm și despre mediul static (cum ar fi structura drumului, limitele de viteză, semafoare etc.). Dacă am fi mai detaliați, am detecta și obstacole universale. Pe scurt, informațiile transmise de aceste percepții constituie un model de afișare a scenelor complexe de condus.
Cu toate acestea, pentru unele scene foarte evidente, abstractizarea explicită actuală nu poate descrie pe deplin factorii care afectează comportamentul de conducere în scenă sau sarcinile pe care trebuie să le definim sunt prea banale și este dificil să enumerăm toate sarcinile necesare. Prin urmare, sistemele end-to-end oferă o reprezentare cuprinzătoare (poate implicit) cu speranța de a acționa automat și fără pierderi asupra PnC-urilor cu aceste informații. În opinia mea, toate sistemele care pot îndeplini această cerință pot fi numite generalizate end-to-end.
În ceea ce privește alte probleme, cum ar fi unele optimizări ale scenariilor de interacțiune dinamică, cred că cel puțin nu numai end-to-end poate rezolva aceste probleme, iar end-to-end poate să nu fie cea mai bună soluție. Metodele tradiționale pot rezolva aceste probleme și, desigur, atunci când cantitatea de date este suficient de mare, end-to-end poate oferi o soluție mai bună.
Câteva neînțelegeri despre conducerea autonomă end-to-end
1. Semnalele de control și punctele de referință trebuie să fie transmise de la capăt la capăt.
Dacă sunteți de acord cu conceptul larg de la capăt la capăt discutat mai sus, atunci această problemă este ușor de înțeles. De la capăt la capăt ar trebui să pună accent pe transmiterea fără pierderi a informațiilor, mai degrabă decât să scoată direct volumul sarcinii. O abordare îngustă de la capăt la capăt va cauza multe probleme inutile și va necesita o mulțime de soluții ascunse pentru a asigura siguranța.
2.Sistemul end-to-end trebuie să se bazeze pe modele mari sau viziune pură.
Nu există nicio legătură necesară între conducerea autonomă end-to-end, conducerea autonomă a modelelor mari și conducerea autonomă pur vizuală, deoarece acestea sunt concepte complet independente; un sistem end-to-end nu este neapărat condus de modele mari și nici nu este condus de viziune pură. de.
3.Pe termen lung, este posibil ca sistemul end-to-end menționat mai sus în sens restrâns să realizeze o conducere autonomă peste nivelul L3?
Performanța a ceea ce se numește în prezent FSD pur end-to-end este departe de a fi suficientă pentru a îndeplini fiabilitatea și stabilitatea cerute la nivelul L3. Pentru a spune mai direct, dacă sistemul de conducere autonomă dorește să fie acceptat de public, cheia este dacă publicul poate accepta că, în unele cazuri, mașina va face greșeli, iar oamenii le pot rezolva cu ușurință. Acest lucru este mai dificil pentru un sistem pur end-to-end.
De exemplu, atât Waymo, cât și Cruise în America de Nord au avut multe accidente. Cu toate acestea, ultimul accident al lui Cruise a rezultat în două răniri, deși astfel de accidente sunt destul de inevitabile și acceptabile pentru șoferii umani. Cu toate acestea, după acest accident, sistemul a apreciat greșit locația accidentului și locația răniților și a retrogradat la modul pull-over, determinând răniții să fie târât pentru o lungă perioadă de timp. Acest comportament este inacceptabil pentru orice șofer uman normal. Nu se va face, iar rezultatele vor fi foarte proaste.
În plus, acesta este un semnal de alarmă pe care ar trebui să luăm în considerare cu atenție cum să evităm această situație în timpul dezvoltării și funcționării sistemelor de conducere autonomă.
4. Deci, în acest moment, care sunt soluțiile practice pentru următoarea generație de sisteme de conducere asistată produse în serie?
Conform înțelegerii mele actuale, atunci când se utilizează așa-numitul model end-to-end în condus, după ieșirea traiectoriei, va returna o soluție bazată pe metode tradiționale. Alternativ, planificatorii bazați pe învățare și algoritmii tradiționali de planificare a traiectoriei produc mai multe traiectorii simultan și apoi selectează o traiectorie printr-un selector.
Acest tip de soluție și alegere ascunsă limitează limita superioară a performanței acestui sistem în cascadă dacă se adoptă această arhitectură de sistem. Dacă această metodă se bazează încă pe învățarea cu feedback pur, vor apărea eșecuri imprevizibile și obiectivul de a fi în siguranță nu va fi atins deloc.
Dacă luăm în considerare reoptimizarea sau selectarea folosind metode tradiționale de planificare pe această traiectorie de ieșire, aceasta este echivalentă cu traiectoria produsă de metoda de învățare; prin urmare, de ce nu optimizăm și căutăm direct această traiectorie?
Desigur, unii oameni ar spune că o astfel de problemă de optimizare sau de căutare este neconvexă, are un spațiu mare de stare și este imposibil de rulat în timp real pe un sistem din vehicul. Îi implor pe toți să ia în considerare cu atenție această întrebare: în ultimii zece ani, sistemul de percepție a primit de cel puțin o sută de ori dividendul puterii de calcul, dar cum rămâne cu modulul nostru PnC?
Dacă permitem și modulului PnC să folosească o putere mare de calcul, combinată cu unele progrese în algoritmii de optimizare avansați din ultimii ani, această concluzie este încă corectă? Pentru acest tip de problemă, ar trebui să luăm în considerare ceea ce este corect din primele principii.
5.Cum să reconciliăm relația dintre metodele bazate pe date și metodele tradiționale?
Jocul de șah este un exemplu foarte asemănător cu conducerea autonomă. În februarie a acestui an, Deepmind a publicat un articol numit „Șah la nivel de mare maestru fără căutare”, discutând dacă este fezabil să se folosească numai bazat pe date și să se abandoneze căutarea MCTS în AlphaGo și AlphaZero. Similar cu conducerea autonomă, o singură rețea este utilizată pentru a transmite direct acțiunile, în timp ce toți pașii următori sunt ignorați.
Articolul concluzionează că, în ciuda cantităților considerabile de date și parametri ai modelului, pot fi obținute rezultate destul de rezonabile fără a utiliza o căutare. Cu toate acestea, există diferențe semnificative în comparație cu metodele care utilizează căutarea. Acest lucru este util în special pentru a face față unor jocuri finale complexe.
Pentru scenarii complexe sau cazuri de colț care necesită jocuri în mai mulți pași, această analogie încă face dificilă abandonarea completă a algoritmilor tradiționali de optimizare sau de căutare. Utilizarea în mod rezonabil a avantajelor diverselor tehnologii precum AlphaZero este cea mai bună modalitate de a îmbunătăți performanța.
6.Metoda tradițională = bazată pe reguli dacă altfel?
A trebuit să corectez acest concept din nou și din nou în timp ce vorbeam cu mulți oameni. Mulți oameni cred că, atâta timp cât nu este bazat exclusiv pe date, nu este bazat pe reguli. De exemplu, în șah, memorarea formulelor și a înregistrărilor de șah se bazează pe reguli, dar, la fel ca AlphaGo și AlphaZero, oferă modelului capacitatea de a fi rațional prin optimizare și căutare. Nu cred că poate fi numit bazat pe reguli.
Din această cauză, modelul mare în sine lipsește în prezent, iar cercetătorii încearcă să ofere un model bazat pe învățare prin metode precum CoT. Cu toate acestea, spre deosebire de sarcinile care necesită recunoaștere pură a imaginii bazată pe date și motive inexplicabile, fiecare acțiune a unei persoane care conduce are o forță motrice clară.
În conformitate cu proiectarea unei arhitecturi algoritmice adecvate, traiectoria deciziei ar trebui să devină variabilă și să fie optimizată uniform sub îndrumarea obiectivelor științifice, mai degrabă decât corecția și ajustarea forțată a parametrilor pentru a remedia diferite cazuri. Un astfel de sistem, în mod natural, nu are tot felul de reguli ciudate hard-coded.
Concluzie
Pe scurt, de la capăt la capăt poate fi o cale tehnică promițătoare, dar modul în care este aplicat conceptul necesită mai multe cercetări. Cred că o grămadă de date și parametri de model nu este singura soluție corectă, iar dacă vrem să îi depășim pe alții, trebuie să continuăm să muncim din greu.
Ora postării: Apr-24-2024