Com definir un sistema de conducció autònoma d'extrem a extrem?
La definició més comuna és que un sistema "extrem a extrem" és un sistema que introdueix informació bruta del sensor i produeix directament les variables d'interès per a la tasca. Per exemple, en el reconeixement d'imatges, la CNN es pot anomenar "extrem a extrem" en comparació amb el mètode tradicional de funció + classificador.
En tasques de conducció autònoma, s'introdueixen dades de diversos sensors (com ara càmeres, LiDAR, Radar o IMU...) i s'emeten directament els senyals de control del vehicle (com l'accelerador o l'angle del volant). Per tenir en compte els problemes d'adaptació dels diferents models de vehicles, la sortida també es pot relaxar a la trajectòria de conducció del vehicle.
A partir d'aquesta base, també han sorgit conceptes modulars d'extrem a extrem, com UniAD, que milloren el rendiment introduint la supervisió de les tasques intermèdies rellevants, a més dels senyals de control de sortida finals o punts d'interès. Tanmateix, a partir d'una definició tan estreta, l'essència d'extrem a extrem hauria de ser la transmissió sense pèrdues d'informació sensorial.
Anem a revisar primer les interfícies entre els mòduls de detecció i PnC en sistemes que no són extrem a extrem. Normalment, detectem objectes a la llista blanca (com ara cotxes, persones, etc.) i analitzem i predim les seves propietats. També coneixem l'entorn estàtic (com l'estructura de la carretera, els límits de velocitat, els semàfors, etc.). Si fóssim més detallats, també detectaríem obstacles universals. En resum, la informació generada per aquestes percepcions constitueix un model de visualització d'escenes de conducció complexes.
Tanmateix, per a algunes escenes molt òbvies, l'abstracció explícita actual no pot descriure completament els factors que afecten el comportament de conducció a l'escena, o les tasques que hem de definir són massa trivials, i és difícil enumerar totes les tasques requerides. Per tant, els sistemes d'extrem a extrem proporcionen una representació completa (potser implícita) amb l'esperança d'actuar automàticament i sense pèrdues sobre les PnC amb aquesta informació. Al meu entendre, tots els sistemes que poden complir aquest requisit es poden anomenar extrem a extrem generalitzats.
Pel que fa a altres qüestions, com ara algunes optimitzacions d'escenaris d'interacció dinàmica, crec que almenys no només d'extrem a extrem pot resoldre aquests problemes, i d'extrem a extrem potser no és la millor solució. Els mètodes tradicionals poden resoldre aquests problemes i, per descomptat, quan la quantitat de dades és prou gran, l'extrem a extrem pot proporcionar una millor solució.
Alguns malentesos sobre la conducció autònoma d'extrem a extrem
1. Els senyals de control i els waypoints s'han de sortir d'extrem a extrem.
Si esteu d'acord amb el concepte ampli d'extrem a extrem comentat anteriorment, aquest problema és fàcil d'entendre. L'extrem a extrem hauria de posar èmfasi en la transmissió d'informació sense pèrdues en lloc de donar sortida directament al volum de la tasca. Un enfocament estret d'extrem a extrem causarà molts problemes innecessaris i requerirà moltes solucions encobertes per garantir la seguretat.
2.El sistema d'extrem a extrem s'ha de basar en grans models o visió pura.
No hi ha cap connexió necessària entre la conducció autònoma d'extrem a extrem, la conducció autònoma de grans models i la conducció autònoma purament visual perquè són conceptes completament independents; un sistema d'extrem a extrem no està necessàriament impulsat per grans models, ni necessàriament és impulsat per una visió pura. de.
3.A la llarga, és possible que el sistema d'extrem a extrem esmentat en un sentit estricte assoleixi una conducció autònoma per sobre del nivell L3?
El rendiment del que actualment s'anomena FSD pur d'extrem a extrem està lluny de ser suficient per satisfer la fiabilitat i l'estabilitat requerides al nivell L3. Per dir-ho de manera més clara, si el sistema de conducció autònoma vol ser acceptat pel públic, la clau és si el públic pot acceptar que, en alguns casos, la màquina cometi errors i els humans els poden resoldre fàcilment. Això és més difícil per a un sistema pur d'extrem a extrem.
Per exemple, tant Waymo com Cruise a Amèrica del Nord han tingut molts accidents. Tanmateix, l'últim accident de Cruise va provocar dos ferits, tot i que aquests accidents són força inevitables i acceptables per als conductors humans. No obstant això, després d'aquest accident, el sistema va valorar malament la ubicació de l'accident i la ubicació dels ferits i es va rebaixar al mode pull-over, fent que els ferits fossin arrossegats durant molt de temps. Aquest comportament és inacceptable per a qualsevol conductor humà normal. No es farà, i els resultats seran molt dolents.
A més, es tracta d'una crida d'atenció que hauríem de considerar detingudament com evitar aquesta situació durant el desenvolupament i funcionament dels sistemes de conducció autònoma.
4.En aquest moment, quines són les solucions pràctiques per a la propera generació de sistemes de conducció assistida produïts en sèrie?
Segons la meva comprensió actual, quan s'utilitza l'anomenat model d'extrem a extrem a la conducció, després d'emetre la trajectòria, retornarà una solució basada en mètodes tradicionals. Alternativament, els planificadors basats en l'aprenentatge i els algorismes de planificació de trajectòries tradicionals generen múltiples trajectòries simultàniament i després seleccionen una trajectòria mitjançant un selector.
Aquest tipus de solució i elecció encobertes limita el límit superior del rendiment d'aquest sistema en cascada si s'adopta aquesta arquitectura del sistema. Si aquest mètode encara es basa en un pur aprenentatge de retroalimentació, es produiran fracassos imprevisibles i no s'aconseguirà en absolut l'objectiu de ser segur.
Si considerem la reoptimització o la selecció utilitzant mètodes de planificació tradicionals en aquesta trajectòria de sortida, això és equivalent a la trajectòria produïda pel mètode d'aprenentatge; per tant, per què no optimitzem i cerquem directament aquesta trajectòria?
Per descomptat, algunes persones dirien que aquest problema d'optimització o de cerca no és convex, té un gran espai d'estats i és impossible d'executar-se en temps real en un sistema dins del vehicle. Imploro a tothom que consideri atentament aquesta pregunta: en els últims deu anys, el sistema de percepció ha rebut almenys cent vegades el dividend de la potència de càlcul, però què passa amb el nostre mòdul PnC?
Si també permetem que el mòdul PnC utilitzi una gran potència de càlcul, combinada amb alguns avenços en algorismes avançats d'optimització dels darrers anys, aquesta conclusió encara és correcta? Per a aquest tipus de problemes, hauríem de considerar què és correcte des dels primers principis.
5.Com conciliar la relació entre mètodes basats en dades i mètodes tradicionals?
Jugar als escacs és un exemple molt semblant a la conducció autònoma. Al febrer d'aquest any, Deepmind va publicar un article anomenat "Grandmaster-Level Chess Without Search", on es discutia si només és factible utilitzar la cerca basada en dades i abandonar la cerca MCTS a AlphaGo i AlphaZero. De manera similar a la conducció autònoma, només s'utilitza una xarxa per generar accions directament, mentre que s'ignoren tots els passos posteriors.
L'article conclou que, malgrat una quantitat considerable de dades i paràmetres del model, es poden obtenir resultats força raonables sense utilitzar una cerca. Tanmateix, hi ha diferències significatives en comparació amb els mètodes que utilitzen la cerca. Això és especialment útil per fer front a alguns jocs finals complexos.
Per a escenaris complexos o casos de cantonada que requereixen jocs de diversos passos, aquesta analogia encara fa que sigui difícil abandonar completament els algorismes d'optimització o de cerca tradicionals. Utilitzar raonablement els avantatges de diverses tecnologies com AlphaZero és la millor manera de millorar el rendiment.
6.Mètode tradicional = basat en regles si més?
He hagut de corregir aquest concepte una i altra vegada mentre parlava amb molta gent. Molta gent creu que, sempre que no estigui basat exclusivament en dades, no es basa en regles. Per exemple, als escacs, memoritzar fórmules i registres d'escacs de memòria es basa en regles, però igual que AlphaGo i AlphaZero, dóna al model la capacitat de ser racional mitjançant l'optimització i la cerca. No crec que es pugui anomenar basat en regles.
A causa d'això, actualment falta el gran model en si, i els investigadors estan intentant proporcionar un model impulsat per l'aprenentatge mitjançant mètodes com el CoT. Tanmateix, a diferència de les tasques que requereixen un reconeixement d'imatges basat en dades i raons inexplicables, cada acció d'una persona que condueix té una força motriu clara.
Sota el disseny d'arquitectura d'algorisme adequat, la trajectòria de decisió hauria de ser variable i optimitzar-se de manera uniforme sota la guia d'objectius científics, en lloc d'aplicar i ajustar paràmetres a la força per solucionar diferents casos. Aquest sistema, naturalment, no té tot tipus de regles estranyes codificades en dur.
Conclusió
En resum, l'extrem a extrem pot ser una via tècnica prometedora, però com s'aplica el concepte requereix més investigació. Crec que un munt de dades i paràmetres de model no és l'única solució correcta, i si volem superar-ne d'altres, hem de seguir treballant dur.
Hora de publicació: 24-abril-2024