Come definire un sistema di guida autonoma end-to-end?
La definizione più comune è che un sistema "end-to-end" è un sistema che immette informazioni grezze sui sensori e restituisce direttamente variabili rilevanti per l'attività. Ad esempio, nel riconoscimento delle immagini, la CNN può essere chiamata "end-to-end" rispetto al tradizionale metodo funzionalità + classificatore.
Nelle attività di guida autonoma, vengono immessi i dati provenienti da vari sensori (come telecamere, LiDAR, radar o IMU...) e vengono emessi direttamente i segnali di controllo del veicolo (come l'acceleratore o l'angolo del volante). Per considerare i problemi di adattamento dei diversi modelli di veicoli, l'output può anche essere adattato alla traiettoria di guida del veicolo.
Sulla base di queste basi sono emersi anche concetti modulari end-to-end, come UniAD, che migliorano le prestazioni introducendo la supervisione di compiti intermedi rilevanti, oltre ai segnali di controllo o waypoint di uscita finali. Tuttavia, da una definizione così ristretta, l'essenza dell'end-to-end dovrebbe essere la trasmissione senza perdite di informazioni sensoriali.
Esaminiamo innanzitutto le interfacce tra moduli di rilevamento e PnC nei sistemi non end-to-end. Di solito, rileviamo gli oggetti inseriti nella whitelist (come automobili, persone, ecc.) e analizziamo e prevediamo le loro proprietà. Impariamo anche a conoscere l'ambiente statico (come la struttura stradale, i limiti di velocità, i semafori, ecc.). Se fossimo più dettagliati, rileveremmo anche ostacoli universali. In breve, l'informazione prodotta da queste percezioni costituisce un modello di visualizzazione di scene di guida complesse.
Tuttavia, per alcune scene molto ovvie, l’attuale astrazione esplicita non può descrivere completamente i fattori che influenzano il comportamento di guida nella scena, oppure i compiti che dobbiamo definire sono troppo banali ed è difficile enumerare tutti i compiti richiesti. Pertanto, i sistemi end-to-end forniscono una rappresentazione completa (forse implicitamente) con la speranza di agire automaticamente e senza perdite sui PnC con queste informazioni. A mio avviso, tutti i sistemi in grado di soddisfare questo requisito possono essere definiti end-to-end generalizzati.
Per quanto riguarda altri problemi, come alcune ottimizzazioni degli scenari di interazione dinamica, credo che almeno non solo l'end-to-end possa risolvere questi problemi, e l'end-to-end potrebbe non essere la soluzione migliore. I metodi tradizionali possono risolvere questi problemi e, naturalmente, quando la quantità di dati è sufficientemente grande, il metodo end-to-end può fornire una soluzione migliore.
Alcuni malintesi sulla guida autonoma end-to-end
1. I segnali di controllo e i waypoint devono essere emessi in modo end-to-end.
Se sei d'accordo con il concetto ampio di end-to-end discusso sopra, allora questo problema è facile da capire. L'end-to-end dovrebbe enfatizzare la trasmissione senza perdite di informazioni piuttosto che l'output diretto del volume delle attività. Un approccio ristretto end-to-end causerà molti problemi inutili e richiederà molte soluzioni nascoste per garantire la sicurezza.
2.Il sistema end-to-end deve basarsi su modelli di grandi dimensioni o su una visione pura.
Non esiste alcuna connessione necessaria tra la guida autonoma end-to-end, la guida autonoma di grandi dimensioni e la guida autonoma puramente visiva perché sono concetti completamente indipendenti; un sistema end-to-end non è necessariamente guidato da modelli di grandi dimensioni, né è necessariamente guidato da una visione pura. Di.
3. È possibile che il suddetto sistema end-to-end in senso stretto raggiunga a lungo termine una guida autonoma superiore al livello L3?
Le prestazioni di quella che attualmente viene chiamata FSD end-to-end pura sono lungi dall'essere sufficienti a soddisfare l'affidabilità e la stabilità richieste al livello L3. Per dirla in modo più schietto, se il sistema di guida autonoma vuole essere accettato dal pubblico, la chiave è se il pubblico può accettare che in alcuni casi la macchina commetta errori e gli esseri umani possano facilmente risolverli. Ciò è più difficile per un sistema end-to-end puro.
Ad esempio, sia Waymo che Cruise in Nord America hanno avuto molti incidenti. Tuttavia, l'ultimo incidente di Cruise ha provocato due feriti, sebbene tali incidenti siano abbastanza inevitabili e accettabili per i guidatori umani. Tuttavia, dopo questo incidente, il sistema ha valutato erroneamente la posizione dell'incidente e la posizione dei feriti ed è stato declassato alla modalità pull-over, causando il trascinamento dei feriti per un lungo periodo. Questo comportamento è inaccettabile per qualsiasi normale conducente umano. Non verrà fatto e i risultati saranno pessimi.
Inoltre, questo è un campanello d’allarme che dovremmo considerare attentamente come evitare questa situazione durante lo sviluppo e il funzionamento dei sistemi di guida autonomi.
4.Quindi, in questo momento, quali sono le soluzioni pratiche per la prossima generazione di sistemi di guida assistita prodotti in serie?
Secondo le mie attuali conoscenze, quando si utilizza il cosiddetto modello end-to-end nella guida, dopo aver tracciato la traiettoria, verrà restituita una soluzione basata sui metodi tradizionali. In alternativa, i pianificatori basati sull’apprendimento e gli algoritmi tradizionali di pianificazione delle traiettorie generano più traiettorie contemporaneamente e quindi selezionano una traiettoria tramite un selettore.
Questo tipo di soluzione e scelta nascoste limitano il limite superiore delle prestazioni di questo sistema in cascata se viene adottata questa architettura di sistema. Se questo metodo si basa ancora sul puro apprendimento tramite feedback, si verificheranno fallimenti imprevedibili e l’obiettivo della sicurezza non sarà affatto raggiunto.
Se consideriamo la riottimizzazione o la selezione utilizzando metodi di pianificazione tradizionali su questa traiettoria di output, questa è equivalente alla traiettoria prodotta dal metodo basato sull'apprendimento; quindi, perché non ottimizziamo e cerchiamo direttamente questa traiettoria?
Naturalmente, alcune persone direbbero che un tale problema di ottimizzazione o ricerca non è convesso, ha un ampio spazio di stato ed è impossibile da eseguire in tempo reale su un sistema di bordo. Imploro tutti di considerare attentamente questa domanda: negli ultimi dieci anni, il sistema di percezione ha ricevuto almeno cento volte il dividendo in termini di potenza di calcolo, ma che dire del nostro modulo PnC?
Se permettiamo anche al modulo PnC di utilizzare una grande potenza di calcolo, combinata con alcuni progressi negli algoritmi di ottimizzazione avanzati negli ultimi anni, questa conclusione è ancora corretta? Per questo tipo di problema, dovremmo considerare ciò che è corretto dai principi primi.
5.Come conciliare il rapporto tra metodi data-driven e metodi tradizionali?
Giocare a scacchi è un esempio molto simile alla guida autonoma. Nel febbraio di quest'anno, Deepmind ha pubblicato un articolo intitolato "Grandmaster-Level Chess Without Search", discutendo se sia fattibile utilizzare solo la ricerca basata sui dati e abbandonare la ricerca MCTS in AlphaGo e AlphaZero. Analogamente alla guida autonoma, viene utilizzata solo una rete per eseguire direttamente le azioni, mentre tutti i passaggi successivi vengono ignorati.
L'articolo conclude che, nonostante una notevole quantità di dati e parametri del modello, è possibile ottenere risultati abbastanza ragionevoli senza utilizzare una ricerca. Tuttavia, esistono differenze significative rispetto ai metodi che utilizzano la ricerca. Ciò è particolarmente utile per affrontare alcuni finali complessi.
Per scenari complessi o casi limite che richiedono giochi in più fasi, questa analogia rende ancora difficile abbandonare completamente l’ottimizzazione tradizionale o gli algoritmi di ricerca. Utilizzare ragionevolmente i vantaggi di varie tecnologie come AlphaZero è il modo migliore per migliorare le prestazioni.
6.Metodo tradizionale = basato su regole se altrimenti?
Ho dovuto correggere questo concetto più e più volte mentre parlavo con molte persone. Molte persone credono che finché non è puramente basato sui dati, non è nemmeno basato su regole. Ad esempio, negli scacchi, la memorizzazione meccanica di formule e record di scacchi è basata su regole, ma come AlphaGo e AlphaZero, dà al modello la capacità di essere razionale attraverso l'ottimizzazione e la ricerca. Non penso che si possa definire basato su regole.
Per questo motivo, attualmente manca il modello di grandi dimensioni e i ricercatori stanno cercando di fornire un modello basato sull’apprendimento attraverso metodi come CoT. Tuttavia, a differenza dei compiti che richiedono il puro riconoscimento delle immagini basato sui dati e ragioni inspiegabili, ogni azione di una persona alla guida ha una chiara forza trainante.
Con un’adeguata progettazione dell’architettura dell’algoritmo, la traiettoria decisionale dovrebbe diventare variabile ed essere ottimizzata in modo uniforme sotto la guida di obiettivi scientifici, piuttosto che rattoppare e adattare forzatamente i parametri per risolvere casi diversi. Un sistema del genere naturalmente non ha tutti i tipi di strane regole codificate.
Conclusione
In breve, l’end-to-end può essere un percorso tecnico promettente, ma il modo in cui viene applicato il concetto richiede ulteriori ricerche. Penso che un insieme di dati e parametri del modello non sia l’unica soluzione corretta e, se vogliamo superare gli altri, dobbiamo continuare a lavorare sodo.
Orario di pubblicazione: 24 aprile 2024