Wéi definéiert een en end-to-end autonomt Fueresystem?
Déi heefegst Definitioun ass datt en "Enn-zu-Enn" System e System ass deen réi Sensorinformatioun agitt an direkt Variabelen auszeginn, déi d'Aufgab betrëfft. Zum Beispill, an der Bilderkennung, kann CNN "Enn-zu-Enn" genannt ginn am Verglach mat der traditioneller Feature + Klassifizéierungsmethod.
Bei autonomen Fuere Aufgaben ginn Daten vu verschiddene Sensoren (wéi Kameraen, LiDAR, Radar oder IMU ...) Input, a Gefiersteuersignaler (wéi Drossel oder Lenkradwénkel) ginn direkt erausginn. Fir d'Adaptatiounsprobleemer vu verschiddene Gefiermodeller ze berücksichtegen, kann d'Ausgab och entspaant ginn op d'Fuerstrooss vum Gefier.
Baséierend op dëser Fondatioun sinn och modulär End-to-End Konzepter entstanen, sou wéi UniAD, déi d'Performance verbesseren andeems d'Iwwerwaachung vun relevanten Zwëschenaufgaben agefouert gëtt, zousätzlech zu de finalen Output Kontrollsignaler oder Waypoints. Wéi och ëmmer, aus sou enger schmueler Definitioun, sollt d'Essenz vum Enn-zu-Enn d'Verléierslos Iwwerdroung vu sensorescher Informatioun sinn.
Loosst eis als éischt d'Interfaces tëscht Sensing a PnC Moduler an net-Enn-zu-Enn Systemer iwwerpréiwen. Normalerweis entdecken mir whitelisted Objeten (wéi Autoen, Leit, etc.) an analyséieren a viraussoen hir Eegeschaften. Mir léieren och iwwer dat statesch Ëmfeld (wéi Stroossestruktur, Geschwindegkeetsgrenzen, Traffic Luuchten, etc.). Wa mir méi detailléiert wieren, géife mir och universell Hindernisser entdecken. Kuerz gesot, d'Informatiounsausgab vun dësen Perceptiounen ass e Displaymodell vu komplexe Fahrszenen.
Wéi och ëmmer, fir e puer ganz offensichtlech Szenen, kann déi aktuell explizit Abstraktioun d'Faktoren net ganz beschreiwen, déi d'Fuerverhalen an der Szen beaflossen, oder d'Aufgaben déi mir musse definéieren sinn ze trivial, an et ass schwéier all erfuerderlech Aufgaben opzezielen. Dofir liwweren end-to-end Systemer eng (vläicht implizit) ëmfaassend Representatioun mat der Hoffnung automatesch an ouni Verloscht op PnCs mat dëser Informatioun ze handelen. Menger Meenung no kënnen all Systemer déi dës Ufuerderung entspriechen kënnen generaliséiert End-to-End genannt ginn.
Wat aner Themen ugeet, wéi e puer Optimisatiounen vun dynameschen Interaktiounsszenarien, gleewen ech datt op d'mannst net nëmmen end-to-end dës Probleemer léise kënnen, an end-to-end vläicht net déi bescht Léisung sinn. Traditionell Methoden kënnen dës Problemer léisen, an natierlech, wann d'Quantitéit vun Daten grouss genuch ass, kann Enn-zu-Enn eng besser Léisung ubidden.
E puer Mëssverständnisser iwwer end-to-end autonom Fuere
1. Kontroll Signaler an waypoints muss Ausgabe ginn Enn-ze-Enn.
Wann Dir mat dem breet Enn-zu-Enn Konzept averstanen ass, dat hei uewen diskutéiert gëtt, dann ass dëse Problem einfach ze verstoen. End-to-End soll d'Verléierslos Iwwerdroung vun Informatioun ënnersträichen anstatt den Taskvolumen direkt auszeginn. Eng schmuel Enn-zu-Enn Approche wäert vill onnéideg Ierger verursaachen a vill geheime Léisunge verlaangen fir Sécherheet ze garantéieren.
2.The End-to-End System muss op grouss Modeller oder pure Visioun baséieren.
Et gëtt keng néideg Verbindung tëscht Enn-zu-Enn autonom Fuere, grouss-Modell autonom Fueren, a reng visuell autonom Fueren well se komplett onofhängeg Konzepter sinn; en Enn-zu-Enn System gëtt net onbedéngt vu grousse Modeller gedriwwen, an och net onbedéngt vu pure Visioun. vun.
3.Ass et op laang Siicht méiglech, datt den uewe genannten End-to-End-System an engem schmuele Sënn autonom Fuere iwwer dem L3 Niveau erreecht?
D'Performance vun deem wat de Moment pure End-to-End FSD genannt gëtt ass wäit net genuch fir d'Zouverlässegkeet an d'Stabilitéit ze erfëllen déi um L3 Niveau erfuerderlech ass. Fir méi kloer ze soen, wann de Selbstfahrtsystem vun der Ëffentlechkeet wëll akzeptéieren, ass de Schlëssel, ob d'Ëffentlechkeet akzeptéiere kann, datt an e puer Fäll d'Maschinn Feeler mécht, an d'Mënsche kënnen se einfach léisen. Dëst ass méi schwéier fir e pure End-to-End System.
Zum Beispill, Waymo a Cruise an Nordamerika hu vill Accidenter haten. Wéi och ëmmer, dem Cruise säi leschten Accident huet zu zwee Verletzungen gefouert, obwuel esou Accidenter zimlech inévitabel an akzeptabel fir mënschlech Chauffeuren sinn. Wéi och ëmmer, no dësem Accident huet de System d'Plaz vum Accident an d'Plaz vun de Blesséierten falsch beurteelt an op de Pull-over-Modus erofgesat, sou datt de Blesséierte fir eng laang Zäit gezunn ass. Dëst Verhalen ass inakzeptabel fir all normale mënschleche Chauffer. Et gëtt net gemaach, an d'Resultater wäerte ganz schlecht sinn.
Ausserdeem ass dëst e Wake-up Call datt mir suergfälteg iwwerleeë wéi dës Situatioun während der Entwécklung an der Operatioun vun autonomen Fuersystemer ze vermeiden.
4.Also zu dësem Moment, wat sinn déi praktesch Léisunge fir déi nächst Generatioun vu masseproduzéierten Assistent-Fuersystemer?
No mengem aktuellen Verständnis, wann Dir de sougenannten End-to-End-Modell am Fuere benotzt, nodeems d'Streck erausgeet, gëtt et eng Léisung zréck op traditionelle Methoden. Alternativ, Léierbaséiert Planer an traditionell Trajectory Planning Algorithmen produzéieren verschidde Trajectoiren gläichzäiteg a wielt dann eng Trajectoire duerch e Selektor.
Dës Aart vu geheime Léisung a Choix limitéiert déi iewescht Grenz vun der Leeschtung vun dësem Kaskadesystem wann dës Systemarchitektur ugeholl gëtt. Wann dës Method nach ëmmer op pure Feedback Léieren baséiert, wäerten onberechenbar Feeler optrieden an d'Zil fir sécher ze sinn gëtt guer net erreecht.
Wa mir iwwerdenken d'Neioptiméierung oder d'Auswiel mat traditionelle Planungsmethoden op dëser Ausgangsbunn ze wielen, ass dëst gläichwäerteg mat der Trajectoire, déi vun der Léier-Undriff Method produzéiert gëtt; dofir, firwat mir net direkt optimiséieren a sichen dës Streck?
Natierlech géifen e puer Leit soen datt sou en Optimisatiouns- oder Sichprobleem net konvex ass, e grousse Staatsraum huet an onméiglech ass an Echtzäit op engem Gefier System ze lafen. Ech bieden jidderee fir dës Fro suergfälteg ze berücksichtegen: An de leschten zéng Joer huet de Perceptiounssystem op d'mannst honnert Mol d'Rechenkraaft Dividend kritt, awer wéi ass et mat eisem PnC Modul?
Wa mir och de PnC Modul erlaben grouss Rechenkraaft ze benotzen, kombinéiert mat e puer Fortschrëtter an fortgeschratt Optimisatiounsalgorithmen an de leschte Joeren, ass dës Conclusioun nach ëmmer richteg? Fir dës Zort vu Problem, solle mir betruecht, wat aus éischt Prinzipien richteg ass.
5.Wéi d'Relatioun tëscht date-driven an traditionell Methoden Aklang ze bréngen?
Schach spillen ass e Beispill ganz ähnlech wéi autonom Fuere. Am Februar vun dësem Joer huet Deepmind en Artikel mam Numm "Grandmaster-Level Chess Without Search" publizéiert, diskutéiert ob et machbar ass nëmmen dategedriwwen ze benotzen an MCTS Sich an AlphaGo an AlphaZero opzeginn. Ähnlech wéi autonom Fuere gëtt nëmmen een Netz benotzt fir direkt Aktiounen auszeginn, während all spéider Schrëtt ignoréiert ginn.
Den Artikel schléisst datt, trotz erheblechen Quantitéiten un Daten a Modellparameter, zimlech raisonnabel Resultater kënne kritt ginn ouni eng Sich ze benotzen. Wéi och ëmmer, et gi bedeitend Differenzen am Verglach mat Methoden déi Sich benotzen. Dëst ass besonnesch nëtzlech fir e puer komplex Endspiller ze këmmeren.
Fir komplex Szenarie oder Eckfäll, déi Multi-Schrëtt Spiller erfuerderen, mécht dës Analogie et nach ëmmer schwéier, traditionell Optimisatiouns- oder Sichalgorithmen komplett opzeginn. Vernünfteg d'Virdeeler vu verschiddenen Technologien wéi AlphaZero ze benotzen ass de beschte Wee fir d'Performance ze verbesseren.
6.Traditionell Method = Regel-baséiert wann soss?
Ech hunn dëst Konzept ëmmer erëm missen korrigéieren wärend ech mat ville Leit geschwat hunn. Vill Leit gleewen datt soulaang et net reng date-driven ass, ass et net Regel-baséiert. Zum Beispill, am Schach, d'Erënnerung vun Formelen a Schachrecords duerch Rote ass Regel-baséiert, awer wéi AlphaGo an AlphaZero, gëtt et dem Modell d'Fäegkeet rational ze sinn duerch Optimiséierung a Sich. Ech mengen net, datt et Regel-baséiert genannt ginn.
Dowéinst feelt dee grousse Modell selwer am Moment, an d'Fuerscher probéieren e Léiergedriwwen Modell duerch Methoden wéi CoT ze bidden. Wéi och ëmmer, am Géigesaz zu Aufgaben, déi reng date-driven Bilderkennung an onerklärleche Grënn erfuerderen, huet all Handlung vun enger Persoun déi fuert eng kloer dreiwend Kraaft.
Ënnert dem passenden Algorithmusarchitekturdesign soll d'Entscheedungsstrooss variabel ginn an eenheetlech optimiséiert ginn ënner der Leedung vu wëssenschaftleche Ziler, anstatt zwangsleefeg d'Parameteren ze patchen an unzepassen fir verschidde Fäll ze fixéieren. Esou e System huet natierlech net all Zorte vun haart kodéiert komesch Regelen.
Conclusioun
Kuerz gesot, end-to-end kann e verspriechend technesche Wee sinn, awer wéi d'Konzept applizéiert gëtt, erfuerdert méi Fuerschung. Ech denken, datt eng Rëtsch Daten a Modellparameter net déi eenzeg richteg Léisung sinn, a wa mir anerer wëllen iwwerwannen, musse mir weider haart schaffen.
Post Zäit: Apr-24-2024