Wie definiere ich ein durchgängiges autonomes Fahrsystem?
Die gebräuchlichste Definition ist, dass ein „End-to-End“-System ein System ist, das rohe Sensorinformationen eingibt und für die Aufgabe relevante Variablen direkt ausgibt. Beispielsweise kann CNN bei der Bilderkennung im Vergleich zur herkömmlichen Merkmals- und Klassifikatormethode als „End-to-End“ bezeichnet werden.
Bei autonomen Fahraufgaben werden Daten von verschiedenen Sensoren (z. B. Kameras, LiDAR, Radar oder IMU ...) eingegeben und Fahrzeugsteuersignale (z. B. Gas- oder Lenkradwinkel) direkt ausgegeben. Um die Anpassungsprobleme verschiedener Fahrzeugmodelle zu berücksichtigen, kann die Ausgabe auch auf die Fahrbahn des Fahrzeugs gelockert werden.
Auf dieser Grundlage sind auch modulare End-to-End-Konzepte entstanden, wie z. B. UniAD, die die Leistung verbessern, indem sie zusätzlich zu den endgültig ausgegebenen Steuersignalen oder Wegpunkten auch die Überwachung relevanter Zwischenaufgaben einführen. Bei einer so engen Definition sollte das Wesentliche von End-to-End jedoch in der verlustfreien Übertragung sensorischer Informationen liegen.
Betrachten wir zunächst die Schnittstellen zwischen Sensor- und PnC-Modulen in Nicht-End-to-End-Systemen. Normalerweise erkennen wir Objekte auf der Whitelist (z. B. Autos, Personen usw.) und analysieren und prognostizieren ihre Eigenschaften. Wir erfahren auch etwas über die statische Umgebung (wie Straßenstruktur, Geschwindigkeitsbegrenzungen, Ampeln usw.). Wenn wir detaillierter wären, würden wir auch universelle Hindernisse erkennen. Kurz gesagt, die durch diese Wahrnehmungen ausgegebenen Informationen stellen ein Darstellungsmodell komplexer Fahrszenen dar.
Für einige sehr offensichtliche Szenen kann die aktuelle explizite Abstraktion jedoch die Faktoren, die das Fahrverhalten in der Szene beeinflussen, nicht vollständig beschreiben, oder die Aufgaben, die wir definieren müssen, sind zu trivial und es ist schwierig, alle erforderlichen Aufgaben aufzuzählen. Daher bieten End-to-End-Systeme eine (vielleicht implizit) umfassende Darstellung mit der Hoffnung, mit diesen Informationen automatisch und verlustfrei auf PnCs einwirken zu können. Meiner Meinung nach kann man alle Systeme, die diese Anforderung erfüllen können, als generalisierte End-to-End-Systeme bezeichnen.
Was andere Probleme angeht, wie etwa einige Optimierungen dynamischer Interaktionsszenarien, glaube ich, dass zumindest nicht nur End-to-End diese Probleme lösen kann und End-to-End möglicherweise nicht die beste Lösung ist. Herkömmliche Methoden können diese Probleme lösen, und wenn die Datenmenge groß genug ist, kann End-to-End möglicherweise eine bessere Lösung bieten.
Einige Missverständnisse über das durchgängig autonome Fahren
1. Steuersignale und Wegpunkte müssen durchgängig ausgegeben werden.
Wenn Sie mit dem oben diskutierten umfassenden End-to-End-Konzept einverstanden sind, ist dieses Problem leicht zu verstehen. Bei End-to-End sollte der Schwerpunkt auf der verlustfreien Übertragung von Informationen liegen und nicht auf der direkten Ausgabe des Aufgabenvolumens. Ein enger End-to-End-Ansatz wird eine Menge unnötiger Probleme verursachen und viele verdeckte Lösungen erfordern, um die Sicherheit zu gewährleisten.
2. Das End-to-End-System muss auf großen Modellen oder reiner Vision basieren.
Es besteht kein notwendiger Zusammenhang zwischen durchgängigem autonomem Fahren, autonomem Fahren in großen Modellen und rein visuellem autonomem Fahren, da es sich um völlig unabhängige Konzepte handelt. Ein End-to-End-System basiert nicht unbedingt auf großen Modellen und auch nicht unbedingt auf einer reinen Vision. von.
3. Ist es mit dem oben genannten End-to-End-System im engeren Sinne langfristig möglich, autonomes Fahren oberhalb des L3-Niveaus zu erreichen?
Die Leistung dessen, was derzeit als reines End-to-End-FSD bezeichnet wird, reicht bei weitem nicht aus, um die auf L3-Ebene erforderliche Zuverlässigkeit und Stabilität zu erfüllen. Um es deutlicher auszudrücken: Wenn das selbstfahrende System von der Öffentlichkeit akzeptiert werden soll, kommt es darauf an, ob die Öffentlichkeit akzeptieren kann, dass die Maschine in manchen Fällen Fehler macht und Menschen diese leicht lösen können. Bei einem reinen End-to-End-System ist dies schwieriger.
Beispielsweise hatten sowohl Waymo als auch Cruise in Nordamerika viele Unfälle. Allerdings gab es bei Cruises letztem Unfall zwei Verletzte, obwohl solche Unfälle für menschliche Fahrer ziemlich unvermeidlich und akzeptabel sind. Nach diesem Unfall schätzte das System jedoch den Unfallort und den Standort der Verletzten falsch ein und schaltete auf den Überrollmodus um, wodurch die Verletzten lange geschleift wurden. Dieses Verhalten ist für jeden normalen menschlichen Fahrer inakzeptabel. Dies wird nicht geschehen, und die Ergebnisse werden sehr schlecht sein.
Darüber hinaus ist dies ein Weckruf dafür, dass wir sorgfältig darüber nachdenken sollten, wie wir diese Situation bei der Entwicklung und dem Betrieb autonomer Fahrsysteme vermeiden können.
4. Was sind derzeit die praktischen Lösungen für die nächste Generation serienmäßig hergestellter Fahrassistenzsysteme?
Nach meinem derzeitigen Verständnis wird bei Verwendung des sogenannten End-to-End-Modells beim Fahren nach der Ausgabe der Trajektorie eine Lösung zurückgegeben, die auf herkömmlichen Methoden basiert. Alternativ geben lernbasierte Planer und herkömmliche Trajektorienplanungsalgorithmen mehrere Trajektorien gleichzeitig aus und wählen dann eine Trajektorie über einen Selektor aus.
Diese Art von verdeckter Lösung und Wahl begrenzt die Obergrenze der Leistung dieses Kaskadensystems, wenn diese Systemarchitektur übernommen wird. Basiert diese Methode weiterhin auf reinem Feedback-Lernen, kommt es zu unvorhersehbaren Ausfällen und das Ziel der Sicherheit wird überhaupt nicht erreicht.
Wenn wir eine erneute Optimierung oder Auswahl mithilfe traditioneller Planungsmethoden für diesen Ausgabeverlauf in Betracht ziehen, entspricht dies dem Verlauf, der durch die lerngesteuerte Methode erzeugt wird. Warum also optimieren und durchsuchen wir diese Flugbahn nicht direkt?
Natürlich würden einige Leute sagen, dass ein solches Optimierungs- oder Suchproblem nicht konvex ist, einen großen Zustandsraum hat und auf einem fahrzeuginternen System nicht in Echtzeit ausgeführt werden kann. Ich bitte alle, sich diese Frage genau zu überlegen: In den letzten zehn Jahren hat das Wahrnehmungssystem mindestens die hundertfache Rechenleistungsdividende erhalten, aber was ist mit unserem PnC-Modul?
Wenn wir dem PnC-Modul auch erlauben, große Rechenleistung zu nutzen, kombiniert mit einigen Fortschritten bei fortschrittlichen Optimierungsalgorithmen in den letzten Jahren, ist diese Schlussfolgerung dann immer noch richtig? Für diese Art von Problem sollten wir überlegen, was von Grund auf richtig ist.
5.Wie lässt sich die Beziehung zwischen datengesteuerten und traditionellen Methoden vereinbaren?
Schachspielen ist ein Beispiel, das dem autonomen Fahren sehr ähnlich ist. Im Februar dieses Jahres veröffentlichte Deepmind einen Artikel mit dem Titel „Schach auf Großmeisterniveau ohne Suche“, in dem erörtert wurde, ob es machbar ist, nur die datengesteuerte Suche zu verwenden und auf die MCTS-Suche in AlphaGo und AlphaZero zu verzichten. Ähnlich wie beim autonomen Fahren wird nur ein Netzwerk zur direkten Ausgabe von Aktionen verwendet, während alle nachfolgenden Schritte ignoriert werden.
Der Artikel kommt zu dem Schluss, dass trotz beträchtlicher Mengen an Daten und Modellparametern einigermaßen vernünftige Ergebnisse ohne Verwendung einer Suche erzielt werden können. Es gibt jedoch erhebliche Unterschiede zu Methoden, die die Suche nutzen. Dies ist besonders nützlich für die Bewältigung einiger komplexer Endspiele.
Bei komplexen Szenarien oder Eckfällen, die mehrstufige Spiele erfordern, macht es diese Analogie immer noch schwierig, herkömmliche Optimierungs- oder Suchalgorithmen vollständig aufzugeben. Die sinnvolle Nutzung der Vorteile verschiedener Technologien wie AlphaZero ist der beste Weg, die Leistung zu verbessern.
6.Traditionelle Methode = regelbasiert, wenn sonst?
Ich musste dieses Konzept im Gespräch mit vielen Menschen immer wieder korrigieren. Viele Menschen glauben, dass es nicht regelbasiert ist, solange es nicht rein datengesteuert ist. Beim Schach beispielsweise basiert das Auswendiglernen von Formeln und Schachaufzeichnungen auf Regeln, aber wie bei AlphaGo und AlphaZero verleiht es dem Modell die Fähigkeit, durch Optimierung und Suche rational zu sein. Ich glaube nicht, dass man es regelbasiert nennen kann.
Aus diesem Grund fehlt derzeit das große Modell selbst und Forscher versuchen, durch Methoden wie CoT ein lerngesteuertes Modell bereitzustellen. Doch im Gegensatz zu Aufgaben, die eine reine datengesteuerte Bilderkennung und unerklärliche Gründe erfordern, hat jede Aktion einer fahrenden Person eine klare treibende Kraft.
Unter dem geeigneten Design der Algorithmusarchitektur sollte der Entscheidungsverlauf variabel werden und unter Anleitung wissenschaftlicher Ziele einheitlich optimiert werden, anstatt Parameter gewaltsam zu patchen und anzupassen, um verschiedene Fälle zu beheben. Ein solches System verfügt natürlich nicht über alle möglichen hartcodierten seltsamen Regeln.
Abschluss
Kurz gesagt, End-to-End mag ein vielversprechender technischer Weg sein, aber wie das Konzept angewendet wird, erfordert mehr Forschung. Ich denke, dass ein Haufen Daten und Modellparameter nicht die einzig richtige Lösung ist, und wenn wir andere übertreffen wollen, müssen wir weiter hart arbeiten.
Zeitpunkt der Veröffentlichung: 24. April 2024