Jak zdefiniować kompleksowy autonomiczny system jazdy?
Najpowszechniejszą definicją jest to, że system „od końca do końca” to system, który wprowadza surowe informacje z czujników i bezpośrednio wyprowadza zmienne istotne dla zadania. Na przykład w przypadku rozpoznawania obrazu CNN można nazwać „kompleksowym” w porównaniu z tradycyjną metodą cecha + klasyfikator.
W zadaniach związanych z jazdą autonomiczną dane z różnych czujników (takich jak kamery, LiDAR, Radar lub IMU...) są wprowadzane, a sygnały sterujące pojazdem (takie jak przepustnica lub kąt skrętu kierownicy) są bezpośrednio wysyłane. Aby uwzględnić kwestie adaptacji różnych modeli pojazdów, wyniki można również ograniczyć do trajektorii jazdy pojazdu.
W oparciu o tę podstawę pojawiły się również modułowe koncepcje typu end-to-end, takie jak UniAD, które poprawiają wydajność poprzez wprowadzenie nadzoru odpowiednich zadań pośrednich, oprócz końcowych wyjściowych sygnałów sterujących lub punktów orientacyjnych. Jednak z tak wąskiej definicji istotą end-to-end powinno być bezstratne przesyłanie informacji sensorycznej.
Przyjrzyjmy się najpierw interfejsom między modułami czujnikowymi i modułami PnC w systemach innych niż kompleksowe. Zwykle wykrywamy obiekty znajdujące się na białej liście (takie jak samochody, ludzie itp.) oraz analizujemy i przewidujemy ich właściwości. Poznajemy także środowisko statyczne (takie jak konstrukcja drogi, ograniczenia prędkości, sygnalizacja świetlna itp.). Gdybyśmy byli bardziej szczegółowi, wykrylibyśmy także przeszkody uniwersalne. Krótko mówiąc, informacje generowane przez te spostrzeżenia stanowią model wyświetlania złożonych scen jazdy.
Jednak w przypadku niektórych bardzo oczywistych scen obecna wyraźna abstrakcja nie jest w stanie w pełni opisać czynników wpływających na zachowanie kierowcy w danej scenie lub zadania, które musimy zdefiniować, są zbyt trywialne i trudno wyliczyć wszystkie wymagane zadania. Dlatego kompleksowe systemy zapewniają (być może pośrednio) wszechstronną reprezentację z nadzieją na automatyczne i bezstratne działanie na PnC za pomocą tych informacji. Moim zdaniem wszystkie systemy, które są w stanie spełnić ten wymóg, można nazwać uogólnionymi end-to-end.
Jeśli chodzi o inne kwestie, takie jak optymalizacja scenariuszy interakcji dynamicznych, uważam, że przynajmniej nie tylko kompleksowo można rozwiązać te problemy, a kompleksowe rozwiązanie może nie być najlepszym rozwiązaniem. Tradycyjne metody mogą rozwiązać te problemy i oczywiście, gdy ilość danych jest wystarczająco duża, lepszym rozwiązaniem może być metoda kompleksowa.
Kilka nieporozumień na temat kompleksowej jazdy autonomicznej
1. Sygnały sterujące i punkty orientacyjne muszą być wyprowadzane kompleksowo.
Jeśli zgadzasz się z opisaną powyżej szeroką, kompleksową koncepcją, problem ten jest łatwy do zrozumienia. Kompleksowość powinna kłaść nacisk na bezstratną transmisję informacji, a nie na bezpośrednie przesyłanie objętości zadania. Wąskie, kompleksowe podejście spowoduje wiele niepotrzebnych problemów i będzie wymagało wielu tajnych rozwiązań, aby zapewnić bezpieczeństwo.
2. Kompleksowy system musi opierać się na dużych modelach lub czystej wizji.
Nie ma koniecznego powiązania między kompleksowym autonomicznym jazdą, autonomicznym jazdą na dużych modelach i czysto wizualnym jazdą autonomiczną, ponieważ są to całkowicie niezależne koncepcje; kompleksowy system niekoniecznie opiera się na dużych modelach, ani też nie jest koniecznie napędzany czystą wizją. z.
3. Czy w dłuższej perspektywie ww. system end-to-end w wąskim znaczeniu jest w stanie osiągnąć autonomiczną jazdę powyżej poziomu L3?
Wydajność tego, co obecnie nazywa się czystym, kompleksowym FSD, jest zdecydowanie niewystarczająca, aby zapewnić niezawodność i stabilność wymaganą na poziomie L3. Mówiąc bardziej dosadnie, jeśli system autonomiczny chce zostać zaakceptowany przez społeczeństwo, kluczem jest to, czy społeczeństwo potrafi zaakceptować fakt, że w niektórych przypadkach maszyna popełni błędy, a człowiek będzie w stanie je łatwo rozwiązać. Jest to trudniejsze w przypadku czystego systemu typu end-to-end.
Na przykład zarówno Waymo, jak i Cruise w Ameryce Północnej miały wiele wypadków. Jednak ostatni wypadek Cruise'a spowodował dwa obrażenia, chociaż takie wypadki są raczej nieuniknione i akceptowalne dla ludzkich kierowców. Jednak po tym wypadku system błędnie ocenił miejsce wypadku oraz lokalizację rannych i zdegradował pojazd do trybu zatrzymania, co spowodowało długotrwałe ciągnięcie rannego. Takie zachowanie jest nie do przyjęcia dla każdego normalnego kierowcy. Nie uda się tego zrobić, a skutki będą bardzo złe.
Co więcej, jest to sygnał alarmowy, że powinniśmy dokładnie rozważyć, jak uniknąć tej sytuacji podczas opracowywania i eksploatacji systemów jazdy autonomicznej.
4. Jakie są zatem obecnie praktyczne rozwiązania dla nowej generacji masowo produkowanych systemów wspomagania jazdy?
Według mojego obecnego zrozumienia, stosując w prowadzeniu tzw. model end-to-end, po wyprowadzeniu trajektorii zwróci rozwiązanie oparte na tradycyjnych metodach. Alternatywnie, planiści uczący się i tradycyjne algorytmy planowania trajektorii generują jednocześnie wiele trajektorii, a następnie wybierają jedną trajektorię za pomocą selektora.
Tego rodzaju ukryte rozwiązanie i wybór ograniczają górną granicę wydajności tego systemu kaskadowego, jeśli zostanie przyjęta taka architektura systemu. Jeśli metoda ta w dalszym ciągu opierać się będzie na uczeniu się wyłącznie ze sprzężeniem zwrotnym, wystąpią nieprzewidywalne awarie, a cel, jakim jest bezpieczeństwo, w ogóle nie zostanie osiągnięty.
Jeśli weźmiemy pod uwagę ponowną optymalizację lub wybór przy użyciu tradycyjnych metod planowania na tej trajektorii wyjściowej, jest to równoważne trajektorii wytworzonej metodą opartą na uczeniu się; dlaczego więc nie optymalizujemy bezpośrednio i nie przeszukujemy tej trajektorii?
Oczywiście niektórzy powiedzieliby, że taki problem optymalizacji lub wyszukiwania nie jest wypukły, ma dużą przestrzeń stanów i nie da się go uruchomić w czasie rzeczywistym w systemie pokładowym. Błagam wszystkich, aby dokładnie rozważyli tę kwestię: w ciągu ostatnich dziesięciu lat system percepcji otrzymał co najmniej stokrotność dywidendy mocy obliczeniowej, ale co z naszym modułem PnC?
Jeśli pozwolimy również modułowi PnC na wykorzystanie dużej mocy obliczeniowej, w połączeniu z pewnymi postępami w zaawansowanych algorytmach optymalizacyjnych w ostatnich latach, czy ten wniosek jest nadal słuszny? W przypadku tego rodzaju problemu powinniśmy rozważyć, co jest poprawne na podstawie pierwszych zasad.
5.Jak pogodzić metody oparte na danych i metody tradycyjne?
Gra w szachy jest przykładem bardzo przypominającym jazdę autonomiczną. W lutym tego roku firma Deepmind opublikowała artykuł zatytułowany „Szachy na poziomie arcymistrzowskim bez wyszukiwania”, w którym omówiono, czy możliwe jest korzystanie wyłącznie z wyszukiwania opartego na danych i porzucenie wyszukiwania MCTS w AlphaGo i AlphaZero. Podobnie jak w przypadku jazdy autonomicznej, tylko jedna sieć jest wykorzystywana do bezpośredniego wyprowadzania działań, a wszystkie kolejne kroki są ignorowane.
W artykule stwierdzono, że pomimo znacznej ilości danych i parametrów modelu, w miarę rozsądne wyniki można uzyskać bez użycia wyszukiwania. Istnieją jednak istotne różnice w porównaniu z metodami wykorzystującymi wyszukiwanie. Jest to szczególnie przydatne w przypadku niektórych skomplikowanych końcówek.
W przypadku skomplikowanych scenariuszy lub przypadków narożnych, które wymagają gier wieloetapowych, ta analogia nadal utrudnia całkowite porzucenie tradycyjnych algorytmów optymalizacji lub wyszukiwania. Rozsądne wykorzystanie zalet różnych technologii, takich jak AlphaZero, jest najlepszym sposobem na poprawę wydajności.
6. Metoda tradycyjna = oparta na zasadach, jeśli inaczej?
Musiałem wielokrotnie poprawiać tę koncepcję, rozmawiając z wieloma osobami. Wiele osób uważa, że dopóki nie opiera się wyłącznie na danych, nie jest również oparta na regułach. Na przykład w szachach zapamiętywanie formuł i zapisów szachowych opiera się na regułach, ale podobnie jak AlphaGo i AlphaZero daje modelowi możliwość racjonalnego działania poprzez optymalizację i wyszukiwanie. Nie sądzę, że można to nazwać opartym na zasadach.
Z tego powodu obecnie brakuje samego dużego modelu, a badacze próbują opracować model oparty na uczeniu się za pomocą metod takich jak CoT. Jednak w przeciwieństwie do zadań, które wymagają rozpoznawania obrazu wyłącznie w oparciu o dane i z niewyjaśnionych powodów, każde działanie osoby prowadzącej ma wyraźną siłę napędową.
W ramach odpowiedniego projektu architektury algorytmu trajektoria decyzyjna powinna stać się zmienna i jednolicie zoptymalizowana pod kierunkiem celów naukowych, a nie na siłę łatać i dostosowywać parametry w celu naprawienia różnych przypadków. Taki system naturalnie nie ma wszelkiego rodzaju zakodowanych na stałe, dziwnych zasad.
Wniosek
Krótko mówiąc, kompleksowe podejście może być obiecującą drogą techniczną, ale sposób zastosowania tej koncepcji wymaga dalszych badań. Myślę, że zbiór danych i parametrów modelu nie jest jedynym słusznym rozwiązaniem i jeśli chcemy wyprzedzić innych, musimy dalej ciężko pracować.
Czas publikacji: 24 kwietnia 2024 r