Как определить комплексную систему автономного вождения?
Наиболее распространенное определение заключается в том, что «сквозная» система — это система, которая вводит необработанную информацию от датчиков и напрямую выводит переменные, имеющие отношение к задаче. Например, в распознавании изображений CNN можно назвать «сквозным» по сравнению с традиционным методом признак + классификатор.
В задачах автономного вождения вводятся данные от различных датчиков (таких как камеры, LiDAR, радар или IMU...), а сигналы управления транспортным средством (например, дроссельная заслонка или угол рулевого колеса) выводятся напрямую. Чтобы учесть проблемы адаптации различных моделей транспортных средств, выходные данные также можно адаптировать к траектории движения транспортного средства.
На основе этой основы также появились модульные сквозные концепции, такие как UniAD, которые повышают производительность за счет введения контроля над соответствующими промежуточными задачами в дополнение к окончательным выходным управляющим сигналам или путевым точкам. Однако, исходя из такого узкого определения, суть сквозного соединения должна заключаться в передаче сенсорной информации без потерь.
Давайте сначала рассмотрим интерфейсы между датчиками и модулями PnC в сквозных системах. Обычно мы обнаруживаем объекты из белого списка (например, автомобили, люди и т. д.), анализируем и прогнозируем их свойства. Мы также узнаем о статичной среде (например, о дорожной структуре, ограничениях скорости, светофорах и т. д.). Если бы мы были более детальными, мы бы также обнаружили универсальные препятствия. Короче говоря, информация, выдаваемая этим восприятием, представляет собой модель отображения сложных сцен вождения.
Однако для некоторых очень очевидных сцен текущая явная абстракция не может полностью описать факторы, влияющие на поведение вождения в сцене, либо задачи, которые нам нужно определить, слишком тривиальны, и сложно перечислить все необходимые задачи. Таким образом, сквозные системы обеспечивают (возможно, неявно) комплексное представление с надеждой автоматически и без потерь воздействовать на PnC с помощью этой информации. На мой взгляд, все системы, способные удовлетворить этому требованию, можно назвать обобщенными сквозными.
Что касается других вопросов, таких как некоторая оптимизация сценариев динамического взаимодействия, я считаю, что как минимум не только end-to-end может решить эти проблемы, а end-to-end может быть не лучшим решением. Традиционные методы могут решить эти проблемы, и, конечно, когда объем данных достаточно велик, сквозной подход может обеспечить лучшее решение.
Некоторые недопонимания относительно сквозного автономного вождения
1. Сигналы управления и путевые точки должны выводиться сквозным образом.
Если вы согласны с широкой концепцией сквозного подхода, рассмотренной выше, то эту проблему легко понять. Сквозной подход должен подчеркивать передачу информации без потерь, а не прямой вывод объема задачи. Узкий сквозной подход вызовет массу ненужных хлопот и потребует множества скрытых решений для обеспечения безопасности.
2. Комплексная система должна основываться на больших моделях или чистом видении.
Нет никакой необходимой связи между сквозным автономным вождением, автономным вождением большой модели и чисто визуальным автономным вождением, поскольку это полностью независимые концепции; сквозная система не обязательно управляется большими моделями и не обязательно руководствуется чистым видением. из.
3. В долгосрочной перспективе, сможет ли вышеупомянутая сквозная система в узком смысле достичь автономного вождения выше уровня L3?
Производительность того, что сейчас называется чистым сквозным FSD, далека от достаточной для обеспечения надежности и стабильности, требуемых на уровне L3. Грубо говоря, если система беспилотного вождения хочет быть принята общественностью, ключевой момент заключается в том, сможет ли общественность признать, что в некоторых случаях машина будет совершать ошибки, а люди могут легко их решить. Для чистой сквозной системы это сложнее.
Например, и Waymo, и Cruise в Северной Америке попали в множество аварий. Однако последняя авария Круза привела к двум травмам, хотя такие аварии довольно неизбежны и приемлемы для водителей-людей. Однако после этой аварии система неправильно оценила место аварии и местонахождение раненых и перешла в режим остановки, в результате чего раненых пришлось тащить в течение длительного времени. Такое поведение неприемлемо для любого нормального водителя-человека. Этого не будет сделано, и результаты будут очень плохими.
Более того, это тревожный сигнал о том, что нам следует тщательно обдумать, как избежать подобной ситуации во время разработки и эксплуатации систем автономного вождения.
4.Каковы на данный момент практические решения для следующего поколения систем вспомогательного вождения массового производства?
По моему нынешнему пониманию, при использовании так называемой сквозной модели в вождении она после вывода траектории вернет решение, основанное на традиционных методах. Альтернативно, планировщики, основанные на обучении, и традиционные алгоритмы планирования траектории выводят несколько траекторий одновременно, а затем выбирают одну траекторию с помощью селектора.
Такого рода скрытое решение и выбор ограничивают верхний предел производительности этой каскадной системы, если принята такая системная архитектура. Если этот метод по-прежнему основан на обучении с обратной связью, возникнут непредсказуемые сбои и цель обеспечения безопасности вообще не будет достигнута.
Если мы рассмотрим повторную оптимизацию или выбор с использованием традиционных методов планирования на этой выходной траектории, это будет эквивалентно траектории, созданной методом, основанным на обучении; следовательно, почему бы нам непосредственно не оптимизировать и не искать эту траекторию?
Конечно, некоторые люди скажут, что такая задача оптимизации или поиска невыпуклая, имеет большое пространство состояний и ее невозможно запустить в реальном времени в автомобильной системе. Я призываю всех внимательно задуматься над этим вопросом: за последние десять лет система восприятия получила как минимум в сто раз больший дивиденд по вычислительной мощности, а как насчет нашего модуля PnC?
Если мы также позволим модулю PnC использовать большую вычислительную мощность в сочетании с некоторыми достижениями в области передовых алгоритмов оптимизации за последние годы, останется ли этот вывод верным? Для решения такого рода проблем нам следует рассмотреть, что правильно с точки зрения первых принципов.
5.Как согласовать взаимосвязь между методами, основанными на данных, и традиционными методами?
Игра в шахматы — пример, очень похожий на автономное вождение. В феврале этого года Deepmind опубликовал статью под названием «Шахматы гроссмейстерского уровня без поиска», в которой обсуждается, возможно ли использовать только поиск на основе данных и отказаться от поиска MCTS в AlphaGo и AlphaZero. Подобно автономному вождению, для прямого вывода действий используется только одна сеть, а все последующие шаги игнорируются.
В статье делается вывод о том, что, несмотря на значительные объемы данных и параметров модели, вполне приемлемые результаты можно получить и без использования поиска. Однако существуют существенные различия по сравнению с методами, использующими поиск. Это особенно полезно при работе с некоторыми сложными эндшпилями.
Для сложных сценариев или крайних случаев, требующих многошаговых игр, эта аналогия по-прежнему не позволяет полностью отказаться от традиционных алгоритмов оптимизации или поиска. Разумное использование преимуществ различных технологий, таких как AlphaZero, — лучший способ повысить производительность.
6. Традиционный метод = на основе правил, если еще?
Мне приходилось исправлять эту концепцию снова и снова, общаясь со многими людьми. Многие люди считают, что, пока оно не основано исключительно на данных, оно не основано на правилах. Например, в шахматах запоминание формул и шахматных записей наизусть основано на правилах, но, как и AlphaGo и AlphaZero, оно дает модели возможность быть рациональным посредством оптимизации и поиска. Я не думаю, что это можно назвать основанным на правилах.
Из-за этого в настоящее время отсутствует сама большая модель, и исследователи пытаются создать модель, основанную на обучении, с помощью таких методов, как CoT. Однако в отличие от задач, требующих чистого распознавания изображений на основе данных и необъяснимых причин, каждое действие человека за рулем имеет четкую движущую силу.
При соответствующем проектировании архитектуры алгоритма траектория принятия решений должна стать переменной и единообразно оптимизированной в соответствии с научными целями, а не принудительно исправлять и корректировать параметры для исправления различных случаев. В такой системе, естественно, нет всяких жестко запрограммированных странных правил.
Заключение
Короче говоря, сквозное соединение может быть многообещающим техническим путем, но то, как эта концепция применяется, требует дополнительных исследований. Я думаю, что набор данных и параметров модели — не единственное правильное решение, и если мы хотим превзойти других, нам придется продолжать усердно работать.
Время публикации: 24 апреля 2024 г.