엔드투엔드 자율주행 시스템을 어떻게 정의할 것인가?
가장 일반적인 정의는 "엔드 투 엔드(end-to-end)" 시스템이 원시 센서 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템이라는 것입니다. 예를 들어, 이미지 인식에서 CNN은 기존의 특징 + 분류기 방식과 비교하여 "엔드 투 엔드(end-to-end)"라고 부를 수 있습니다.
자율 주행 작업에서는 다양한 센서(예: 카메라, LiDAR, 레이더 또는 IMU...)의 데이터가 입력되고 차량 제어 신호(예: 스로틀 또는 스티어링 휠 각도)가 직접 출력됩니다. 다양한 차량 모델의 적응 문제를 고려하기 위해 출력을 차량의 주행 궤적에 맞춰 완화할 수도 있습니다.
이러한 기반을 바탕으로 최종 출력 제어 신호 또는 웨이포인트 외에 관련 중간 작업에 대한 감독을 도입하여 성능을 향상시키는 UniAD와 같은 모듈식 엔드투엔드 개념도 등장했습니다. 그러나 이렇게 좁은 정의로 볼 때 엔드투엔드의 본질은 감각 정보의 무손실 전송이어야 합니다.
먼저 비엔드투엔드 시스템에서 감지와 PnC 모듈 간의 인터페이스를 검토해 보겠습니다. 일반적으로 우리는 화이트리스트에 등록된 객체(예: 자동차, 사람 등)를 감지하고 해당 객체의 속성을 분석하고 예측합니다. 또한 정적 환경(예: 도로 구조, 속도 제한, 신호등 등)에 대해서도 알아봅니다. 좀 더 자세히 살펴보면 보편적인 장애물도 감지할 수 있을 것입니다. 요컨대, 이러한 인식에 의해 출력되는 정보는 복잡한 운전 장면의 디스플레이 모델을 구성합니다.
그러나 일부 매우 분명한 장면의 경우 현재의 명시적 추상화로는 장면의 운전 행동에 영향을 미치는 요소를 완전히 설명할 수 없거나 정의해야 하는 작업이 너무 사소하여 필요한 작업을 모두 열거하기 어렵습니다. 따라서 엔드투엔드 시스템은 이 정보를 사용하여 PnC에 자동으로 손실 없이 작동할 수 있다는 희망과 함께 (암시적으로) 포괄적인 표현을 제공합니다. 내 생각에는 이 요구 사항을 충족할 수 있는 모든 시스템은 일반화된 엔드 투 엔드(generalized end-to-end)라고 할 수 있습니다.
동적 상호 작용 시나리오의 일부 최적화와 같은 다른 문제에 관해서는 적어도 엔드 투 엔드만이 이러한 문제를 해결할 수 있는 것은 아니며 엔드 투 엔드가 최선의 솔루션이 아닐 수도 있다고 생각합니다. 전통적인 방법으로 이러한 문제를 해결할 수 있으며, 물론 데이터의 양이 충분히 클 경우에는 end-to-end가 더 나은 솔루션을 제공할 수도 있습니다.
엔드투엔드 자율주행에 대한 몇 가지 오해
1. 제어 신호와 웨이포인트는 엔드투엔드(end-to-end)로 출력되어야 합니다.
위에서 설명한 광범위한 엔드투엔드 개념에 동의한다면 이 문제는 이해하기 쉽습니다. 엔드투엔드는 작업량을 직접 출력하기보다는 정보의 무손실 전송을 강조해야 합니다. 좁은 엔드 투 엔드 접근 방식은 불필요한 문제를 많이 일으키고 안전을 보장하기 위해 많은 은밀한 솔루션이 필요합니다.
2. 엔드투엔드 시스템은 대형 모델이나 순수한 비전을 기반으로 해야 합니다.
엔드투엔드 자율주행, 대형 모델 자율주행, 순수 시각적 자율주행은 완전히 독립적인 개념이기 때문에 서로 연결될 필요가 없습니다. 엔드투엔드 시스템은 반드시 대형 모델에 의해 구동되는 것은 아니며 반드시 순수한 비전에 의해 구동되는 것도 아닙니다. 의.
3.위에서 언급한 좁은 의미의 엔드투엔드 시스템이 장기적으로 L3 수준 이상의 자율주행을 달성할 수 있을까?
현재 순수 엔드투엔드 FSD라고 불리는 성능은 L3 수준에서 요구되는 신뢰성과 안정성을 충족시키기에는 충분하지 않습니다. 좀 더 직설적으로 말하면, 자율주행 시스템이 대중에게 받아들여지길 원한다면, 어떤 경우에는 기계가 실수를 하고 인간이 쉽게 해결할 수 있다는 사실을 대중이 받아들일 수 있느냐가 관건이다. 이는 순수한 엔드투엔드 시스템에서는 더 어렵습니다.
예를 들어 북미에서는 웨이모(Waymo)와 크루즈(Cruise) 모두 사고가 많았다. 그러나 크루즈의 마지막 사고는 두 명의 부상을 입혔지만, 그러한 사고는 상당히 불가피하고 인간 운전자가 받아들일 수 있는 일입니다. 하지만 이번 사고 이후 시스템이 사고 위치와 부상자의 위치를 잘못 판단해 풀오버 모드로 다운그레이드돼 부상자를 장시간 끌고 다니는 일이 발생했다. 이런 행동은 정상적인 인간 운전자에게는 용납될 수 없습니다. 그것은 끝나지 않을 것이고, 결과는 매우 나쁠 것입니다.
더 나아가, 자율주행 시스템을 개발하고 운영하는 과정에서 이러한 상황을 어떻게 피할 수 있을지 신중히 고민해야 한다는 경각심을 불러일으키는 일입니다.
4. 그렇다면 지금 이 순간, 차세대 양산형 운전 보조 시스템을 위한 실질적인 솔루션은 무엇입니까?
현재 제가 이해한 바에 따르면, 주행 시 소위 엔드투엔드 모델을 사용할 때 궤적을 출력한 후 전통적인 방법을 기반으로 한 솔루션을 반환합니다. 또는 학습 기반 계획자와 기존의 궤도 계획 알고리즘은 여러 궤도를 동시에 출력한 다음 선택기를 통해 하나의 궤도를 선택합니다.
이러한 종류의 은밀한 솔루션과 선택은 이 시스템 아키텍처를 채택할 경우 이 캐스케이드 시스템 성능의 상한을 제한합니다. 이 방법이 여전히 순수한 피드백 학습에 기반을 두고 있다면 예측할 수 없는 실패가 발생하고 안전하다는 목표는 전혀 달성되지 않을 것입니다.
이 출력 궤적에 대해 전통적인 계획 방법을 사용하여 다시 최적화하거나 선택하는 것을 고려하면 이는 학습 중심 방법으로 생성된 궤적과 동일합니다. 그렇다면 이 궤적을 직접 최적화하고 검색하면 어떨까요?
물론 어떤 사람들은 이러한 최적화나 검색 문제가 볼록하지 않고, 상태 공간이 크고, 차량 내 시스템에서 실시간으로 실행하는 것이 불가능하다고 말할 수도 있습니다. 저는 모든 사람에게 다음 질문을 신중하게 생각해 보시기를 간청합니다. 지난 10년 동안 인식 시스템은 컴퓨팅 성능 배당금을 최소 100배 이상 받았지만 PnC 모듈은 어떻습니까?
또한 PnC 모듈이 최근 몇 년간 고급 최적화 알고리즘의 발전과 함께 대규모 컴퓨팅 성능을 사용하도록 허용한다면 이 결론이 여전히 정확합니까? 이런 종류의 문제에 대해서는 첫 번째 원칙에서 무엇이 옳은지 고려해야 합니다.
5. 데이터 기반 방법과 기존 방법 간의 관계를 어떻게 조화시킬 수 있습니까?
체스를 두는 것은 자율주행과 매우 유사한 예입니다. 딥마인드는 올해 2월 '검색 없는 그랜드마스터급 체스'라는 글을 게재해 알파고와 알파제로에서 MCTS 검색을 포기하고 데이터 기반만 활용하는 것이 가능한지 논의했다. 자율주행과 유사하게 하나의 네트워크만 사용하여 동작을 직접 출력하고 이후의 모든 단계는 무시됩니다.
이 기사는 상당한 양의 데이터와 모델 매개변수에도 불구하고 검색을 사용하지 않고도 상당히 합리적인 결과를 얻을 수 있다고 결론지었습니다. 그러나 검색을 이용한 방법과는 상당한 차이가 있다. 이는 복잡한 최종 게임을 처리하는 데 특히 유용합니다.
다단계 게임이 필요한 복잡한 시나리오나 코너 케이스의 경우, 이 비유는 여전히 기존 최적화 또는 검색 알고리즘을 완전히 포기하기 어렵게 만듭니다. AlphaZero와 같은 다양한 기술의 장점을 합리적으로 활용하는 것이 성능을 향상시키는 가장 좋은 방법입니다.
6.전통적인 방법 = 규칙 기반이라면?
저는 많은 사람들과 이야기를 나누면서 이 개념을 계속해서 고쳐야 했습니다. 많은 사람들은 그것이 순수한 데이터 중심이 아닌 한 규칙 기반도 아니라고 믿습니다. 예를 들어 체스에서 공식과 체스 기록을 암기하는 것은 규칙 기반이지만 AlphaGo 및 AlphaZero와 마찬가지로 모델에 최적화 및 검색을 통해 합리적일 수 있는 기능을 제공합니다. 규칙 기반이라고 할 수는 없다고 생각합니다.
이 때문에 현재는 대형 모델 자체가 결여되어 있으며, 연구자들은 CoT 등의 방법을 통해 학습 중심 모델을 제공하려고 노력하고 있다. 하지만 순수한 데이터 기반의 영상 인식과 설명할 수 없는 이유가 필요한 작업과 달리, 운전하는 사람의 모든 행동에는 분명한 원동력이 있습니다.
적절한 알고리즘 아키텍처 설계에서 의사결정 궤도는 다양한 사례를 수정하기 위해 매개변수를 강제로 패치하고 조정하는 대신 과학적 목표에 따라 가변적이 되고 균일하게 최적화되어야 합니다. 이러한 시스템에는 당연히 모든 종류의 하드코딩된 이상한 규칙이 없습니다.
결론
간단히 말해서, 엔드투엔드(end-to-end)는 유망한 기술 경로일 수 있지만 개념이 어떻게 적용되는지에 대해서는 더 많은 연구가 필요합니다. 수많은 데이터와 모델 매개변수가 유일한 올바른 해결책은 아니라고 생각하며, 다른 사람을 능가하려면 계속 열심히 노력해야 합니다.
게시 시간: 2024년 4월 24일