Làm thế nào để xác định một hệ thống lái xe tự động từ đầu đến cuối?
Định nghĩa phổ biến nhất là hệ thống "từ đầu đến cuối" là hệ thống nhập thông tin cảm biến thô và xuất trực tiếp các biến liên quan đến nhiệm vụ. Ví dụ, trong nhận dạng hình ảnh, CNN có thể được gọi là "end-to-end" so với phương pháp tính năng + phân loại truyền thống.
Trong các nhiệm vụ lái xe tự động, dữ liệu từ nhiều cảm biến khác nhau (chẳng hạn như camera, LiDAR, Radar hoặc IMU...) được nhập vào và các tín hiệu điều khiển phương tiện (như ga hoặc góc vô lăng) được xuất trực tiếp. Để xem xét các vấn đề thích ứng của các mẫu xe khác nhau, đầu ra cũng có thể được điều chỉnh phù hợp với quỹ đạo lái xe của xe.
Dựa trên nền tảng này, các khái niệm mô-đun đầu cuối cũng đã xuất hiện, chẳng hạn như UniAD, giúp cải thiện hiệu suất bằng cách đưa ra tính năng giám sát các tác vụ trung gian có liên quan, bên cạnh các tín hiệu hoặc điểm tham chiếu điều khiển đầu ra cuối cùng. Tuy nhiên, từ định nghĩa hẹp như vậy, bản chất của end-to-end phải là việc truyền tải thông tin giác quan một cách không bị mất mát.
Trước tiên chúng ta hãy xem xét các giao diện giữa các mô-đun cảm biến và PnC trong các hệ thống không đầu cuối. Thông thường, chúng tôi phát hiện các đối tượng nằm trong danh sách cho phép (chẳng hạn như ô tô, con người, v.v.) rồi phân tích cũng như dự đoán các thuộc tính của chúng. Chúng ta cũng tìm hiểu về môi trường tĩnh (như cấu trúc đường, giới hạn tốc độ, đèn giao thông, v.v.). Nếu chúng ta chi tiết hơn, chúng ta cũng sẽ phát hiện được những trở ngại phổ quát. Nói tóm lại, thông tin đầu ra từ những nhận thức này tạo thành một mô hình hiển thị các cảnh lái xe phức tạp.
Tuy nhiên, đối với một số cảnh rất rõ ràng, sự trừu tượng hóa rõ ràng hiện tại không thể mô tả đầy đủ các yếu tố ảnh hưởng đến hành vi lái xe trong cảnh hoặc các nhiệm vụ chúng ta cần xác định quá tầm thường và khó có thể liệt kê hết tất cả các nhiệm vụ cần thiết. Do đó, các hệ thống đầu cuối cung cấp một bản trình bày toàn diện (có lẽ là ngầm) với hy vọng hành động tự động và không mất mát trên PnC với thông tin này. Theo tôi, tất cả các hệ thống có thể đáp ứng được yêu cầu này đều có thể gọi là end-to-end tổng quát.
Đối với các vấn đề khác, chẳng hạn như một số tối ưu hóa các kịch bản tương tác động, tôi tin rằng ít nhất không chỉ end-to-end mới có thể giải quyết được những vấn đề này, và end-to-end có thể không phải là giải pháp tốt nhất. Các phương pháp truyền thống có thể giải quyết những vấn đề này và tất nhiên, khi lượng dữ liệu đủ lớn, end-to-end có thể cung cấp giải pháp tốt hơn.
Một số hiểu lầm về xe tự lái end-to-end
1. Tín hiệu điều khiển và điểm tham chiếu phải được xuất ra từ đầu đến cuối.
Nếu bạn đồng ý với khái niệm end-to-end rộng rãi đã thảo luận ở trên thì vấn đề này rất dễ hiểu. End-to-end nên nhấn mạnh việc truyền tải thông tin không bị mất thay vì xuất trực tiếp khối lượng nhiệm vụ. Cách tiếp cận hẹp từ đầu đến cuối sẽ gây ra nhiều rắc rối không đáng có và cần nhiều giải pháp ngấm ngầm để đảm bảo an toàn.
2. Hệ thống đầu cuối phải dựa trên các mô hình lớn hoặc tầm nhìn thuần túy.
Không có mối liên hệ cần thiết nào giữa lái xe tự động từ đầu đến cuối, lái xe tự động mô hình lớn và lái xe tự động thuần túy bằng hình ảnh vì chúng là những khái niệm hoàn toàn độc lập; một hệ thống đầu cuối không nhất thiết phải được điều khiển bởi các mô hình lớn cũng như không nhất thiết được điều khiển bởi tầm nhìn thuần túy. của.
3. Về lâu dài, liệu hệ thống đầu cuối nói trên theo nghĩa hẹp có thể đạt được khả năng lái tự động trên mức L3 không?
Hiệu suất của cái hiện được gọi là FSD đầu cuối thuần túy còn lâu mới đủ để đáp ứng độ tin cậy và độ ổn định cần thiết ở cấp độ L3. Nói một cách thẳng thắn hơn, nếu hệ thống tự lái muốn được công chúng chấp nhận, điều quan trọng là công chúng có chấp nhận được rằng trong một số trường hợp, máy móc sẽ mắc lỗi và con người có thể dễ dàng giải quyết chúng hay không. Điều này khó khăn hơn đối với một hệ thống đầu cuối thuần túy.
Ví dụ, cả Waymo và Cruise ở Bắc Mỹ đều gặp nhiều tai nạn. Tuy nhiên, vụ tai nạn cuối cùng của Cruise khiến hai người bị thương, mặc dù những tai nạn như vậy là khá khó tránh khỏi và có thể chấp nhận được đối với người lái xe. Tuy nhiên, sau vụ tai nạn này, hệ thống đã phán đoán sai vị trí xảy ra tai nạn và vị trí của người bị thương nên hạ cấp xuống chế độ kéo xe khiến người bị thương bị kéo lê rất lâu. Hành vi này là không thể chấp nhận được đối với bất kỳ người lái xe bình thường nào. Nó sẽ không được thực hiện và kết quả sẽ rất tệ.
Hơn nữa, đây là lời cảnh tỉnh mà chúng ta nên cân nhắc kỹ lưỡng để tránh tình trạng này trong quá trình phát triển và vận hành hệ thống lái tự động.
4.Vậy lúc này, đâu là giải pháp thiết thực cho thế hệ hệ thống lái hỗ trợ sản xuất hàng loạt tiếp theo?
Theo hiểu biết hiện tại của tôi, khi sử dụng cái gọi là mô hình end-to-end trong lái xe, sau khi xuất ra quỹ đạo sẽ trả về giải pháp dựa trên các phương pháp truyền thống. Ngoài ra, các nhà lập kế hoạch dựa trên học tập và các thuật toán lập kế hoạch quỹ đạo truyền thống tạo ra nhiều quỹ đạo cùng một lúc và sau đó chọn một quỹ đạo thông qua bộ chọn.
Loại giải pháp và lựa chọn bí mật này sẽ giới hạn giới hạn trên về hiệu suất của hệ thống xếp tầng này nếu kiến trúc hệ thống này được áp dụng. Nếu phương pháp này vẫn dựa trên việc học phản hồi thuần túy, những thất bại khó lường sẽ xảy ra và mục tiêu an toàn sẽ không đạt được chút nào.
Nếu chúng tôi xem xét việc tối ưu hóa lại hoặc lựa chọn sử dụng các phương pháp lập kế hoạch truyền thống trên quỹ đạo đầu ra này, thì điều này tương đương với quỹ đạo được tạo ra bởi phương pháp học tập; do đó, tại sao chúng ta không trực tiếp tối ưu hóa và tìm kiếm quỹ đạo này?
Tất nhiên, một số người sẽ nói rằng vấn đề tối ưu hóa hoặc tìm kiếm như vậy là không lồi, có không gian trạng thái lớn và không thể chạy trong thời gian thực trên hệ thống trên xe. Tôi cầu xin mọi người hãy xem xét cẩn thận câu hỏi này: Trong mười năm qua, hệ thống nhận thức đã nhận được ít nhất một trăm lần lợi tức về sức mạnh tính toán, nhưng còn mô-đun PnC của chúng ta thì sao?
Nếu chúng ta cũng cho phép mô-đun PnC sử dụng sức mạnh tính toán lớn, kết hợp với một số tiến bộ trong thuật toán tối ưu hóa nâng cao trong những năm gần đây, liệu kết luận này có còn đúng không? Đối với loại vấn đề này, chúng ta nên xem xét điều gì là đúng ngay từ những nguyên tắc đầu tiên.
5. Làm thế nào để dung hòa mối quan hệ giữa phương pháp truyền thống và dựa trên dữ liệu?
Chơi cờ là một ví dụ rất giống với việc lái xe tự động. Vào tháng 2 năm nay, Deepmind đã xuất bản một bài báo có tên "Cờ vua cấp đại kiện tướng không cần tìm kiếm", thảo luận về việc liệu việc chỉ sử dụng dựa trên dữ liệu và từ bỏ tìm kiếm MCTS trong AlphaGo và AlphaZero có khả thi hay không. Tương tự như lái xe tự động, chỉ có một mạng được sử dụng để xuất trực tiếp các hành động, trong khi tất cả các bước tiếp theo đều bị bỏ qua.
Bài viết kết luận rằng, mặc dù có lượng dữ liệu và tham số mô hình đáng kể, vẫn có thể thu được kết quả khá hợp lý mà không cần sử dụng tìm kiếm. Tuy nhiên, có sự khác biệt đáng kể so với các phương pháp sử dụng tìm kiếm. Điều này đặc biệt hữu ích khi giải quyết một số tàn cuộc phức tạp.
Đối với các tình huống phức tạp hoặc các trường hợp góc yêu cầu trò chơi nhiều bước, sự tương tự này vẫn gây khó khăn cho việc từ bỏ hoàn toàn các thuật toán tìm kiếm hoặc tối ưu hóa truyền thống. Tận dụng hợp lý lợi thế của các công nghệ khác nhau như AlphaZero là cách tốt nhất để cải thiện hiệu suất.
6.Phương pháp truyền thống = dựa trên quy tắc nếu khác?
Tôi đã phải sửa đi sửa lại khái niệm này khi nói chuyện với nhiều người. Nhiều người tin rằng miễn là nó không hoàn toàn dựa trên dữ liệu thì nó không dựa trên quy tắc. Ví dụ, trong cờ vua, việc ghi nhớ các công thức và bản ghi cờ vua bằng cách học vẹt là dựa trên quy tắc, nhưng giống như AlphaGo và AlphaZero, nó mang lại cho mô hình khả năng hợp lý thông qua tối ưu hóa và tìm kiếm. Tôi không nghĩ nó có thể được gọi là dựa trên quy tắc.
Do đó, bản thân mô hình lớn hiện đang bị thiếu và các nhà nghiên cứu đang cố gắng cung cấp một mô hình hướng tới học tập thông qua các phương pháp như CoT. Tuy nhiên, không giống như những nhiệm vụ yêu cầu nhận dạng hình ảnh thuần túy dựa trên dữ liệu và những lý do không thể giải thích được, mọi hành động của người lái xe đều có động lực rõ ràng.
Theo thiết kế kiến trúc thuật toán phù hợp, quỹ đạo quyết định sẽ trở nên thay đổi và được tối ưu hóa thống nhất dưới sự hướng dẫn của các mục tiêu khoa học, thay vì buộc phải vá và điều chỉnh các tham số để khắc phục các trường hợp khác nhau. Một hệ thống như vậy đương nhiên không có đủ loại quy tắc kỳ lạ được mã hóa cứng.
Phần kết luận
Nói tóm lại, end-to-end có thể là một lộ trình kỹ thuật đầy hứa hẹn, nhưng cách áp dụng khái niệm này cần nhiều nghiên cứu hơn. Tôi nghĩ một loạt dữ liệu và tham số mô hình không phải là giải pháp đúng đắn duy nhất và nếu muốn vượt qua những người khác, chúng ta phải tiếp tục làm việc chăm chỉ.
Thời gian đăng: 24-04-2024