Como definir um sistema de direção autônoma de ponta a ponta?
A definição mais comum é que um sistema "ponta a ponta" é um sistema que insere informações brutas do sensor e produz diretamente variáveis de interesse para a tarefa. Por exemplo, no reconhecimento de imagem, a CNN pode ser chamada de "ponta a ponta" em comparação com o método tradicional de recurso + classificador.
Em tarefas de direção autônoma, os dados de vários sensores (como câmeras, LiDAR, Radar ou IMU...) são inseridos e os sinais de controle do veículo (como acelerador ou ângulo do volante) são emitidos diretamente. Para considerar as questões de adaptação de diferentes modelos de veículos, a saída também pode ser relaxada para a trajetória de condução do veículo.
Com base nesta base, também surgiram conceitos modulares ponta a ponta, como o UniAD, que melhoram o desempenho ao introduzir a supervisão de tarefas intermediárias relevantes, além dos sinais de controle de saída final ou pontos de referência. No entanto, a partir de uma definição tão restrita, a essência do fim a fim deveria ser a transmissão sem perdas de informações sensoriais.
Vamos primeiro revisar as interfaces entre os módulos de detecção e PnC em sistemas não ponta a ponta. Normalmente, detectamos objetos na lista de permissões (como carros, pessoas, etc.) e analisamos e prevemos suas propriedades. Também aprendemos sobre o ambiente estático (como estrutura da estrada, limites de velocidade, semáforos, etc.). Se fôssemos mais detalhados, também detectaríamos obstáculos universais. Em suma, a informação produzida por estas percepções constitui um modelo de exibição de cenas de condução complexas.
No entanto, para algumas cenas muito óbvias, a actual abstracção explícita não pode descrever completamente os factores que afectam o comportamento de condução na cena, ou as tarefas que precisamos de definir são demasiado triviais, e é difícil enumerar todas as tarefas necessárias. Portanto, os sistemas ponta a ponta fornecem uma representação abrangente (talvez implicitamente) com a esperança de agir de forma automática e sem perdas nos PnCs com essas informações. Na minha opinião, todos os sistemas que podem atender a esse requisito podem ser chamados de ponta a ponta generalizados.
Quanto a outras questões, como algumas otimizações de cenários de interação dinâmica, acredito que pelo menos não só o ponta a ponta pode resolver esses problemas, e o ponta a ponta pode não ser a melhor solução. Os métodos tradicionais podem resolver estes problemas e, claro, quando a quantidade de dados é suficientemente grande, o método de ponta a ponta pode fornecer uma solução melhor.
Alguns mal-entendidos sobre a condução autônoma de ponta a ponta
1. Os sinais de controle e pontos de referência devem ser emitidos de ponta a ponta.
Se você concorda com o conceito amplo de ponta a ponta discutido acima, então esse problema é fácil de entender. De ponta a ponta deve enfatizar a transmissão de informações sem perdas, em vez de gerar diretamente o volume da tarefa. Uma abordagem estreita de ponta a ponta causará muitos problemas desnecessários e exigirá muitas soluções secretas para garantir a segurança.
2.O sistema ponta a ponta deve ser baseado em modelos grandes ou visão pura.
Não existe uma ligação necessária entre a condução autónoma de ponta a ponta, a condução autónoma de grandes modelos e a condução autónoma puramente visual porque são conceitos completamente independentes; um sistema ponta a ponta não é necessariamente impulsionado por grandes modelos, nem é necessariamente impulsionado por pura visão. de.
3.A longo prazo, é possível que o sistema ponta a ponta acima mencionado, em sentido estrito, alcance uma condução autónoma acima do nível L3?
O desempenho do que atualmente é chamado de FSD puro de ponta a ponta está longe de ser suficiente para atender à confiabilidade e estabilidade exigidas no nível L3. Para ser mais direto, se o sistema de direção autônoma deseja ser aceito pelo público, a chave é saber se o público pode aceitar que, em alguns casos, a máquina cometerá erros e os humanos poderão resolvê-los facilmente. Isso é mais difícil para um sistema puro de ponta a ponta.
Por exemplo, tanto a Waymo quanto a Cruise na América do Norte tiveram muitos acidentes. No entanto, o último acidente de Cruise resultou em dois feridos, embora tais acidentes sejam bastante inevitáveis e aceitáveis para condutores humanos. Porém, após o acidente, o sistema julgou mal o local do acidente e a localização dos feridos e rebaixou para o modo de parada, fazendo com que os feridos fossem arrastados por um longo tempo. Este comportamento é inaceitável para qualquer condutor humano normal. Isso não será feito e os resultados serão muito ruins.
Além disso, este é um alerta para que devamos considerar cuidadosamente como evitar esta situação durante o desenvolvimento e operação de sistemas de condução autónoma.
4.Então, neste momento, quais são as soluções práticas para a próxima geração de sistemas de condução assistida produzidos em massa?
Pelo meu entendimento atual, ao utilizar o chamado modelo ponta a ponta na condução, após a saída da trajetória, ele retornará uma solução baseada em métodos tradicionais. Alternativamente, planejadores baseados em aprendizagem e algoritmos tradicionais de planejamento de trajetória geram múltiplas trajetórias simultaneamente e então selecionam uma trajetória por meio de um seletor.
Este tipo de solução e escolha secreta limita o limite superior do desempenho deste sistema em cascata se esta arquitetura de sistema for adotada. Se este método ainda for baseado no puro aprendizado por feedback, ocorrerão falhas imprevisíveis e o objetivo de segurança não será alcançado de forma alguma.
Se considerarmos a reotimização ou seleção utilizando métodos de planeamento tradicionais nesta trajetória de resultados, isto é equivalente à trajetória produzida pelo método orientado para a aprendizagem; portanto, por que não otimizamos e buscamos diretamente essa trajetória?
É claro que algumas pessoas diriam que tal problema de otimização ou busca não é convexo, possui um grande espaço de estados e é impossível de ser executado em tempo real em um sistema veicular. Imploro a todos que considerem cuidadosamente esta questão: nos últimos dez anos, o sistema de percepção recebeu pelo menos cem vezes o dividendo do poder de computação, mas e o nosso módulo PnC?
Se também permitirmos que o módulo PnC use grande poder computacional, combinado com alguns avanços em algoritmos de otimização avançados nos últimos anos, esta conclusão ainda está correta? Para este tipo de problema, devemos considerar o que é correto desde os primeiros princípios.
5.Como conciliar a relação entre os métodos baseados em dados e os métodos tradicionais?
Jogar xadrez é um exemplo muito semelhante à direção autônoma. Em fevereiro deste ano, Deepmind publicou um artigo chamado "Grandmaster-Level Chess Without Search", discutindo se é viável usar apenas a pesquisa baseada em dados e abandonar a pesquisa MCTS no AlphaGo e AlphaZero. Semelhante à condução autônoma, apenas uma rede é usada para gerar ações diretamente, enquanto todas as etapas subsequentes são ignoradas.
O artigo conclui que, apesar da quantidade considerável de dados e parâmetros do modelo, resultados bastante razoáveis podem ser obtidos sem o uso de pesquisa. No entanto, existem diferenças significativas em comparação com métodos que utilizam pesquisa. Isto é especialmente útil para lidar com alguns finais complexos.
Para cenários complexos ou casos extremos que exigem jogos de várias etapas, essa analogia ainda torna difícil abandonar completamente a otimização tradicional ou algoritmos de busca. Utilizar razoavelmente as vantagens de várias tecnologias como AlphaZero é a melhor maneira de melhorar o desempenho.
6.Método tradicional = baseado em regras, caso contrário?
Tive que corrigir esse conceito repetidas vezes enquanto conversava com muitas pessoas. Muitas pessoas acreditam que, desde que não seja puramente baseado em dados, não é baseado em regras. Por exemplo, no xadrez, a memorização mecânica de fórmulas e registros de xadrez é baseada em regras, mas, como AlphaGo e AlphaZero, dá ao modelo a capacidade de ser racional por meio de otimização e pesquisa. Não acho que possa ser chamado de baseado em regras.
Por causa disso, o grande modelo em si está faltando e os pesquisadores estão tentando fornecer um modelo orientado ao aprendizado por meio de métodos como o CoT. No entanto, ao contrário das tarefas que exigem reconhecimento de imagem puramente baseado em dados e motivos inexplicáveis, cada ação de uma pessoa ao dirigir tem uma força motriz clara.
Sob o projeto de arquitetura de algoritmo apropriado, a trajetória de decisão deve tornar-se variável e ser uniformemente otimizada sob a orientação de objetivos científicos, em vez de corrigir e ajustar parâmetros à força para corrigir casos diferentes. Naturalmente, tal sistema não possui todos os tipos de regras estranhas codificadas.
Conclusão
Em suma, de ponta a ponta pode ser um caminho técnico promissor, mas a forma como o conceito é aplicado requer mais investigação. Acho que um monte de dados e parâmetros de modelo não é a única solução correta, e se quisermos superar os outros, temos que continuar trabalhando duro.
Horário da postagem: 24 de abril de 2024