Paano tukuyin ang isang end-to-end na autonomous driving system?
Ang pinakakaraniwang kahulugan ay ang isang "end-to-end" na sistema ay isang sistema na naglalagay ng hilaw na impormasyon ng sensor at direktang naglalabas ng mga variable na pinag-aalala sa gawain. Halimbawa, sa pagkilala sa imahe, ang CNN ay maaaring tawaging "end-to-end" kumpara sa tradisyonal na feature + classifier method.
Sa mga autonomous na gawain sa pagmamaneho, ang data mula sa iba't ibang sensor (gaya ng mga camera, LiDAR, Radar, o IMU...) ay input, at ang mga signal ng control ng sasakyan (gaya ng throttle o steering wheel angle) ay direktang output. Upang isaalang-alang ang mga isyu sa adaptasyon ng iba't ibang modelo ng sasakyan, ang output ay maaari ding i-relax sa tilapon ng pagmamaneho ng sasakyan.
Batay sa pundasyong ito, lumitaw din ang mga modular na end-to-end na konsepto, tulad ng UniAD, na nagpapahusay sa pagganap sa pamamagitan ng pagpapakilala ng pangangasiwa sa mga nauugnay na intermediate na gawain, bilang karagdagan sa mga panghuling output control signal o waypoint. Gayunpaman, mula sa isang makitid na kahulugan, ang kakanyahan ng end-to-end ay dapat na walang pagkawala ng paghahatid ng pandama na impormasyon.
Suriin muna natin ang mga interface sa pagitan ng sensing at PnC modules sa mga non-end-to-end system. Karaniwan, nakakakita kami ng mga naka-whitelist na bagay (gaya ng mga kotse, tao, atbp.) at sinusuri at hinuhulaan ang mga katangian ng mga ito. Nalaman din namin ang tungkol sa static na kapaligiran (tulad ng istraktura ng kalsada, mga limitasyon ng bilis, mga ilaw ng trapiko, atbp.). Kung tayo ay mas detalyado, makikita rin natin ang mga unibersal na hadlang. Sa madaling salita, ang output ng impormasyon ng mga pananaw na ito ay bumubuo ng isang modelo ng pagpapakita ng mga kumplikadong eksena sa pagmamaneho.
Gayunpaman, para sa ilang napakalinaw na eksena, hindi ganap na mailarawan ng kasalukuyang tahasang abstraction ang mga salik na nakakaapekto sa gawi sa pagmamaneho sa eksena, o ang mga gawaing kailangan nating tukuyin ay masyadong walang halaga, at mahirap ibilang ang lahat ng kinakailangang gawain. Samakatuwid, ang mga end-to-end na system ay nagbibigay ng isang (marahil hindi malinaw) na komprehensibong representasyon na may pag-asa na awtomatiko at walang pagkawalang pagkilos sa mga PnC gamit ang impormasyong ito. Sa aking opinyon, ang lahat ng mga sistemang makakatugon sa pangangailangang ito ay matatawag na pangkalahatan na end-to-end.
Tulad ng para sa iba pang mga isyu, tulad ng ilang pag-optimize ng mga sitwasyon ng dynamic na pakikipag-ugnayan, naniniwala ako na hindi lang end-to-end ang makakalutas sa mga problemang ito, at maaaring hindi ang end-to-end ang pinakamahusay na solusyon. Maaaring lutasin ng mga tradisyunal na pamamaraan ang mga problemang ito, at siyempre, kapag sapat na ang dami ng data, maaaring magbigay ng mas mahusay na solusyon ang end-to-end.
Ilang hindi pagkakaunawaan tungkol sa end-to-end na autonomous na pagmamaneho
1. Ang mga control signal at waypoint ay dapat na output upang maging end-to-end.
Kung sumasang-ayon ka sa malawak na end-to-end na konsepto na tinalakay sa itaas, kung gayon ang problemang ito ay madaling maunawaan. Dapat bigyang-diin ng end-to-end ang walang pagkawalang pagpapadala ng impormasyon sa halip na direktang ilabas ang dami ng gawain. Ang isang makitid na end-to-end na diskarte ay magdudulot ng maraming hindi kinakailangang problema at mangangailangan ng maraming patagong solusyon upang matiyak ang kaligtasan.
2.Ang end-to-end na sistema ay dapat na nakabatay sa malalaking modelo o purong paningin.
Walang kinakailangang koneksyon sa pagitan ng end-to-end na autonomous na pagmamaneho, malalaking modelong autonomous na pagmamaneho, at puro visual na autonomous na pagmamaneho dahil ang mga ito ay ganap na independiyenteng mga konsepto; ang isang end-to-end na sistema ay hindi kinakailangang hinihimok ng malalaking modelo, at hindi rin ito kinakailangang hinimok ng dalisay na paningin. ng.
3. Sa katagalan, posible ba para sa nabanggit na end-to-end na sistema sa isang makitid na kahulugan na makamit ang autonomous na pagmamaneho sa itaas ng antas ng L3?
Ang pagganap ng kasalukuyang tinatawag na purong end-to-end na FSD ay malayo sa sapat upang matugunan ang pagiging maaasahan at katatagan na kinakailangan sa antas ng L3. Sa madaling salita, kung gusto ng self-driving system na tanggapin ng publiko, ang susi ay kung matatanggap ng publiko na sa ilang pagkakataon, magkakamali ang makina, at madaling malulutas ng mga tao ang mga ito. Ito ay mas mahirap para sa isang purong end-to-end na sistema.
Halimbawa, ang Waymo at Cruise sa North America ay nagkaroon ng maraming aksidente. Gayunpaman, ang huling aksidente ni Cruise ay nagresulta sa dalawang pinsala, bagaman ang mga naturang aksidente ay medyo hindi maiiwasan at katanggap-tanggap para sa mga driver ng tao. Gayunpaman, pagkatapos ng aksidenteng ito, mali ang paghusga ng system sa lokasyon ng aksidente at lokasyon ng mga nasugatan at ibinaba sa pull-over mode, na naging sanhi ng pagkaladkad ng mga nasugatan sa mahabang panahon. Ang pag-uugali na ito ay hindi katanggap-tanggap sa sinumang normal na driver ng tao. Hindi ito gagawin, at ang mga resulta ay magiging napakasama.
Higit pa rito, ito ay isang wake-up call na dapat nating maingat na isaalang-alang kung paano maiwasan ang sitwasyong ito sa panahon ng pagbuo at pagpapatakbo ng mga autonomous na sistema sa pagmamaneho.
4. Kaya sa sandaling ito, ano ang mga praktikal na solusyon para sa susunod na henerasyon ng mass-produced assisted driving system?
Ayon sa aking kasalukuyang pag-unawa, kapag ginagamit ang tinatawag na end-to-end na modelo sa pagmamaneho, pagkatapos i-output ang tilapon, ito ay magbabalik ng isang solusyon batay sa mga tradisyonal na pamamaraan. Bilang kahalili, ang mga tagaplano na nakabatay sa pag-aaral at mga tradisyunal na algorithm ng pagpaplano ng trajectory ay naglalabas ng maraming mga trajectory nang sabay-sabay at pagkatapos ay pumili ng isang tilapon sa pamamagitan ng isang selector.
Nililimitahan ng ganitong uri ng palihim na solusyon at pagpili ang pinakamataas na limitasyon ng pagganap ng sistemang ito ng kaskad kung pinagtibay ang arkitektura ng system na ito. Kung ang pamamaraang ito ay batay pa rin sa purong pag-aaral ng feedback, ang mga hindi inaasahang kabiguan ay magaganap at ang layunin ng pagiging ligtas ay hindi makakamit sa lahat.
Kung isasaalang-alang namin ang muling pag-optimize o pagpili gamit ang mga tradisyonal na pamamaraan ng pagpaplano sa output trajectory na ito, ito ay katumbas ng trajectory na ginawa ng learning-driven na pamamaraan; samakatuwid, bakit hindi namin direktang i-optimize at hanapin ang trajectory na ito?
Siyempre, sasabihin ng ilang tao na ang gayong problema sa pag-optimize o paghahanap ay hindi matambok, may malaking puwang sa estado, at imposibleng tumakbo nang real-time sa isang in-vehicle system. Nakikiusap ako sa lahat na maingat na isaalang-alang ang tanong na ito: Sa nakalipas na sampung taon, ang sistema ng persepsyon ay nakatanggap ng hindi bababa sa isang daang beses ng computing power dividend, ngunit paano ang ating PnC module?
Kung pahihintulutan din natin ang module ng PnC na gumamit ng malaking kapangyarihan sa pag-compute, kasama ng ilang pag-unlad sa mga advanced na algorithm sa pag-optimize sa mga nakaraang taon, tama pa ba ang konklusyong ito? Para sa ganitong uri ng problema, dapat nating isaalang-alang kung ano ang tama mula sa mga unang prinsipyo.
5.Paano ipagkasundo ang relasyon sa pagitan ng data-driven at tradisyonal na pamamaraan?
Ang paglalaro ng chess ay isang halimbawa na halos kapareho ng autonomous driving. Noong Pebrero ng taong ito, nag-publish ang Deepmind ng isang artikulo na tinatawag na "Grandmaster-Level Chess Without Search", na tinatalakay kung posible na gumamit lang ng data-driven at abandunahin ang paghahanap sa MCTS sa AlphaGo at AlphaZero. Katulad ng autonomous driving, isang network lang ang ginagamit para direktang mag-output ng mga aksyon, habang binabalewala ang lahat ng kasunod na hakbang.
Ang artikulo ay nagtatapos na, sa kabila ng malaking halaga ng data at mga parameter ng modelo, medyo makatwirang mga resulta ay maaaring makuha nang hindi gumagamit ng paghahanap. Gayunpaman, may mga makabuluhang pagkakaiba kumpara sa mga pamamaraan gamit ang paghahanap. Ito ay lalong kapaki-pakinabang para sa pagharap sa ilang kumplikadong mga endgame.
Para sa mga kumplikadong sitwasyon o mga kaso sa sulok na nangangailangan ng mga multi-step na laro, pinahihirapan pa rin ng pagkakatulad na ito na ganap na iwanan ang tradisyonal na pag-optimize o mga algorithm sa paghahanap. Ang makatwirang paggamit ng mga pakinabang ng iba't ibang mga teknolohiya tulad ng AlphaZero ay ang pinakamahusay na paraan upang mapabuti ang pagganap.
6.Tradisyunal na pamamaraan = nakabatay sa panuntunan kung iba?
Kinailangan kong itama ang konseptong ito nang paulit-ulit habang nakikipag-usap sa maraming tao. Maraming tao ang naniniwala na hangga't hindi ito puro data-driven, hindi ito nakabatay sa panuntunan. Halimbawa, sa chess, ang pagsasaulo ng mga formula at talaan ng chess sa pamamagitan ng pag-uulit ay nakabatay sa panuntunan, ngunit tulad ng AlphaGo at AlphaZero, binibigyan nito ang modelo ng kakayahang maging makatuwiran sa pamamagitan ng pag-optimize at paghahanap. Sa palagay ko ay hindi ito matatawag na batay sa panuntunan.
Dahil dito, ang malaking modelo mismo ay kasalukuyang nawawala, at sinusubukan ng mga mananaliksik na magbigay ng modelong hinihimok ng pag-aaral sa pamamagitan ng mga pamamaraan tulad ng CoT. Gayunpaman, hindi tulad ng mga gawain na nangangailangan ng purong data-driven na pagkilala sa imahe at hindi maipaliwanag na mga dahilan, ang bawat aksyon ng isang taong nagmamaneho ay may malinaw na puwersa sa pagmamaneho.
Sa ilalim ng naaangkop na disenyo ng arkitektura ng algorithm, dapat maging variable ang trajectory ng desisyon at maging pare-parehong na-optimize sa ilalim ng gabay ng mga layuning pang-agham, sa halip na sapilitang pag-patch at pagsasaayos ng mga parameter upang ayusin ang iba't ibang kaso. Ang ganitong sistema ay natural na walang lahat ng uri ng hard-coded kakaibang panuntunan.
Konklusyon
Sa madaling salita, ang dulo hanggang dulo ay maaaring isang magandang teknikal na ruta, ngunit kung paano inilalapat ang konsepto ay nangangailangan ng higit pang pananaliksik. Sa tingin ko, hindi lang ang isang grupo ng data at mga parameter ng modelo ang tamang solusyon, at kung gusto nating malampasan ang iba, kailangan nating patuloy na magtrabaho nang husto.
Oras ng post: Abr-24-2024