એન્ડ-ટુ-એન્ડ ઓટોનોમસ ડ્રાઇવિંગ સિસ્ટમ કેવી રીતે વ્યાખ્યાયિત કરવી?
સૌથી સામાન્ય વ્યાખ્યા એ છે કે "એન્ડ-ટુ-એન્ડ" સિસ્ટમ એવી સિસ્ટમ છે જે કાચી સેન્સર માહિતીને ઇનપુટ કરે છે અને કાર્ય માટે ચિંતાના ચલોને સીધા જ આઉટપુટ કરે છે. ઉદાહરણ તરીકે, ઇમેજ રેકગ્નિશનમાં, પરંપરાગત સુવિધા + વર્ગીકૃત પદ્ધતિની તુલનામાં CNN ને "એન્ડ-ટુ-એન્ડ" કહી શકાય.
સ્વાયત્ત ડ્રાઇવિંગ કાર્યોમાં, વિવિધ સેન્સર (જેમ કે કેમેરા, LiDAR, રડાર, અથવા IMU...)નો ડેટા ઇનપુટ છે અને વાહન નિયંત્રણ સંકેતો (જેમ કે થ્રોટલ અથવા સ્ટીયરિંગ વ્હીલ એંગલ) સીધા આઉટપુટ છે. વિવિધ વાહન મોડેલોના અનુકૂલન મુદ્દાઓને ધ્યાનમાં લેવા માટે, આઉટપુટને વાહનના ડ્રાઇવિંગ માર્ગમાં પણ હળવા કરી શકાય છે.
આ પાયાના આધારે, મોડ્યુલર એન્ડ-ટુ-એન્ડ કોન્સેપ્ટ્સ પણ ઉભરી આવ્યા છે, જેમ કે UniAD, જે અંતિમ આઉટપુટ કંટ્રોલ સિગ્નલો અથવા વેપોઇન્ટ્સ ઉપરાંત સંબંધિત મધ્યવર્તી કાર્યોની દેખરેખની રજૂઆત કરીને કામગીરીમાં સુધારો કરે છે. જો કે, આવી સંકુચિત વ્યાખ્યામાંથી, અંત-થી-અંતનો સાર એ સંવેદનાત્મક માહિતીનું નુકસાન વિનાનું પ્રસારણ હોવું જોઈએ.
ચાલો પહેલા નોન-એન્ડ-ટુ-એન્ડ સિસ્ટમ્સમાં સેન્સિંગ અને PnC મોડ્યુલો વચ્ચેના ઇન્ટરફેસની સમીક્ષા કરીએ. સામાન્ય રીતે, અમે વ્હાઇટલિસ્ટેડ ઑબ્જેક્ટ્સ (જેમ કે કાર, લોકો, વગેરે) શોધીએ છીએ અને તેમના ગુણધર્મોનું વિશ્લેષણ અને અનુમાન કરીએ છીએ. અમે સ્થિર વાતાવરણ (જેમ કે રસ્તાનું માળખું, ગતિ મર્યાદા, ટ્રાફિક લાઇટ વગેરે) વિશે પણ શીખીએ છીએ. જો આપણે વધુ વિગતવાર હોત, તો અમે સાર્વત્રિક અવરોધો પણ શોધી શકીશું. ટૂંકમાં, આ ધારણાઓ દ્વારા માહિતી આઉટપુટ જટિલ ડ્રાઇવિંગ દ્રશ્યોનું પ્રદર્શન મોડેલ બનાવે છે.
જો કે, કેટલાક ખૂબ જ સ્પષ્ટ દ્રશ્યો માટે, વર્તમાન સ્પષ્ટ અમૂર્તતા દ્રશ્યમાં ડ્રાઇવિંગ વર્તનને અસર કરતા પરિબળોનું સંપૂર્ણ વર્ણન કરી શકતું નથી, અથવા આપણે જે કાર્યોને વ્યાખ્યાયિત કરવાની જરૂર છે તે ખૂબ જ તુચ્છ છે, અને તમામ જરૂરી કાર્યોની ગણતરી કરવી મુશ્કેલ છે. તેથી, એન્ડ-ટુ-એન્ડ સિસ્ટમ્સ આ માહિતી સાથે પીએનસી પર આપમેળે અને નુકસાન વિના કાર્ય કરવાની આશા સાથે (કદાચ ગર્ભિત) વ્યાપક રજૂઆત પ્રદાન કરે છે. મારા મતે, આ જરૂરિયાતને પૂરી કરી શકે તેવી તમામ સિસ્ટમોને સામાન્યકૃત એન્ડ-ટુ-એન્ડ કહી શકાય.
અન્ય મુદ્દાઓ માટે, જેમ કે ગતિશીલ ક્રિયાપ્રતિક્રિયાના દૃશ્યોના કેટલાક ઑપ્ટિમાઇઝેશન, હું માનું છું કે ઓછામાં ઓછું માત્ર એન્ડ-ટુ-એન્ડ જ આ સમસ્યાઓને હલ કરી શકતું નથી, અને એન્ડ-ટુ-એન્ડ શ્રેષ્ઠ ઉકેલ હોઈ શકે નહીં. પરંપરાગત પદ્ધતિઓ આ સમસ્યાઓનું નિરાકરણ લાવી શકે છે, અને અલબત્ત, જ્યારે ડેટાનો જથ્થો પૂરતો મોટો હોય છે, ત્યારે એન્ડ-ટુ-એન્ડ વધુ સારો ઉકેલ આપી શકે છે.
એન્ડ-ટુ-એન્ડ ઓટોનોમસ ડ્રાઇવિંગ વિશે કેટલીક ગેરસમજણો
1. કંટ્રોલ સિગ્નલો અને વેપોઈન્ટ્સ એન્ડ-ટુ-એન્ડ હોવા માટે આઉટપુટ હોવા જોઈએ.
જો તમે ઉપર ચર્ચા કરેલ વ્યાપક અંત-થી-એન્ડ ખ્યાલ સાથે સંમત છો, તો આ સમસ્યાને સમજવી સરળ છે. એન્ડ-ટુ-એન્ડે ટાસ્ક વોલ્યુમને સીધું આઉટપુટ કરવાને બદલે માહિતીના લોસલેસ ટ્રાન્સમિશન પર ભાર મૂકવો જોઈએ. એક સાંકડો એન્ડ-ટુ-એન્ડ અભિગમ ઘણી બધી બિનજરૂરી મુશ્કેલીનું કારણ બનશે અને સલામતીની ખાતરી કરવા માટે ઘણાં અપ્રગટ ઉકેલોની જરૂર પડશે.
2.એન્ડ-ટુ-એન્ડ સિસ્ટમ મોટા મોડલ અથવા શુદ્ધ દ્રષ્ટિ પર આધારિત હોવી જોઈએ.
એન્ડ-ટુ-એન્ડ ઓટોનોમસ ડ્રાઇવિંગ, લાર્જ-મોડલ ઓટોનોમસ ડ્રાઇવિંગ અને કેવળ દ્રશ્ય સ્વાયત્ત ડ્રાઇવિંગ વચ્ચે કોઈ જરૂરી જોડાણ નથી કારણ કે તે સંપૂર્ણપણે સ્વતંત્ર ખ્યાલો છે; એન્ડ-ટુ-એન્ડ સિસ્ટમ એ જરૂરી નથી કે મોટા મોડેલો દ્વારા ચલાવવામાં આવે, અને ન તો તે શુદ્ધ દ્રષ્ટિ દ્વારા સંચાલિત હોય. ના.
3.લાંબા ગાળે, શું ઉપર જણાવેલ એન્ડ-ટુ-એન્ડ સિસ્ટમ માટે સંકુચિત અર્થમાં L3 સ્તરથી ઉપર સ્વાયત્ત ડ્રાઇવિંગ પ્રાપ્ત કરવું શક્ય છે?
હાલમાં જેને પ્યોર એન્ડ-ટુ-એન્ડ FSD કહેવામાં આવે છે તેનું પ્રદર્શન L3 સ્તર પર જરૂરી વિશ્વસનીયતા અને સ્થિરતાને પહોંચી વળવા માટે પૂરતું નથી. તેને વધુ સ્પષ્ટ શબ્દોમાં કહીએ તો, જો સેલ્ફ-ડ્રાઇવિંગ સિસ્ટમને લોકો દ્વારા સ્વીકારવામાં આવે, તો ચાવી એ છે કે શું જનતા સ્વીકારી શકે છે કે કેટલાક કિસ્સાઓમાં, મશીન ભૂલો કરશે, અને માણસો તેને સરળતાથી ઉકેલી શકે છે. શુદ્ધ એન્ડ-ટુ-એન્ડ સિસ્ટમ માટે આ વધુ મુશ્કેલ છે.
ઉદાહરણ તરીકે, ઉત્તર અમેરિકામાં વેમો અને ક્રૂઝ બંનેને ઘણા અકસ્માતો થયા છે. જો કે, ક્રુઝના છેલ્લા અકસ્માતમાં બે ઈજાઓ થઈ હતી, જોકે આવા અકસ્માતો માનવ ડ્રાઈવરો માટે એકદમ અનિવાર્ય અને સ્વીકાર્ય છે. જો કે, આ અકસ્માત પછી, તંત્રએ અકસ્માતના સ્થળ અને ઘાયલોના સ્થાન વિશે ખોટું અનુમાન લગાવ્યું હતું અને પુલ-ઓવર મોડમાં ડાઉનગ્રેડ કર્યું હતું, જેના કારણે ઘાયલોને લાંબા સમય સુધી ખેંચવામાં આવ્યા હતા. આ વર્તન કોઈપણ સામાન્ય માનવ ડ્રાઈવરને અસ્વીકાર્ય છે. તે કરવામાં આવશે નહીં, અને પરિણામો ખૂબ જ ખરાબ હશે.
તદુપરાંત, આ એક વેક-અપ કોલ છે કે આપણે સ્વાયત્ત ડ્રાઇવિંગ સિસ્ટમ્સના વિકાસ અને સંચાલન દરમિયાન આ પરિસ્થિતિને કેવી રીતે ટાળી શકાય તે વિશે કાળજીપૂર્વક વિચારવું જોઈએ.
4. તો આ ક્ષણે, સામૂહિક-ઉત્પાદિત સહાયિત ડ્રાઇવિંગ સિસ્ટમ્સની આગામી પેઢી માટે વ્યવહારુ ઉકેલો શું છે?
મારી વર્તમાન સમજ મુજબ, ડ્રાઇવિંગમાં કહેવાતા એન્ડ-ટુ-એન્ડ મોડલનો ઉપયોગ કરતી વખતે, ટ્રેજેક્ટરીને આઉટપુટ કર્યા પછી, તે પરંપરાગત પદ્ધતિઓ પર આધારિત ઉકેલ આપશે. વૈકલ્પિક રીતે, લર્નિંગ-આધારિત આયોજકો અને પરંપરાગત ટ્રેજેક્ટરી પ્લાનિંગ એલ્ગોરિધમ્સ એકસાથે બહુવિધ ટ્રેજેક્ટરીઓનું આઉટપુટ કરે છે અને પછી પસંદગીકાર દ્વારા એક માર્ગ પસંદ કરે છે.
જો આ સિસ્ટમ આર્કિટેક્ચર અપનાવવામાં આવે તો આ પ્રકારનો અપ્રગટ ઉકેલ અને પસંદગી આ કાસ્કેડ સિસ્ટમની કામગીરીની ઉપલી મર્યાદાને મર્યાદિત કરે છે. જો આ પદ્ધતિ હજી પણ શુદ્ધ પ્રતિસાદ શિક્ષણ પર આધારિત છે, તો અણધારી નિષ્ફળતાઓ થશે અને સલામત રહેવાનું લક્ષ્ય બિલકુલ પ્રાપ્ત થશે નહીં.
જો આપણે આ આઉટપુટ માર્ગ પર પરંપરાગત આયોજન પદ્ધતિઓનો ઉપયોગ કરીને પુનઃ-ઑપ્ટિમાઇઝ અથવા પસંદ કરવાનું વિચારીએ, તો તે શીખવાની-સંચાલિત પદ્ધતિ દ્વારા ઉત્પાદિત માર્ગની સમકક્ષ છે; તેથી, શા માટે આપણે આ માર્ગને સીધો ઑપ્ટિમાઇઝ અને શોધતા નથી?
અલબત્ત, કેટલાક લોકો કહેશે કે આવી ઑપ્ટિમાઇઝેશન અથવા શોધ સમસ્યા બિન-બહિર્મુખ છે, રાજ્યમાં વિશાળ જગ્યા ધરાવે છે, અને ઇન-વ્હીકલ સિસ્ટમ પર રીઅલ-ટાઇમમાં ચલાવવાનું અશક્ય છે. હું દરેકને આ પ્રશ્નનો કાળજીપૂર્વક વિચાર કરવા વિનંતી કરું છું: છેલ્લાં દસ વર્ષમાં, પર્સેપ્શન સિસ્ટમને કોમ્પ્યુટિંગ પાવર ડિવિડન્ડ કરતાં ઓછામાં ઓછા સો ગણું મળ્યું છે, પરંતુ અમારા PnC મોડ્યુલનું શું?
જો આપણે PnC મોડ્યુલને તાજેતરના વર્ષોમાં એડવાન્સ્ડ ઓપ્ટિમાઇઝેશન અલ્ગોરિધમ્સમાં કેટલીક એડવાન્સિસ સાથે જોડીને મોટી કમ્પ્યુટિંગ પાવરનો ઉપયોગ કરવાની મંજૂરી આપીએ, તો શું આ નિષ્કર્ષ હજુ પણ સાચો છે? આ પ્રકારની સમસ્યા માટે, આપણે પ્રથમ સિદ્ધાંતોમાંથી શું સાચું છે તે ધ્યાનમાં લેવું જોઈએ.
5. ડેટા-સંચાલિત અને પરંપરાગત પદ્ધતિઓ વચ્ચેના સંબંધનું સમાધાન કેવી રીતે કરવું?
ચેસ રમવું એ સ્વાયત્ત ડ્રાઇવિંગ જેવું જ ઉદાહરણ છે. આ વર્ષના ફેબ્રુઆરીમાં, ડીપમાઇન્ડે "ગ્રાન્ડમાસ્ટર-લેવલ ચેસ વિધાઉટ સર્ચ" નામનો લેખ પ્રકાશિત કર્યો હતો, જેમાં ચર્ચા કરવામાં આવી હતી કે શું માત્ર ડેટા આધારિત ઉપયોગ કરવો અને AlphaGo અને AlphaZero માં MCTS શોધને છોડી દેવી શક્ય છે. ઑટોનોમસ ડ્રાઇવિંગની જેમ જ, માત્ર એક જ નેટવર્કનો ઉપયોગ સીધી આઉટપુટ ક્રિયાઓ કરવા માટે થાય છે, જ્યારે પછીના તમામ પગલાં અવગણવામાં આવે છે.
લેખ તારણ આપે છે કે, નોંધપાત્ર પ્રમાણમાં ડેટા અને મોડલ પરિમાણો હોવા છતાં, શોધનો ઉપયોગ કર્યા વિના એકદમ વાજબી પરિણામો મેળવી શકાય છે. જો કે, શોધનો ઉપયોગ કરવાની પદ્ધતિઓની તુલનામાં નોંધપાત્ર તફાવતો છે. આ ખાસ કરીને કેટલીક જટિલ એન્ડગેમ્સ સાથે વ્યવહાર કરવા માટે ઉપયોગી છે.
જટિલ દૃશ્યો અથવા ખૂણાના કેસો માટે કે જેમાં બહુ-પગલાની રમતોની જરૂર હોય છે, આ સામ્યતા હજુ પણ પરંપરાગત ઑપ્ટિમાઇઝેશન અથવા શોધ અલ્ગોરિધમ્સને સંપૂર્ણપણે છોડી દેવાનું મુશ્કેલ બનાવે છે. AlphaZero જેવી વિવિધ ટેક્નોલોજીના ફાયદાઓનો વ્યાજબી ઉપયોગ કરવો એ પ્રદર્શનને સુધારવાનો શ્રેષ્ઠ માર્ગ છે.
6.પરંપરાગત પદ્ધતિ = નિયમ આધારિત હોય તો?
ઘણા લોકો સાથે વાત કરતી વખતે મારે આ ખ્યાલને વારંવાર સુધારવો પડ્યો છે. ઘણા લોકો માને છે કે જ્યાં સુધી તે સંપૂર્ણ રીતે ડેટા આધારિત નથી, તે નિયમ આધારિત નથી. ઉદાહરણ તરીકે, ચેસમાં, રોટ દ્વારા ફોર્મ્યુલા અને ચેસ રેકોર્ડ્સ યાદ રાખવા એ નિયમ-આધારિત છે, પરંતુ AlphaGo અને AlphaZeroની જેમ, તે મોડેલને ઑપ્ટિમાઇઝેશન અને શોધ દ્વારા તર્કસંગત બનવાની ક્ષમતા આપે છે. મને નથી લાગતું કે તેને નિયમ આધારિત કહી શકાય.
આના કારણે, મોટા મોડલ પોતે હાલમાં ખૂટે છે, અને સંશોધકો CoT જેવી પદ્ધતિઓ દ્વારા શીખવા-સંચાલિત મોડેલ પ્રદાન કરવાનો પ્રયાસ કરી રહ્યા છે. જો કે, એવા કાર્યોથી વિપરીત કે જેમાં શુદ્ધ ડેટા-આધારિત ઇમેજ ઓળખ અને સમજાવી ન શકાય તેવા કારણોની જરૂર હોય છે, ડ્રાઇવિંગ કરનાર વ્યક્તિની દરેક ક્રિયામાં સ્પષ્ટ પ્રેરક બળ હોય છે.
યોગ્ય અલ્ગોરિધમ આર્કિટેક્ચર ડિઝાઇન હેઠળ, વિવિધ કેસોને ઠીક કરવા માટે પરિમાણોને બળજબરીથી પેચ કરવા અને સમાયોજિત કરવાને બદલે, નિર્ણયનો માર્ગ ચલ બનવો જોઈએ અને વૈજ્ઞાનિક ધ્યેયોના માર્ગદર્શન હેઠળ સમાનરૂપે ઑપ્ટિમાઇઝ થવો જોઈએ. આવી સિસ્ટમમાં કુદરતી રીતે તમામ પ્રકારના હાર્ડ-કોડેડ વિચિત્ર નિયમો હોતા નથી.
નિષ્કર્ષ
ટૂંકમાં, એન્ડ-ટુ-એન્ડ એ આશાસ્પદ તકનીકી માર્ગ હોઈ શકે છે, પરંતુ ખ્યાલ કેવી રીતે લાગુ કરવામાં આવે છે તેના માટે વધુ સંશોધનની જરૂર છે. મને લાગે છે કે ડેટા અને મોડેલ પેરામીટર્સનો સમૂહ એકમાત્ર સાચો ઉકેલ નથી, અને જો આપણે અન્યને વટાવવા માંગતા હોય, તો આપણે સખત મહેનત કરતા રહેવું પડશે.
પોસ્ટ સમય: એપ્રિલ-24-2024