كيفية تحديد نظام القيادة الذاتية الشامل؟
التعريف الأكثر شيوعًا هو أن النظام "الشامل" هو نظام يقوم بإدخال معلومات الاستشعار الأولية ويخرج مباشرة المتغيرات التي تهم المهمة. على سبيل المثال، في التعرف على الصور، يمكن تسمية CNN بـ "من طرف إلى طرف" مقارنة بالطريقة التقليدية للمميزات + المصنف.
في مهام القيادة الذاتية، يتم إدخال البيانات من أجهزة الاستشعار المختلفة (مثل الكاميرات أو LiDAR أو الرادار أو IMU...) ويتم إخراج إشارات التحكم في السيارة (مثل دواسة الوقود أو زاوية عجلة القيادة) مباشرة. ولمراعاة مشكلات التكيف الخاصة بنماذج المركبات المختلفة، يمكن أيضًا تخفيف الإخراج لمسار قيادة السيارة.
وبناءً على هذا الأساس، ظهرت أيضًا مفاهيم معيارية شاملة، مثل UniAD، والتي تعمل على تحسين الأداء من خلال تقديم الإشراف على المهام الوسيطة ذات الصلة، بالإضافة إلى إشارات التحكم في المخرجات النهائية أو نقاط الطريق. ومع ذلك، من هذا التعريف الضيق، يجب أن يكون جوهر النهاية إلى النهاية هو نقل المعلومات الحسية بدون فقدان.
دعونا أولاً نراجع الواجهات بين وحدات الاستشعار ووحدات PnC في الأنظمة غير الشاملة. عادة، نكتشف الكائنات المدرجة في القائمة البيضاء (مثل السيارات والأشخاص وما إلى ذلك) ونحلل خصائصها ونتنبأ بها. نتعرف أيضًا على البيئة الثابتة (مثل بنية الطريق وحدود السرعة وإشارات المرور وما إلى ذلك). إذا كنا أكثر تفصيلا، فسوف نكتشف أيضا العقبات العالمية. باختصار، تشكل المعلومات الناتجة عن هذه التصورات نموذج عرض لمشاهد القيادة المعقدة.
ومع ذلك، بالنسبة لبعض المشاهد الواضحة جدًا، لا يمكن للتجريد الصريح الحالي أن يصف بشكل كامل العوامل التي تؤثر على سلوك القيادة في المشهد، أو أن المهام التي نحتاج إلى تحديدها تافهة للغاية، ومن الصعب تعداد جميع المهام المطلوبة. لذلك، توفر الأنظمة الشاملة (ربما ضمنيًا) تمثيلًا شاملاً على أمل العمل تلقائيًا وبدون خسارة على PnCs باستخدام هذه المعلومات. في رأيي، يمكن تسمية جميع الأنظمة التي يمكنها تلبية هذا المطلب بـ "نهاية إلى نهاية" معممة.
أما بالنسبة للقضايا الأخرى، مثل بعض التحسينات في سيناريوهات التفاعل الديناميكي، فأعتقد أنه على الأقل لا يمكن حل هذه المشكلات من طرف إلى طرف فقط، وقد لا يكون الحل من طرف إلى طرف هو الحل الأفضل. يمكن للطرق التقليدية أن تحل هذه المشكلات، وبطبيعة الحال، عندما تكون كمية البيانات كبيرة بما فيه الكفاية، قد توفر الحلول الشاملة حلاً أفضل.
بعض سوء الفهم حول القيادة الذاتية الشاملة
1. يجب أن يتم إخراج إشارات التحكم ونقاط الطريق لتكون شاملة.
إذا كنت توافق على المفهوم الشامل الذي تمت مناقشته أعلاه، فمن السهل فهم هذه المشكلة. يجب أن تؤكد عملية "من النهاية إلى النهاية" على نقل المعلومات بدون فقد البيانات بدلاً من إخراج حجم المهمة مباشرةً. سيؤدي النهج الضيق الشامل إلى الكثير من المشاكل غير الضرورية ويتطلب الكثير من الحلول السرية لضمان السلامة.
2. يجب أن يعتمد النظام الشامل على نماذج كبيرة أو رؤية نقية.
لا توجد صلة ضرورية بين القيادة الذاتية الشاملة، والقيادة الذاتية ذات النماذج الكبيرة، والقيادة الذاتية البصرية البحتة لأنها مفاهيم مستقلة تمامًا؛ فالنظام الشامل ليس بالضرورة مدفوعًا بنماذج كبيرة، ولا هو بالضرورة مدفوع برؤية محضة. ل.
3. على المدى الطويل، هل من الممكن للنظام الشامل المذكور أعلاه بالمعنى الضيق تحقيق القيادة الذاتية فوق مستوى L3؟
إن أداء ما يسمى حاليًا FSD النقي من طرف إلى طرف ليس كافيًا لتلبية الموثوقية والاستقرار المطلوبين على المستوى L3. وبعبارة أكثر صراحة، إذا كان نظام القيادة الذاتية يريد أن يكون مقبولا من قبل الجمهور، فإن المفتاح هو ما إذا كان الجمهور يمكن أن يقبل أنه في بعض الحالات، سوف ترتكب الآلة أخطاء، ويمكن للبشر حلها بسهولة. وهذا أكثر صعوبة بالنسبة لنظام شامل خالص.
على سبيل المثال، تعرضت كل من Waymo وCruise في أمريكا الشمالية للعديد من الحوادث. ومع ذلك، أدى حادث كروز الأخير إلى إصابتين، على الرغم من أن مثل هذه الحوادث حتمية إلى حد ما ومقبولة للسائقين البشر. لكن بعد هذا الحادث، أخطأ النظام في تقدير موقع الحادث وموقع المصاب، فلجأ إلى وضع التوقف، مما أدى إلى جر المصاب لفترة طويلة. هذا السلوك غير مقبول لأي سائق بشري عادي. لن يتم ذلك، وستكون النتائج سيئة للغاية.
علاوة على ذلك، فهذه دعوة للاستيقاظ وعلينا أن نفكر بعناية في كيفية تجنب هذا الموقف أثناء تطوير وتشغيل أنظمة القيادة الذاتية.
4. إذن، في هذه اللحظة، ما هي الحلول العملية للجيل القادم من أنظمة القيادة المساعدة ذات الإنتاج الضخم؟
وفقًا لفهمي الحالي، عند استخدام ما يسمى بالنموذج الشامل في القيادة، بعد إخراج المسار، سيعود بحل يعتمد على الأساليب التقليدية. وبدلاً من ذلك، يقوم المخططون القائمون على التعلم وخوارزميات تخطيط المسار التقليدية بإخراج مسارات متعددة في وقت واحد ثم تحديد مسار واحد من خلال محدد.
هذا النوع من الحلول والاختيارات السرية يحد من الحد الأعلى لأداء هذا النظام المتتالي إذا تم اعتماد بنية النظام هذه. إذا كانت هذه الطريقة لا تزال تعتمد على التعلم الارتجاعي الخالص، فسوف تحدث حالات فشل غير متوقعة ولن يتحقق هدف الأمان على الإطلاق.
إذا فكرنا في إعادة التحسين أو الاختيار باستخدام أساليب التخطيط التقليدية في مسار المخرجات هذا، فإن هذا يعادل المسار الذي تنتجه الطريقة المبنية على التعلم؛ فلماذا لا نقوم بتحسين هذا المسار والبحث فيه بشكل مباشر؟
بالطبع، قد يقول بعض الأشخاص أن مشكلة التحسين أو البحث هذه غير محدبة، ولها مساحة حالة كبيرة، ومن المستحيل تشغيلها في الوقت الفعلي على نظام داخل السيارة. أناشد الجميع أن يفكروا بعناية في هذا السؤال: في السنوات العشر الماضية، تلقى نظام الإدراك ما لا يقل عن مائة مرة من أرباح القوة الحاسوبية، ولكن ماذا عن وحدة PnC الخاصة بنا؟
إذا سمحنا أيضًا لوحدة PnC باستخدام قوة حوسبة كبيرة، جنبًا إلى جنب مع بعض التطورات في خوارزميات التحسين المتقدمة في السنوات الأخيرة، فهل لا يزال هذا الاستنتاج صحيحًا؟ بالنسبة لهذا النوع من المشاكل، يجب أن ننظر إلى ما هو صحيح من المبادئ الأولى.
5.كيف يمكن التوفيق بين العلاقة بين الأساليب المعتمدة على البيانات والأساليب التقليدية؟
يعد لعب الشطرنج مثالًا مشابهًا جدًا للقيادة الذاتية. في فبراير من هذا العام، نشرت Deepmind مقالًا بعنوان "شطرنج على مستوى Grandmaster بدون بحث"، يناقش ما إذا كان من الممكن استخدام البحث المعتمد على البيانات فقط والتخلي عن بحث MCTS في AlphaGo وAlphaZero. وكما هو الحال مع القيادة الذاتية، يتم استخدام شبكة واحدة فقط لإخراج الإجراءات مباشرة، بينما يتم تجاهل جميع الخطوات اللاحقة.
ويخلص المقال إلى أنه على الرغم من الكميات الكبيرة من البيانات ومعلمات النموذج، يمكن الحصول على نتائج معقولة إلى حد ما دون استخدام البحث. ومع ذلك، هناك اختلافات كبيرة مقارنة بطرق استخدام البحث. وهذا مفيد بشكل خاص للتعامل مع بعض الألعاب النهائية المعقدة.
بالنسبة للسيناريوهات المعقدة أو الحالات الزاوية التي تتطلب ألعابًا متعددة الخطوات، لا يزال هذا التشبيه يجعل من الصعب التخلي تمامًا عن خوارزميات التحسين أو البحث التقليدية. إن الاستفادة بشكل معقول من مزايا التقنيات المختلفة مثل AlphaZero هي أفضل طريقة لتحسين الأداء.
6. الطريقة التقليدية = مبنية على القواعد وإلا؟
لقد اضطررت إلى تصحيح هذا المفهوم مرارًا وتكرارًا أثناء التحدث إلى العديد من الأشخاص. يعتقد الكثير من الناس أنه طالما أنها لا تعتمد على البيانات بشكل كامل، فهي لا تعتمد على القواعد. على سبيل المثال، في لعبة الشطرنج، يعتمد حفظ الصيغ وسجلات الشطرنج عن ظهر قلب على القواعد، ولكن مثل AlphaGo وAlphaZero، فإنه يمنح النموذج القدرة على أن يكون عقلانيًا من خلال التحسين والبحث. لا أعتقد أنه يمكن أن يسمى على أساس القواعد.
ولهذا السبب، فإن النموذج الكبير نفسه مفقود حاليًا، ويحاول الباحثون تقديم نموذج قائم على التعلم من خلال أساليب مثل CoT. ومع ذلك، على عكس المهام التي تتطلب التعرف على الصور المستندة إلى البيانات وأسباب غير قابلة للتفسير، فإن كل إجراء يقوم به شخص يقود السيارة له قوة دافعة واضحة.
في ظل تصميم بنية الخوارزمية المناسبة، يجب أن يصبح مسار القرار متغيرًا ويتم تحسينه بشكل موحد بتوجيه من الأهداف العلمية، بدلاً من تصحيح المعلمات وتعديلها بالقوة لإصلاح الحالات المختلفة. من الطبيعي أن مثل هذا النظام لا يحتوي على جميع أنواع القواعد الغريبة المضمنة.
خاتمة
باختصار، قد تكون النهاية إلى النهاية طريقًا تقنيًا واعدًا، لكن كيفية تطبيق هذا المفهوم تتطلب المزيد من البحث. أعتقد أن مجموعة من البيانات ومعلمات النماذج ليست الحل الصحيح الوحيد، وإذا أردنا التفوق على الآخرين، علينا مواصلة العمل الجاد.
وقت النشر: 24 أبريل 2024