কিভাবে একটি এন্ড-টু-এন্ড স্বায়ত্তশাসিত ড্রাইভিং সিস্টেম সংজ্ঞায়িত করবেন?
সবচেয়ে সাধারণ সংজ্ঞা হল যে একটি "এন্ড-টু-এন্ড" সিস্টেম হল একটি সিস্টেম যা কাঁচা সেন্সর তথ্য ইনপুট করে এবং সরাসরি কাজের উদ্বেগের ভেরিয়েবল আউটপুট করে। উদাহরণস্বরূপ, চিত্র স্বীকৃতিতে, সিএনএনকে ঐতিহ্যগত বৈশিষ্ট্য + শ্রেণিবদ্ধ পদ্ধতির সাথে তুলনা করে "এন্ড-টু-এন্ড" বলা যেতে পারে।
স্বায়ত্তশাসিত ড্রাইভিং কাজগুলিতে, বিভিন্ন সেন্সর থেকে ডেটা (যেমন ক্যামেরা, LiDAR, রাডার, বা IMU...) ইনপুট হয় এবং যানবাহন নিয়ন্ত্রণ সংকেত (যেমন থ্রটল বা স্টিয়ারিং হুইল কোণ) সরাসরি আউটপুট হয়। বিভিন্ন গাড়ির মডেলের অভিযোজন সমস্যাগুলি বিবেচনা করার জন্য, আউটপুটটি গাড়ির ড্রাইভিং ট্র্যাজেক্টোরিতেও শিথিল হতে পারে।
এই ভিত্তির উপর ভিত্তি করে, মডুলার এন্ড-টু-এন্ড ধারণাগুলিও আবির্ভূত হয়েছে, যেমন UniAD, যা চূড়ান্ত আউটপুট নিয়ন্ত্রণ সংকেত বা ওয়েপয়েন্ট ছাড়াও প্রাসঙ্গিক মধ্যবর্তী কাজগুলির তত্ত্বাবধান প্রবর্তন করে কর্মক্ষমতা উন্নত করে। যাইহোক, এই ধরনের একটি সংকীর্ণ সংজ্ঞা থেকে, শেষ থেকে শেষের সারাংশটি সংবেদনশীল তথ্যের ক্ষতিহীন সংক্রমণ হওয়া উচিত।
আসুন প্রথমে নন-এন্ড-টু-এন্ড সিস্টেমে সেন্সিং এবং পিএনসি মডিউলগুলির মধ্যে ইন্টারফেসগুলি পর্যালোচনা করি। সাধারণত, আমরা শ্বেত তালিকাভুক্ত বস্তু (যেমন গাড়ি, মানুষ ইত্যাদি) শনাক্ত করি এবং তাদের বৈশিষ্ট্য বিশ্লেষণ ও ভবিষ্যদ্বাণী করি। আমরা স্থির পরিবেশ সম্পর্কেও শিখি (যেমন রাস্তার গঠন, গতি সীমা, ট্রাফিক লাইট ইত্যাদি)। আমরা আরো বিস্তারিত হলে, আমরা সার্বজনীন বাধাগুলিও সনাক্ত করতাম। সংক্ষেপে, এই উপলব্ধিগুলির দ্বারা তথ্য আউটপুট জটিল ড্রাইভিং দৃশ্যগুলির একটি প্রদর্শন মডেল গঠন করে।
যাইহোক, কিছু খুব সুস্পষ্ট দৃশ্যের জন্য, বর্তমান সুস্পষ্ট বিমূর্ততা দৃশ্যে ড্রাইভিং আচরণকে প্রভাবিত করে এমন কারণগুলিকে সম্পূর্ণরূপে বর্ণনা করতে পারে না, বা আমাদের যে কাজগুলিকে সংজ্ঞায়িত করতে হবে তা খুবই তুচ্ছ, এবং সমস্ত প্রয়োজনীয় কাজগুলি গণনা করা কঠিন। অতএব, এন্ড-টু-এন্ড সিস্টেমগুলি এই তথ্য সহ PnC-তে স্বয়ংক্রিয়ভাবে এবং ক্ষতিহীনভাবে কাজ করার আশা সহ একটি (সম্ভবত অন্তর্নিহিত) ব্যাপক উপস্থাপনা প্রদান করে। আমার মতে, এই প্রয়োজনীয়তা পূরণ করতে পারে এমন সমস্ত সিস্টেমকে সাধারণীকৃত এন্ড-টু-এন্ড বলা যেতে পারে।
অন্যান্য সমস্যাগুলির জন্য, যেমন গতিশীল মিথস্ক্রিয়া পরিস্থিতিগুলির কিছু অপ্টিমাইজেশন, আমি বিশ্বাস করি যে অন্তত শুধুমাত্র শেষ থেকে শেষ এই সমস্যাগুলি সমাধান করতে পারে না এবং শেষ থেকে শেষ সেরা সমাধান হতে পারে না। ঐতিহ্যগত পদ্ধতিগুলি এই সমস্যাগুলি সমাধান করতে পারে, এবং অবশ্যই, যখন ডেটার পরিমাণ যথেষ্ট বড় হয়, শেষ থেকে শেষ একটি ভাল সমাধান দিতে পারে।
এন্ড-টু-এন্ড স্বায়ত্তশাসিত ড্রাইভিং সম্পর্কে কিছু ভুল বোঝাবুঝি
1. কন্ট্রোল সিগন্যাল এবং ওয়েপয়েন্ট অবশ্যই শেষ থেকে শেষ হতে হবে।
আপনি যদি উপরে আলোচিত বিস্তৃত এন্ড-টু-এন্ড ধারণার সাথে একমত হন, তাহলে এই সমস্যাটি বোঝা সহজ। টাস্ক ভলিউম সরাসরি আউটপুট করার পরিবর্তে এন্ড-টু-এন্ড তথ্যের ক্ষতিহীন ট্রান্সমিশনের উপর জোর দেওয়া উচিত। একটি সংকীর্ণ এন্ড-টু-এন্ড পদ্ধতি অনেক অপ্রয়োজনীয় সমস্যা সৃষ্টি করবে এবং নিরাপত্তা নিশ্চিত করতে অনেক গোপন সমাধানের প্রয়োজন হবে।
2. শেষ থেকে শেষ সিস্টেম বড় মডেল বা বিশুদ্ধ দৃষ্টি উপর ভিত্তি করে করা আবশ্যক.
এন্ড-টু-এন্ড স্বায়ত্তশাসিত ড্রাইভিং, বড়-মডেল স্বায়ত্তশাসিত ড্রাইভিং এবং বিশুদ্ধভাবে চাক্ষুষ স্বায়ত্তশাসিত ড্রাইভিং এর মধ্যে কোন প্রয়োজনীয় সংযোগ নেই কারণ এগুলো সম্পূর্ণ স্বাধীন ধারণা; একটি এন্ড-টু-এন্ড সিস্টেম অগত্যা বড় মডেল দ্বারা চালিত হয় না, বা এটি অগত্যা বিশুদ্ধ দৃষ্টি দ্বারা চালিত হয় না। এর
3. দীর্ঘমেয়াদে, উপরে উল্লিখিত এন্ড-টু-এন্ড সিস্টেমের পক্ষে কি সংকীর্ণ অর্থে L3 স্তরের উপরে স্বায়ত্তশাসিত ড্রাইভিং অর্জন করা সম্ভব?
বর্তমানে যাকে বিশুদ্ধ এন্ড-টু-এন্ড FSD বলা হয় তার কর্মক্ষমতা L3 স্তরে প্রয়োজনীয় নির্ভরযোগ্যতা এবং স্থিতিশীলতা পূরণের জন্য যথেষ্ট নয়। এটাকে আরও স্পষ্ট করে বলতে গেলে, স্ব-চালনা ব্যবস্থা যদি জনসাধারণের দ্বারা গ্রহণযোগ্য হতে চায়, তবে মূল বিষয় হল জনসাধারণ এটা মেনে নিতে পারে যে কিছু ক্ষেত্রে, মেশিন ভুল করবে এবং মানুষ সহজেই তাদের সমাধান করতে পারে। এটি একটি বিশুদ্ধ এন্ড-টু-এন্ড সিস্টেমের জন্য আরও কঠিন।
উদাহরণস্বরূপ, উত্তর আমেরিকার Waymo এবং Cruise উভয়েরই অনেক দুর্ঘটনা ঘটেছে। যাইহোক, ক্রুজের শেষ দুর্ঘটনায় দুজন আহত হয়েছিল, যদিও এই ধরনের দুর্ঘটনা মানব চালকদের জন্য মোটামুটি অনিবার্য এবং গ্রহণযোগ্য। যাইহোক, এই দুর্ঘটনার পরে, সিস্টেমটি দুর্ঘটনার স্থান এবং আহতদের অবস্থান সম্পর্কে ভুল ধারণা করে এবং পুল-ওভার মোডে নামিয়ে দেয়, যার ফলে আহতদের দীর্ঘ সময় ধরে টানাটানি করা হয়। এই আচরণ কোনো সাধারণ মানুষের চালকের কাছে অগ্রহণযোগ্য। এটা করা হবে না, এবং ফলাফল খুব খারাপ হবে.
তদ্ব্যতীত, এটি একটি ওয়েক-আপ কল যা আমাদের সাবধানে বিবেচনা করা উচিত যে কীভাবে স্বায়ত্তশাসিত ড্রাইভিং সিস্টেমের বিকাশ এবং পরিচালনার সময় এই পরিস্থিতি এড়ানো যায়।
4.সুতরাং এই মুহুর্তে, পরবর্তী প্রজন্মের গণ-উত্পাদিত সহায়ক ড্রাইভিং সিস্টেমের জন্য ব্যবহারিক সমাধানগুলি কী কী?
আমার বর্তমান উপলব্ধি অনুসারে, ড্রাইভিংয়ে তথাকথিত এন্ড-টু-এন্ড মডেল ব্যবহার করার সময়, ট্র্যাজেক্টোরি আউটপুট করার পরে, এটি প্রথাগত পদ্ধতির উপর ভিত্তি করে একটি সমাধান ফিরিয়ে দেবে। বিকল্পভাবে, লার্নিং-ভিত্তিক পরিকল্পনাকারী এবং প্রথাগত ট্র্যাজেক্টরি প্ল্যানিং অ্যালগরিদম একই সাথে একাধিক ট্রাজেক্টোরি আউটপুট করে এবং তারপর একটি নির্বাচকের মাধ্যমে একটি ট্রাজেক্টোরি নির্বাচন করে।
এই ধরনের গোপন সমাধান এবং পছন্দ এই ক্যাসকেড সিস্টেমের পারফরম্যান্সের উপরের সীমাকে সীমাবদ্ধ করে যদি এই সিস্টেম আর্কিটেকচারটি গৃহীত হয়। যদি এই পদ্ধতিটি এখনও বিশুদ্ধ প্রতিক্রিয়া শেখার উপর ভিত্তি করে থাকে, তবে অপ্রত্যাশিত ব্যর্থতা ঘটবে এবং নিরাপদ থাকার লক্ষ্যটি মোটেও অর্জিত হবে না।
যদি আমরা এই আউটপুট ট্র্যাজেক্টোরিতে ঐতিহ্যগত পরিকল্পনা পদ্ধতি ব্যবহার করে পুনরায় অপ্টিমাইজ করা বা নির্বাচন করার কথা বিবেচনা করি, তাহলে এটি শেখার-চালিত পদ্ধতি দ্বারা উত্পাদিত ট্র্যাজেক্টোরির সমতুল্য; অতএব, কেন আমরা সরাসরি এই ট্র্যাজেক্টোরিটি অপ্টিমাইজ এবং অনুসন্ধান করি না?
অবশ্যই, কিছু লোক বলবেন যে এই ধরনের একটি অপ্টিমাইজেশান বা অনুসন্ধান সমস্যা অ-উত্তল, একটি বড় রাষ্ট্রীয় স্থান রয়েছে এবং একটি ইন-ভেহিক্যাল সিস্টেমে রিয়েল-টাইমে চালানো অসম্ভব। আমি সবাইকে এই প্রশ্নটি সাবধানে বিবেচনা করার জন্য অনুরোধ করছি: গত দশ বছরে, উপলব্ধি সিস্টেমটি কম্পিউটিং পাওয়ার লভ্যাংশের অন্তত একশ গুণ পেয়েছে, কিন্তু আমাদের PnC মডিউলের কী হবে?
আমরা যদি সাম্প্রতিক বছরগুলিতে উন্নত অপ্টিমাইজেশান অ্যালগরিদমের কিছু অগ্রগতির সাথে মিলিত PnC মডিউলটিকে বৃহৎ কম্পিউটিং শক্তি ব্যবহার করার অনুমতি দিই, তাহলে এই উপসংহারটি কি এখনও সঠিক? এই ধরনের সমস্যার জন্য, আমাদের বিবেচনা করা উচিত প্রথম নীতিগুলি থেকে কোনটি সঠিক।
5.কিভাবে ডেটা-চালিত এবং ঐতিহ্যগত পদ্ধতির মধ্যে সম্পর্ক পুনর্মিলন করা যায়?
দাবা খেলা স্বায়ত্তশাসিত ড্রাইভিংয়ের অনুরূপ একটি উদাহরণ। এই বছরের ফেব্রুয়ারিতে, ডিপমাইন্ড "গ্র্যান্ডমাস্টার-লেভেল চেস উইদাউট সার্চ" নামে একটি নিবন্ধ প্রকাশ করে, আলোচনা করে যে আলফাগো এবং আলফাজিরোতে শুধুমাত্র ডেটা-চালিত ব্যবহার করা এবং MCTS অনুসন্ধান পরিত্যাগ করা সম্ভব কি না। স্বায়ত্তশাসিত ড্রাইভিংয়ের অনুরূপ, শুধুমাত্র একটি নেটওয়ার্ক সরাসরি আউটপুট কর্মের জন্য ব্যবহৃত হয়, যখন পরবর্তী সমস্ত পদক্ষেপ উপেক্ষা করা হয়।
নিবন্ধটি উপসংহারে পৌঁছেছে যে, যথেষ্ট পরিমাণে ডেটা এবং মডেল প্যারামিটার থাকা সত্ত্বেও, একটি অনুসন্ধান ব্যবহার না করেই মোটামুটি যুক্তিসঙ্গত ফলাফল পাওয়া যেতে পারে। যাইহোক, অনুসন্ধান ব্যবহার করে পদ্ধতির তুলনায় উল্লেখযোগ্য পার্থক্য রয়েছে। এটি কিছু জটিল এন্ডগেম মোকাবেলার জন্য বিশেষভাবে উপযোগী।
জটিল পরিস্থিতি বা কর্নার কেসগুলির জন্য যেগুলির জন্য বহু-পদক্ষেপ গেমগুলির প্রয়োজন হয়, এই সাদৃশ্যটি এখনও ঐতিহ্যগত অপ্টিমাইজেশান বা অনুসন্ধান অ্যালগরিদমগুলি সম্পূর্ণরূপে পরিত্যাগ করা কঠিন করে তোলে৷ আলফাজিরোর মতো বিভিন্ন প্রযুক্তির সুবিধার যুক্তিসঙ্গতভাবে ব্যবহার করা কর্মক্ষমতা উন্নত করার সর্বোত্তম উপায়।
6. ঐতিহ্যগত পদ্ধতি = নিয়ম-ভিত্তিক যদি অন্যথায়?
অনেক লোকের সাথে কথা বলার সময় আমাকে এই ধারণাটি বারবার সংশোধন করতে হয়েছিল। অনেক লোক বিশ্বাস করে যে যতক্ষণ পর্যন্ত এটি সম্পূর্ণরূপে ডেটা-চালিত না হয়, এটি নিয়ম-ভিত্তিক নয়। উদাহরণ স্বরূপ, দাবাতে, রোটে সূত্র এবং দাবার রেকর্ড মুখস্থ করা নিয়ম-ভিত্তিক, কিন্তু AlphaGo এবং AlphaZero এর মতো, এটি মডেলটিকে অপ্টিমাইজেশান এবং অনুসন্ধানের মাধ্যমে যুক্তিবাদী হওয়ার ক্ষমতা দেয়। আমি মনে করি না এটাকে নিয়ম ভিত্তিক বলা যাবে।
এই কারণে, বড় মডেলটি নিজেই বর্তমানে অনুপস্থিত, এবং গবেষকরা CoT-এর মতো পদ্ধতির মাধ্যমে একটি শেখার-চালিত মডেল সরবরাহ করার চেষ্টা করছেন। যাইহোক, বিশুদ্ধ ডেটা-চালিত ইমেজ স্বীকৃতি এবং ব্যাখ্যাতীত কারণের প্রয়োজন এমন কাজের বিপরীতে, একজন ড্রাইভিং ব্যক্তির প্রতিটি কর্মের একটি স্পষ্ট চালিকা শক্তি থাকে।
উপযুক্ত অ্যালগরিদম আর্কিটেকচার ডিজাইনের অধীনে, সিদ্ধান্তের গতিপথ পরিবর্তনশীল হওয়া উচিত এবং বৈজ্ঞানিক লক্ষ্যগুলির নির্দেশনায় অভিন্নভাবে অপ্টিমাইজ করা উচিত, বিভিন্ন কেস ঠিক করার জন্য প্যারামিটারগুলিকে জোরপূর্বক প্যাচিং এবং সামঞ্জস্য করার পরিবর্তে। এই ধরনের সিস্টেমে স্বাভাবিকভাবেই সব ধরনের হার্ড-কোডেড অদ্ভুত নিয়ম নেই।
উপসংহার
সংক্ষেপে, এন্ড-টু-এন্ড একটি প্রতিশ্রুতিশীল প্রযুক্তিগত পথ হতে পারে, তবে ধারণাটি কীভাবে প্রয়োগ করা হয় তার জন্য আরও গবেষণা প্রয়োজন। আমি মনে করি একগুচ্ছ ডেটা এবং মডেল প্যারামিটারই একমাত্র সঠিক সমাধান নয়, এবং আমরা যদি অন্যদের ছাড়িয়ে যেতে চাই তবে আমাদের কঠোর পরিশ্রম করতে হবে।
পোস্টের সময়: এপ্রিল-২৪-২০২৪