24 مهر 1404
یک بازیکن AI برای بقا در یک محیط بازی چالشبرانگیز توسعه داده شده است که به یک شبیهساز پارکور تبدیل میشود و در ابتدا رفتارهای «تقلبآمیز» مشکلساز از خود نشان میدهد. این روش آموزش پیشرفته از دادههای محدود موشنکپچر بهره میبرد و به صورت تکراری آن را با حرکات جدید و از نظر فیزیکی قابل قبول که از طریق سطوح تصادفی و یک physics engine تولید شدهاند، غنی میکند.

یک بازیکن AI برای بقا در یک محیط بازی چالشبرانگیز توسعه داده شده است که به یک شبیهساز پارکور تبدیل میشود و در ابتدا رفتارهای «تقلبآمیز» مشکلساز از خود نشان میدهد. آموزش با یک مجموعه داده محدود شامل تنها ۱۴ دقیقه داده موشنکپچر کپی شده از انسانهای واقعی آغاز میشود.
دانشمندان در NVIDIA و Simon Fraser University یک فرآیند سهمرحلهای را توسعه دادند: استفاده از دادههای اولیه موشنکپچر، ایجاد سطوح جدید تولید شده به صورت تصادفی، و بهکارگیری یک physics-based engine برای تولید حرکات جدید بر اساس این سطوح و دادههای موجود.
حرکات کینماتیک جدید که در ابتدا توسط AI تصور میشوند، میتوانند شامل شناور بودن یا سر خوردن پا باشند، و این حرکات «تقلبآمیز» توسط یک physics engine تصحیح میشوند تا از نظر فیزیکی قابل قبول باشند. این حرکات تازه تولید و تصحیح شده سپس به مجموعه داده کوچک اولیه اضافه میشوند و این چرخه تکرار میشود.
برای تولید حرکات، مسیرهایی در سطوح جدید ایجاد میشوند که شخصیت باید آنها را دنبال کند، شامل اقداماتی مانند بالا رفتن و پریدن.
پس از اولین چرخه غنیسازی مجموعه داده، عملکرد AI بهینه نیست و نیاز به تکرارهای بیشتر دارد. بهبود چشمگیری پس از سه تکرار از غنیسازی مجموعه داده اولیه با تصحیح مبتنی بر physics مشاهده میشود که AI را ماهر میکند.
AI یاد میگیرد که چندین حرکت را ترکیب کند، مانند پریدن، گرفتن لبه صخره، و بالا رفتن، که مهارتهای پیشرفته و خودآموختهای فراتر از آنچه در ابتدا دیده شد را نشان میدهد.
برای تأیید هوش خود، AI در محیطهای جدید و دیده نشده آزمایش میشود، جایی که یک شخصیت سبز «خیالی» با یک شخصیت آبی که physics آن تصحیح شده است، مقایسه میشود. AI با موفقیت هر سطحی را کامل میکند، از جمله وظایف پیچیده مانند بالا رفتن از بناهای یادبود، و حرکات طبیعی مانند پریدن به جلو با یک پا بدون توقف بین پرشها را به نمایش میگذارد.
هر کلیپ در مجموعه داده کوچک موشنکپچر اصلی به ۵۰ تغییر مختلف زمین تبدیل میشود، که به طور مؤثر یک ضبط واحد را به یک زمین بازی غنی از محیطها تبدیل میکند. فرآیند آموزش به طور شگفتانگیزی به یک خوشه عظیم از GPU نیاز ندارد و تنها به یک کارت گرافیک رده بالا (مانند A6000) احتیاج دارد، اگرچه آموزش میتواند تا یک ماه طول بکشد.
محدودیت اصلی، سرعت پایین تولید حرکت است که تقریباً ۲۵ ثانیه طول میکشد تا ۱ ثانیه حرکت شخصیت روی یک GPU ایجاد شود.
این تکنیک این امکان را فراهم میکند که AI یاد بگیرد در دنیاهای مجازی وخیم و پیچیده زنده بماند، با کاربردهای بالقوه در بازیها و محیطهای مجازی آینده.
AI یاد گرفت که چندین حرکت را با هم ترکیب کند، مانند پریدن، نگه داشتن لبه صخره، و بالا رفتن، که نشاندهنده سازگاری چشمگیر آن است.
| دیدگاه | توضیح | تأثیر |
|---|---|---|
| محدودیت داده اولیه | آموزش تنها با ۱۴ دقیقه داده موشنکپچر شروع شد که مقدار بسیار محدودی است. | اثربخشی روش را در غلبه بر محدودیتهای شدید داده برای دستیابی به رفتارهای پیچیده نشان میدهد. |
| چرخه غنیسازی مجموعه داده | حرکات کینماتیک تولید شده توسط AI توسط یک physics engine برای قابل قبول بودن فیزیکی تصحیح میشوند و به طور مکرر به مجموعه داده آموزشی اضافه میگردند. | امکان رشد تکراری یک مجموعه داده اولیه کوچک به یک منبع غنی را فراهم میکند که منجر به رفتارهای پیچیده AI میشود. |
| تصحیح مبتنی بر فیزیک | یک physics engine حرکات تصور شده توسط AI را اصلاح میکند و حرکات 'تقلبآمیز' غیرواقعی مانند شناور بودن یا سر خوردن پا را حذف میکند. | اطمینان حاصل میکند که حرکات شخصیت تولید شده از نظر فیزیکی واقعبینانه و قابل باور هستند، که برای محیطهای بازی حیاتی است. |
| کسب مهارت پیشرفته | AI یاد میگیرد که چندین عمل پیچیده مانند پریدن، گرفتن لبه صخره، و بالا رفتن را ترکیب کند و با محیطهای کاملاً جدید و دیده نشده سازگار شود. | هوش واقعی و سازگاری AI را فراتر از صرفاً تکرار حرکات موجود برجسته میکند و مهارتهای خودآموخته را نشان میدهد. |
| تکنیک افزایش داده | هر کلیپ موشنکپچر اصلی به ۵۰ تغییر مختلف زمین تبدیل میشود. | کاربرد دادههای محدود را به طور قابل توجهی افزایش میدهد و مجموعهای متنوع و گسترده از سناریوهای آموزشی را بدون نیاز به موشنکپچر اضافی ایجاد میکند. |
| کارایی منابع آموزشی | فرآیند آموزش میتواند روی یک GPU رده بالا (مانند NVIDIA A6000) انجام شود. | مانع سختافزاری ورود به تحقیقات پیشرفته تولید حرکت AI را کاهش میدهد، با وجود مدت زمان طولانی آموزش (تا یک ماه). |
| سرعت تولید حرکت | تولید ۱ ثانیه حرکت شخصیت در حال حاضر تقریباً ۲۵ ثانیه روی یک GPU طول میکشد. | یک محدودیت فعلی برای کاربرد بیدرنگ را مشخص میکند و زمینهای را برای بهبود آینده در کارایی تولید حرکت برجسته میسازد. |
