24 مهر 1404
Magica 2 یک تکنیک هوش مصنوعی را معرفی میکند که قادر است یک تصویر ورودی را به یک بازی ویدیویی قابلبازی تبدیل کند. این رویکرد نوین، جهشی چشمگیر در قابلیتهای هوش مصنوعی محسوب میشود و بهبودهای وسیعی را نسبت به سیستمهای قبلی مانند Genie 2 گوگل DeepMind تنها در یک سال نشان میدهد.

Magica 2 یک تکنیک نوآورانه هوش مصنوعی است که یک تصویر ورودی را به یک بازی ویدیویی قابلبازی تبدیل میکند. این قابلیت، پیشرفت قابل توجهی را نسبت به فناوریهای قبلی مانند Genie 2 گوگل DeepMind که تنها یک سال پیش ارائه شده بود، نشان میدهد. کاربران به طور بالقوه میتوانند Magica 2 را روی گوشیهای خود امتحان کنند، اگرچه پایداری سرور یک عامل تعیینکننده است.
Magica 2 میتواند انواع مختلفی از تصاویر را به محیطهای بازی ویدیویی واقعی تبدیل کند، از جمله آثار هنری بسیار دقیق مانند یک نقاشی یا حتی طراحیها و اسکچهای شخصی. در حالی که در ابتدا چشمگیر است، محیطهای تولید شده در طول تعاملات طولانیتر تمایل به از دست دادن انسجام و شباهت به ورودی اصلی را دارند. به عنوان مثال، یک طراحی ممکن است منسجم باشد، اما یک شهر پیچیده ساخته شده از کاغذ و خطخطیها یا یک طرح مدادی در طول کاوش، مشکلات انسجامی را نشان میدهد، شبیه به یک تور راهنما.
وجود و قابلیتهای Magica 2 بر سرعت فوقالعاده سریع بهبود در حوزه هوش مصنوعی تاکید دارد. با وجود عدم وجود مقاله تحقیقاتی رسمی، Magica 2 به عنوان یک نمایش درخشان از پیشرفت تکنولوژیکی که در کمتر از یک سال به دست آمده است، عمل میکند. این پیشرفت سریع نشان میدهد که چگونه مفاهیم اولیه به سرعت به برنامههای کاربردی پیچیدهتر و کاربردیتر تبدیل میشوند.
Genie 2 گوگل DeepMind حافظه محدودی از خود نشان میداد، شبیه به ماهی قرمز که اقدامات گذشته را فراموش میکند، که منجر به تولید فریمهای ناسازگار میشد. Genie 3، یک بهبود، انسجام بصری بهتری را برای حدود یک تا دو دقیقه ارائه میدهد، شبیه به سگی که خواب میبیند. در مقابل، Magica 2 تا 10 دقیقه انسجام بصری و تعامل را نوید میدهد. Genie 3 به دنبال تأخیر تعامل فوری است، در حالی که Magica 2 به 200 میلیثانیه میرسد که برای یک tech demo مناسب است. علاوه بر این، Magica 2 روی یک GPU مصرفکننده واحد اجرا میشود، برخلاف Genie 3 که به datacenter گوگل نیاز دارد.
معماری Magica 2 احتمالاً شبیه به Genie 2 است که از یک diffusion world model استفاده میکرد. این مدل ویدیو را به شکلی سادهتر تبدیل میکند، سپس فریم بعدی را گام به گام بر اساس فریمهای گذشته و اقدامات کاربر پیشبینی میکند. این فرآیند قابل مقایسه با نحوه پیشبینی کلمه بعدی در یک جمله توسط یک مدل متنی است، اساساً مانند یک قصهگو با یک flipbook عمل میکند که صفحات متوالی را برای متحرکسازی یک داستان طراحی میکند.
تجربیات کاربران با demo Magica 2 متفاوت است؛ برخی عملکرد را گزارش میکنند در حالی که دیگران آن را کمتر تعاملی میدانند. مشکلات خاصی در کنترل شخصیت وجود دارد، مانند کاهش پاسخگویی برای برخی حرکات مانند چرخش به راست، که کاربران آن را غیرقابلاجرا مشاهده کردهاند. Magica 2 هنوز یک tech demo بسیار اولیه است و مفهومی را نشان میدهد که تنها یک سال پیش غیرممکن تلقی میشد، بنابراین انتظارات کاربر باید پایین باشد.
«قانون اول مقالات» نشان میدهد که کارهای اولیه مانند Magica 2 با تکرارهای بعدی پیشرفتهای قابل توجهی خواهند داشت. در مقایسه با فیلمهای با کیفیت پایین، حافظه چند ثانیهای و انواع محدود بازیهای platformer Genie 2 از یک سال پیش، Magica 2 کیفیت بالاتر، تا 10 دقیقه حافظه و تنوع بازی بیشتری را ارائه میدهد. این پیشرفت سریع نشاندهنده آیندهای است که در آن تولید تصویر به بازی بسیار پیچیدهتر خواهد شد.
این واقعاً نشان میدهد که حوزه هوش مصنوعی چقدر سریع در طول زمان پیشرفت میکند.
| ویژگی | Magica 2 | Genie 3 | Genie 2 |
|---|---|---|---|
| قابلیت اصلی | تصویر را به بازی ویدیویی قابلبازی تبدیل میکند | تولید بازی AI با انسجام بهبودیافته | تولید بازی AI با انسجام پایین |
| انسجام/حافظه | تا 10 دقیقه انسجام بصری | 1-2 دقیقه انسجام بصری | چند ثانیه حافظه، سریع فراموش میکند |
| تأخیر تعامل | 200 میلیثانیه | وعده فوری بودن | مشخص نشده، تلویحاً بالا |
| محیط اجرا | یک GPU مصرفکننده | datacenter گوگل | مشخص نشده، تلویحاً پیشرفته/datacenter |
| تنوع ورودی | تصاویر واقعی، نقاشیها، طراحیها، اسکچها | بهصراحت جزئیات ندارد، تلویحاً مشابه Genie 2 | فیلم با کیفیت پایین، بازیهای platformer |
| مرحله توسعه | tech demo بسیار اولیه، هنوز مقاله تحقیقاتی ندارد | مفهوم پیشرفته AI | یک سال پیش، مرحله اولیه |
