24 مهر 1404
مدلهای پیشرو هوش مصنوعی تحت آزمایشهای جامع روی بازیهای ویدیویی محبوب مانند تتریس، سوپر ماریو و سوکوبان قرار گرفتند و فراتر از معیارهای سنتی به چالش کشیده شدند. این آزمایش نشاندهنده ظهور قابلیتهای برنامهریزی واقعی در برخی مدلها و انتقال دانش چشمگیر بین بازیها بود که درک جدیدی از هوش مصنوعی را پیشنهاد میکند.

مدلهای اصلی هوش مصنوعی به جای معیارهای آکادمیک معمول، روی معیارهای بازی مانند تتریس، سوپر ماریو و سوکوبان آزمایش شدند و یافتههای باورنکردنی در مورد هوش آنها آشکار شد.
لاما 4، در حالی که به دلیل عملکرد قوی خود در معیارهای سنتی شناخته شده است، متأسفانه در گیمپلی بازیهای مختلف به طور قابل توجهی دچار مشکل شد.
مدلهای هوش مصنوعی قبلی، هنگام بازی تتریس، به طور مداوم شکافهای زیادی ایجاد میکردند و به سختی خط میساختند که منجر به فروپاشی سریع میشد.
OpenAI o4-mini عملکرد بهبودیافتهای در تتریس نشان داد، بیشتر از مدلهای قبلی دوام آورد، اما همچنان نتوانست یک خط را پاک کند.
DeepSeek R1 با تلاشی امیدوارکننده در تتریس آغاز شد و با موفقیت یک خط را تشکیل داد، اما این موفقیت اولیه به سرعت از هم پاشید.
Claude 4 Opus در درجه اول با دیرتر باختن، نه با کسب بردهای قطعی، از سایر هوشهای مصنوعی پیشی گرفت، سیستم امتیازی آن فقط قطعات قرار داده شده قبل از پایان بازی را منعکس میکند.
OpenAI o3-pro در تتریس دیدگاه قابل توجهی از خود نشان داد، پیوسته خط پس از خط را پاک میکرد و به نظر میرسید که از قبل برنامهریزی میکند، که با عدم شکست تا پایان آزمایش بسیار چشمگیر بود.
GPT 4o در سوپر ماریو عملکرد خوبی نداشت و نتوانست هیچ دستاورد قابل توجهی در بازی کسب کند.
Claude 3.5 در سوپر ماریو لحظاتی از هوش آشکار را به نمایش گذاشت، مانند پیدا کردن یک بلوک پنهان، اما سپس به طور غیرقابل توضیحی به دره سقوط کرد.
Claude 3.7 عملکرد بهتری در سوپر ماریو از خود نشان داد، گومباها را له کرد و شجاعانه از گودالها پرید، حتی یک ستاره را پیدا کرد، اما در نهایت درست قبل از خط پایان تسلیم فاجعه شد، شبیه اشتباهات انسانی پس از یک عملکرد قوی.
OpenAI o3 به طور مداوم به عنوان بهترین عملکرد کلی ظاهر شد، به طور قابل توجهی در بازیهایی مانند سوپر ماریو، سوکوبان و کندی کراش برتری یافت و جهشی کوانتومی در قابلیتها در مقایسه با سایر مدلها نشان داد.
Gemini 2.5 Flash با موفقیت مرحله اول سوکوبان را تکمیل کرد اما با مرحله دوم به طور قابل توجهی دست و پنجه نرم کرد و در اوایل اشتباهات مهمی مرتکب شد.
OpenAI o3 برنامهریزی پیشرفتهای در سوکوبان به نمایش گذاشت، با درک محدودیتهای فضایی و اجازه دادن به مرحله برای اینکه تقریباً خود را حل کند، با موفقیت از مرحله دوم پیچیده عبور کرد، هرچند پس از مرحله 5 متوقف شد.
o3-pro بهبودیافته با موفقیت هر 6 مرحله سوکوبان را تکمیل کرد و تواناییهای پیشرفته خود در حل مسئله را به نمایش گذاشت.
مدلهای هوش مصنوعی حرکات را در طول این وظایف بازی بسیار آهسته انجام دادند زیرا این وظایف عملکرد اصلی مورد نظر آنها نیست.
محققان یک «هارنس» (harness) توسعه دادند که یک نمایش متنی از بازی است که در هر مرحله به هوشهای مصنوعی داده میشود تا اقدام بعدی آنها را تحریک کند و آنها را قادر میسازد بازیهای مختلفی از جمله Ace Attorney را بازی کنند.
برای اولین بار، برنامهریزی واقعی و تفکر استراتژیک در مدلهای بزرگ هوش مصنوعی در طول گیمپلی شروع به ظهور کرده است، یافتهای کاملاً باورنکردنی با وجود اجرای آهسته.
بازیها بستری فوقالعاده غنی و چالشبرانگیز برای ارزیابی قابلیتهای اصلی هوش مصنوعی فراهم میکنند و برنامهریزی بلندمدت و انطباق را به روشهایی که کمتر معیاری میتواند، طلب میکنند، در نتیجه نقاط قوت و ضعف واقعی را آشکار میسازند.
پس از آموزش روی سوکوبان، هوشهای مصنوعی مهارتهای استدلال فضایی خود را بهبود بخشیدند و در تتریس که قبلاً ندیده بودند تا 8 درصد بهتر عمل کردند، که نشاندهنده استفاده مجدد مؤثر از دانش بین انواع مختلف بازی است.
پس از آموزش روی سوکوبان، هوشهای مصنوعی مهارتهای استدلال فضایی خود را بهبود بخشیدند و وقتی تتریس را که قبلاً ندیده بودند بازی میکنند، تا 8 درصد بهتر عمل میکنند، فقط با استفاده مجدد از دانش آموخته شده در سوکوبان.
| مدل هوش مصنوعی | بازی تستشده | عملکرد/بینش |
|---|---|---|
| Llama 4 | گیمپلی عمومی | با وجود عملکرد قوی در معیارها، در گیمپلی دچار مشکل شد. |
| OpenAI o4-mini | Tetris | بیشتر از مدلهای قبلی دوام آورد اما نتوانست هیچ خطی را پاک کند. |
| DeepSeek R1 | Tetris | در ابتدا یک خط تشکیل داد اما شروع امیدوارکنندهاش به سرعت از هم پاشید. |
| Claude 4 Opus | گیمپلی عمومی | در درجه اول با دیرتر باختن، نه با برنده شدن، از دیگران پیشی گرفت؛ امتیازات منعکسکننده قطعات قرار داده شده است. |
| OpenAI o3-pro | Tetris, Sokoban | برنامهریزی واقعی را نشان داد، به طور مداوم خطوط را در تتریس پاک کرد و تمام 6 مرحله سوکوبان را به پایان رساند. |
| GPT 4o | Super Mario | عملکرد خوبی نداشت. |
| Claude 3.5 | Super Mario | باهوش به نظر میرسید (بلوک پنهان را پیدا کرد) اما اشتباهات غیرقابل توضیحی مرتکب شد (به دره سقوط کرد). |
| Claude 3.7 | Super Mario | بازی بهبود یافته (گومباها را له کرد، از گودالها پرید، ستاره را پیدا کرد) اما قبل از اتمام شکست خورد، شبیه به خطای انسانی. |
| OpenAI o3 | Super Mario, Sokoban, Candy Crush | به طور مداوم بهترین عملکرد کلی را داشت و جهشی کوانتومی در قابلیتها نشان داد. |
| Gemini 2.5 Flash | Sokoban | مرحله اول را به پایان رساند اما به دلیل اشتباهات مهم اولیه با مرحله دوم به طور قابل توجهی دست و پنجه نرم کرد. |
| هوشهای مصنوعی (عمومی) | بازیهای مختلف | اجرا به دلیل مکانیسم «هارنس» متنی بسیار آهسته بود؛ این وظایف طراحی اصلی آنها نیست. |
| هوشهای مصنوعی (عمومی) | Sokoban -> Tetris | استدلال فضایی را بهبود بخشید و در تتریس ندیده شده پس از آموزش سوکوبان، 8% بهتر عمل کرد که نشاندهنده انتقال دانش است. |
