مدل‌های اصلی هوش مصنوعی تست‌شده روی بازی‌های ویدیویی: عملکرد و بینش‌های استراتژیک

مدل‌های پیشرو هوش مصنوعی تحت آزمایش‌های جامع روی بازی‌های ویدیویی محبوب مانند تتریس، سوپر ماریو و سوکوبان قرار گرفتند و فراتر از معیارهای سنتی به چالش کشیده شدند. این آزمایش نشان‌دهنده ظهور قابلیت‌های برنامه‌ریزی واقعی در برخی مدل‌ها و انتقال دانش چشمگیر بین بازی‌ها بود که درک جدیدی از هوش مصنوعی را پیشنهاد می‌کند.

image

خلاصه نکات کلیدی

  • معرفی تست‌های بازی هوش مصنوعی

    مدل‌های اصلی هوش مصنوعی به جای معیارهای آکادمیک معمول، روی معیارهای بازی مانند تتریس، سوپر ماریو و سوکوبان آزمایش شدند و یافته‌های باورنکردنی در مورد هوش آن‌ها آشکار شد.

  • بررسی اجمالی عملکرد لاما 4

    لاما 4، در حالی که به دلیل عملکرد قوی خود در معیارهای سنتی شناخته شده است، متأسفانه در گیم‌پلی بازی‌های مختلف به طور قابل توجهی دچار مشکل شد.

  • عملکرد مدل‌های قبلی در تتریس

    مدل‌های هوش مصنوعی قبلی، هنگام بازی تتریس، به طور مداوم شکاف‌های زیادی ایجاد می‌کردند و به سختی خط می‌ساختند که منجر به فروپاشی سریع می‌شد.

  • OpenAI o4-mini در تتریس

    OpenAI o4-mini عملکرد بهبودیافته‌ای در تتریس نشان داد، بیشتر از مدل‌های قبلی دوام آورد، اما همچنان نتوانست یک خط را پاک کند.

  • DeepSeek R1 در تتریس

    DeepSeek R1 با تلاشی امیدوارکننده در تتریس آغاز شد و با موفقیت یک خط را تشکیل داد، اما این موفقیت اولیه به سرعت از هم پاشید.

  • عملکرد کلی Claude 4 Opus

    Claude 4 Opus در درجه اول با دیرتر باختن، نه با کسب بردهای قطعی، از سایر هوش‌های مصنوعی پیشی گرفت، سیستم امتیازی آن فقط قطعات قرار داده شده قبل از پایان بازی را منعکس می‌کند.

  • برنامه‌ریزی استراتژیک OpenAI o3-pro در تتریس

    OpenAI o3-pro در تتریس دیدگاه قابل توجهی از خود نشان داد، پیوسته خط پس از خط را پاک می‌کرد و به نظر می‌رسید که از قبل برنامه‌ریزی می‌کند، که با عدم شکست تا پایان آزمایش بسیار چشمگیر بود.

  • GPT 4o در سوپر ماریو

    GPT 4o در سوپر ماریو عملکرد خوبی نداشت و نتوانست هیچ دستاورد قابل توجهی در بازی کسب کند.

  • Claude 3.5 در سوپر ماریو

    Claude 3.5 در سوپر ماریو لحظاتی از هوش آشکار را به نمایش گذاشت، مانند پیدا کردن یک بلوک پنهان، اما سپس به طور غیرقابل توضیحی به دره سقوط کرد.

  • Claude 3.7 در سوپر ماریو

    Claude 3.7 عملکرد بهتری در سوپر ماریو از خود نشان داد، گومباها را له کرد و شجاعانه از گودال‌ها پرید، حتی یک ستاره را پیدا کرد، اما در نهایت درست قبل از خط پایان تسلیم فاجعه شد، شبیه اشتباهات انسانی پس از یک عملکرد قوی.

  • بهترین عملکرد کلی: OpenAI o3

    OpenAI o3 به طور مداوم به عنوان بهترین عملکرد کلی ظاهر شد، به طور قابل توجهی در بازی‌هایی مانند سوپر ماریو، سوکوبان و کندی کراش برتری یافت و جهشی کوانتومی در قابلیت‌ها در مقایسه با سایر مدل‌ها نشان داد.

  • Gemini 2.5 Flash در سوکوبان

    Gemini 2.5 Flash با موفقیت مرحله اول سوکوبان را تکمیل کرد اما با مرحله دوم به طور قابل توجهی دست و پنجه نرم کرد و در اوایل اشتباهات مهمی مرتکب شد.

  • برنامه‌ریزی OpenAI o3 در سوکوبان

    OpenAI o3 برنامه‌ریزی پیشرفته‌ای در سوکوبان به نمایش گذاشت، با درک محدودیت‌های فضایی و اجازه دادن به مرحله برای اینکه تقریباً خود را حل کند، با موفقیت از مرحله دوم پیچیده عبور کرد، هرچند پس از مرحله 5 متوقف شد.

  • مهارت OpenAI o3-pro در سوکوبان

    o3-pro بهبودیافته با موفقیت هر 6 مرحله سوکوبان را تکمیل کرد و توانایی‌های پیشرفته خود در حل مسئله را به نمایش گذاشت.

  • سرعت اجرای هوش مصنوعی در بازی

    مدل‌های هوش مصنوعی حرکات را در طول این وظایف بازی بسیار آهسته انجام دادند زیرا این وظایف عملکرد اصلی مورد نظر آن‌ها نیست.

  • «هارنس» برای نمایش متنی بازی

    محققان یک «هارنس» (harness) توسعه دادند که یک نمایش متنی از بازی است که در هر مرحله به هوش‌های مصنوعی داده می‌شود تا اقدام بعدی آن‌ها را تحریک کند و آن‌ها را قادر می‌سازد بازی‌های مختلفی از جمله Ace Attorney را بازی کنند.

  • بینش کلیدی: ظهور برنامه‌ریزی واقعی

    برای اولین بار، برنامه‌ریزی واقعی و تفکر استراتژیک در مدل‌های بزرگ هوش مصنوعی در طول گیم‌پلی شروع به ظهور کرده است، یافته‌ای کاملاً باورنکردنی با وجود اجرای آهسته.

  • بینش کلیدی: بازی‌ها به عنوان معیارهای غنی

    بازی‌ها بستری فوق‌العاده غنی و چالش‌برانگیز برای ارزیابی قابلیت‌های اصلی هوش مصنوعی فراهم می‌کنند و برنامه‌ریزی بلندمدت و انطباق را به روش‌هایی که کمتر معیاری می‌تواند، طلب می‌کنند، در نتیجه نقاط قوت و ضعف واقعی را آشکار می‌سازند.

  • بینش کلیدی: انتقال دانش بین بازی‌ها

    پس از آموزش روی سوکوبان، هوش‌های مصنوعی مهارت‌های استدلال فضایی خود را بهبود بخشیدند و در تتریس که قبلاً ندیده بودند تا 8 درصد بهتر عمل کردند، که نشان‌دهنده استفاده مجدد مؤثر از دانش بین انواع مختلف بازی است.

پس از آموزش روی سوکوبان، هوش‌های مصنوعی مهارت‌های استدلال فضایی خود را بهبود بخشیدند و وقتی تتریس را که قبلاً ندیده بودند بازی می‌کنند، تا 8 درصد بهتر عمل می‌کنند، فقط با استفاده مجدد از دانش آموخته شده در سوکوبان.

زیر جزئیات

مدل هوش مصنوعیبازی تست‌شدهعملکرد/بینش
Llama 4گیم‌پلی عمومیبا وجود عملکرد قوی در معیارها، در گیم‌پلی دچار مشکل شد.
OpenAI o4-miniTetrisبیشتر از مدل‌های قبلی دوام آورد اما نتوانست هیچ خطی را پاک کند.
DeepSeek R1Tetrisدر ابتدا یک خط تشکیل داد اما شروع امیدوارکننده‌اش به سرعت از هم پاشید.
Claude 4 Opusگیم‌پلی عمومیدر درجه اول با دیرتر باختن، نه با برنده شدن، از دیگران پیشی گرفت؛ امتیازات منعکس‌کننده قطعات قرار داده شده است.
OpenAI o3-proTetris, Sokobanبرنامه‌ریزی واقعی را نشان داد، به طور مداوم خطوط را در تتریس پاک کرد و تمام 6 مرحله سوکوبان را به پایان رساند.
GPT 4oSuper Marioعملکرد خوبی نداشت.
Claude 3.5Super Marioباهوش به نظر می‌رسید (بلوک پنهان را پیدا کرد) اما اشتباهات غیرقابل توضیحی مرتکب شد (به دره سقوط کرد).
Claude 3.7Super Marioبازی بهبود یافته (گومباها را له کرد، از گودال‌ها پرید، ستاره را پیدا کرد) اما قبل از اتمام شکست خورد، شبیه به خطای انسانی.
OpenAI o3Super Mario, Sokoban, Candy Crushبه طور مداوم بهترین عملکرد کلی را داشت و جهشی کوانتومی در قابلیت‌ها نشان داد.
Gemini 2.5 FlashSokobanمرحله اول را به پایان رساند اما به دلیل اشتباهات مهم اولیه با مرحله دوم به طور قابل توجهی دست و پنجه نرم کرد.
هوش‌های مصنوعی (عمومی)بازی‌های مختلفاجرا به دلیل مکانیسم «هارنس» متنی بسیار آهسته بود؛ این وظایف طراحی اصلی آن‌ها نیست.
هوش‌های مصنوعی (عمومی)Sokoban -> Tetrisاستدلال فضایی را بهبود بخشید و در تتریس ندیده شده پس از آموزش سوکوبان، 8% بهتر عمل کرد که نشان‌دهنده انتقال دانش است.

تگ ها

هوش
بازی
چشمگیر
OpenAI
تتریس
سوکوبان
سوپرماریو
اشتراک گذاری