24 مهر 1404
جدیدترین مدل ویدیویی مولد گوگل دیپمایند، Veo 3، وفاداری بیسابقهای و طیف وسیعی از قابلیتهای نوظهور را به نمایش میگذارد که بسیار فراتر از انتظارات از مولدهای ویدیویی هوش مصنوعی فعلی است. این هوش مصنوعی درکهای پیچیدهای از فیزیک، ویژگیهای مواد و تغییرات بصری از خود نشان میدهد و این مفاهیم را بهطور خودمختار و بدون برنامهنویسی صریح یاد میگیرد.

Veo 3 جدیدترین مدل ویدیویی مولد گوگل دیپمایند است که دستورات متنی را با وفاداری و واقعگرایی چشمگیر به خروجیهای ویدیویی تبدیل میکند. با وجود قدرت زیاد، گران بودن آن نیز ذکر شده است.
این هوش مصنوعی میتواند از یک تصویر اولیه همراه با یک دستور متنی ویدئو تولید کند، مانند ساخت ویدیویی از پیچیدن یک بوریتو از یک تصویر شروع، که قابلیتهای باورنکردنی را نشان میدهد.
Veo 3 مفاهیم پیچیده دنیای واقعی مانند ترکیب رنگها را درک میکند و نتیجه ترکیب دو نوع رنگ را بهطور دقیق پیشبینی میکند، که این کاری چالشبرانگیز برای شبیهسازیهای سنتی است.
این مدل توانایی تبدیل یک شیء به شیء دیگر را نشان میدهد، مثلاً یک فنجان چای به یک موش، در حالی که نقشمایهها و سبک کلی شیء اصلی را بهدقت حفظ میکند. حتی بازتابهای آینهای روی اشیاء نیز در طول تغییرات واقعگرایانه تغییر میکنند.
Veo 3 میتواند مدلهای سهبعدی را بر اساس دستورات متنی متحرکسازی کند، مانند اینکه یک شخصیت روی یک زانو بنشیند و سپر را بالا ببرد. این مدل بازتابهای کاملاً ثابتی را بر روی سطوحی مانند زره در سراسر ویدئو حفظ میکند.
این هوش مصنوعی پدیدههای فیزیکی پیچیده از جمله شکست نور و شبیهسازی اجسام نرم را مدیریت میکند. همچنین خواص مواد را درک میکند و آنچه را که در صورت سوختن کاغذ اتفاق میافتد، بهطور دقیق به تصویر میکشد.
Veo 3 وظایف مختلف دستکاری تصویر را بهراحتی انجام میدهد، از جمله inpainting (پر کردن قسمتهای گمشده یک تصویر)، outpainting (تصور جهان فراتر از مرزهای یک تصویر و زوم کردن به بیرون)، تشخیص لبه، تقسیمبندی (segmentation)، سوپر رزولوشن، حذف نویز، و بهبود تصویر در نور کم.
نکته مهم این است که Veo 3 برای هیچ یک از قابلیتهای پیشرفته خود بهطور صریح برنامهریزی نشده بود. در عوض، این مفاهیم پیچیده را بهطور خودمختار با تحلیل حجم عظیمی از دادههای ویدیویی در اینترنت یاد گرفت و مانند کودکی که یاد میگیرد، رفتار کرد.
علیرغم پیشرفتهایش، Veo 3 بدون نقص نیست؛ میتواند گیج شود و گاهی اوقات در حل صحیح پازلها یا عملکرد خوب در تستهای IQ ناموفق باشد. این مدل هنوز اشتباهات زیادی مرتکب میشود که در مقاله همراه آن بهتفصیل آمده است.
نویسندگان فرآیند استدلال Veo 3 را بهعنوان یک 'زنجیره فریمها' توصیف میکنند، جایی که مدل ویدیویی تفکر گام به گام خود را از طریق تصاویر متحرک نشان میدهد، بهطوری که هر فریم جدید نمایانگر گام منطقی بعدی در استدلال آن است.
تمام کارهایی که این مدل میتواند انجام دهد، قابلیتهای نوظهور هستند؛ به این معنی که مقدار زیادی ویدئو را در اینترنت مشاهده کرده و این مفاهیم را خودش یاد گرفته است.
| Capability | Description | Detail |
|---|---|---|
| تولید ویدئوی واقعگرایانه | تولید محتوای ویدیویی با کیفیت بالا و فوتورئالیستی از دستورات متنی. | میتواند ویدیویی از پیچیدن یک بوریتو را از یک تصویر اولیه بسازد. |
| درک مفاهیم پیچیده | مفاهیم پیشرفتهای مانند ترکیب رنگها و تعاملات فیزیکی را درک میکند. | نتایج ترکیب رنگها یا سوختن کاغذ را بهطور دقیق نشان میدهد. |
| تغییر شکل اشیاء | اشیاء را با حفظ سبک، نقشمایهها و نورپردازی واقعگرایانه تغییر میدهد. | یک فنجان چای به یک موش تبدیل میشود، در حالی که الگوها و بازتابهای آینهای واقعگرایانه را حفظ میکند. |
| فیزیک و بازتابهای ثابت | خواص فیزیکی ثابتی از جمله بازتابها و شکستهای نور واقعگرایانه را شبیهسازی میکند. | بازتابهای زره در طول انیمیشن یک شخصیت ثابت میمانند و شکستهای نور دقیق هستند. |
| پردازش پیشرفته تصویر | وظایف پیچیده دستکاری تصویر را بهآسانی انجام میدهد. | شامل inpainting، outpainting (زوم کردن به بیرون برای تصور اطراف)، تشخیص لبه، و سوپر رزولوشن است. |
| یادگیری نوظهور | قابلیتها را بهطور خودمختار با یادگیری از دادههای ویدیویی گسترده کسب میکند. | این هوش مصنوعی بهطور صریح برای این وظایف برنامهریزی نشده بود، اما خودش آنها را یاد گرفت. |
| استدلال گامبهگام ('زنجیره فریمها') | فرآیند استدلال خود را در فریمهای ویدیویی متوالی پردازش و نمایش میدهد. | هر فریم جدید نمایانگر گام بعدی در پیشرفت منطقی هوش مصنوعی است. |
| محدودیتهای شناسایی شده | علیرغم قدرت خود، مدل هنوز نواحی از سردرگمی را نشان میدهد و اشتباه میکند. | میتواند پازلهای آب را اشتباه حل کند و در تستهای IQ ناموفق باشد، همانطور که در مقاله بهتفصیل آمده است. |
