24 مهر 1404
این تکنیک هوش مصنوعی قابلیتهای فوقالعادهای در دگرگونسازی ویدئو نشان میدهد که فراتر از صرف تولید تصویر به ویدئو میرود. این تکنیک ویژگیهای پیشرفتهای مانند حرکت باورپذیر، تغییرات نورپردازی چشمگیر، و توجه کامل فضازمانی را ارائه میدهد؛ همه اینها در حالی که رایگان و بسیار کارآمد است.

این تکنیک هوش مصنوعی قابلیتهای چشمگیری در دگرگونسازی ویدئو ارائه میدهد و عملکردهای بسیار پیشرفتهای را به نمایش میگذارد.
این تکنیک بر پایه یک مدل تصویر به ویدئو است که به صورت رایگان در دسترس است و به کاربران اجازه میدهد تا یک تصویر اولیه را برای ادامه ویدئو مشخص کنند.
این مدل میتواند حرکت باورپذیری برای سوژههایی مانند اردکها و کودکان در حال تکان دادن دست و لبخند زدن، به شکل فوقالعادهای واقعگرایانه، تولید کند.
این تکنیک تغییرات نورپردازی چشمگیر و حرکتهای پیچیده دوربین را به دقت مدیریت میکند و هوش مصنوعی را ملزم میسازد تا دنیای اطراف را تصور کند.
این مدل به طور مؤثر تعامل با محیط و شبیهسازی را در طول اقداماتی مانند دویدن مدیریت میکند.
دگرگونسازی ویدئو میتواند با یک مدل کنترل فوقالعاده ترکیب شود تا ویدئوها را با تغییرات معنایی و سبکی بازآفرینی کند.
این تکنیک امکان تغییرات معنایی را فراهم میکند، مانند تبدیل ورزشکاران با شمشیرهای شمشیربازی به مستر روشی (Master Roshi) با چوب گلف یا شمشیر نوری (lightsaber).
کاربران میتوانند دگرگونسازیهای سبکی را اعمال کنند، مانند تبدیل خود و محیطشان به سبک «شب پرستاره» یا تبدیل یک صحنه گِلآلود به یک سرزمین عجایب زمستانی با برف در حال ریزش.
این امکان را فراهم میکند که به شخصیتهای مختلف، مانند شخصیتهای بازی ویدئویی، تبدیل شوید و نورپردازی یک صحنه تولید شده را با یک پرامپت (prompt) واحد تنظیم کنید.
این سیستم ۵ ثانیه ویدئو را در ۲ ثانیه روی یک کارت گرافیک H100 تولید میکند که سریعتر از مصرف بلادرنگ (real-time) عمل میکند.
مقاله اصلی استفاده از یک خودرمزگذار متغیر فشردهسازی فضازمانی ۱:۱۹۲ با ۱۲۸ کانال نهفته را فاش میکند که دادههای ویدئویی را به طور کارآمد فشرده میکند.
این سیستم با نسبت پیکسل به توکن ۱:۸۰۰۰ عمل میکند، که ۴ برابر توکن کمتر از تنظیمات معمول است و هزینه توجه (attention) را برای توجه کامل فضازمانی به طور قابل توجهی کاهش میدهد.
این مدل قبل از تقطیر (distillation) کمتر از ۲ میلیارد پارامتر استفاده میکند که اندازهای متواضعانه را نشان میدهد که معمولاً عملکرد متوسطی را به همراه دارد، اما در اینجا عملکرد عالی ارائه میدهد.
این کار فوقالعاده به صورت رایگان در دسترس همه قرار دارد و به آزمایش فوری تشویق میکند.
ما به شن آموختیم که فکر کند.
| Feature | Description | Benefit/Impact |
|---|---|---|
| دسترسی | مدل اصلی تبدیل تصویر به ویدئو و قابلیتهای پیشرفته آن به صورت رایگان برای همه کاربران در دسترس است. | هزینههای بالای اشتراک را حذف میکند و دسترسی به فناوری پیشرفته دگرگونسازی ویدئو با هوش مصنوعی را عمومی میکند. |
| واقعگرایی حرکت و محیط | حرکت باورپذیر، تغییرات نورپردازی چشمگیر، حرکتهای پیچیده دوربین، و تعامل با محیط را مدیریت میکند. | محتوای ویدئویی بسیار واقعگرایانه و پویا تولید میکند که قادر به تصور و انطباق با سناریوهای پیچیده جهان از ورودیهای ثابت است. |
| بازآفرینی خلاقانه ویدئو | با یک مدل کنترل ترکیب میشود تا تغییرات معنایی (مانند تغییرات شیء/شخصیت) و سبکی (مانند سبکهای هنری، دگرگونسازیهای فصلی) را ممکن سازد. | آزادی خلاقانه گستردهای را ارائه میدهد و کاربران را قادر میسازد تا محتوای ویدئویی موجود را به روشهای بدیع و تخیلی دگرگون کنند. |
| سرعت تولید استثنایی | ۵ ثانیه ویدئو را تنها در ۲ ثانیه روی یک GPU H100 تولید میکند. | امکان تولید ویدئو سریعتر از بلادرنگ را فراهم میکند و به طور چشمگیری جریانهای کاری تولید و تکرارهای آزمایشی را سرعت میبخشد. |
| کارایی فنی و ردپای متواضع | از یک خودرمزگذار فشردهسازی فضازمانی ۱:۱۹۲، نسبت پیکسل به توکن ۱:۸۰۰۰، و کمتر از ۲ میلیارد پارامتر استفاده میکند. | با اندازهای فوقالعاده متواضع به عملکرد بالا دست مییابد که به استقرار بالقوه آن بر روی دستگاههای مصرفی قدرتمند مانند گوشیهای هوشمند پیشرفته اشاره دارد. |
