ابزار تولیدی هوش مصنوعی CausVid از یک مدل انتشار (diffusion) استفاده میکند تا به یک سیستم خودبازگشتی (autoregressive – فریم به فریم) آموزش دهد که چگونه ویدیوهایی پایدار و با وضوح بالا را بهسرعت تولید کند.
چه چیزی پشتصحنهی ساخت یک ویدیو با استفاده از مدل هوش مصنوعی خواهد بود؟ شاید تصور کنید این فرایند شبیه به انیمیشن استاپموشن باشد، که در آن تصاویر متعددی ساخته و به هم متصل میشوند، اما در مورد «مدلهای انتشار» مانند SORA از OpenAI یا VEO 2 از گوگل، ماجرا متفاوت است.
این سیستمها بهجای تولید فریمبهفریم ویدیو (یا همان خودبازگشتی)، تمام دنبالهی ویدیو را یکجا پردازش میکنند. نتیجه معمولاً بهطرز چشمگیری واقعگرایانه است، اما فرآیند بسیار کند بوده و امکان اعمال تغییرات در لحظه را فراهم نمیکند.
حالا محققان آزمایشگاه علوم رایانه و هوش مصنوعی MIT (CSAIL) و تیم Adobe Research، رویکردی ترکیبی به نام CausVid توسعه دادهاند که میتواند ویدیوها را در عرض چند ثانیه تولید کند. مانند دانشآموزی باهوش که از معلمی باتجربه یاد میگیرد، در این مدل، یک سیستم انتشارِ کاملتوالی به یک سیستم خودبازگشتی آموزش میدهد تا فریم بعدی را بهسرعت و با کیفیت بالا پیشبینی کند. مدل «دانشآموز» CausVid سپس میتواند فقط با یک پرامپت متنی ساده، کلیپهایی خلق کند — از تبدیل یک عکس به صحنهی متحرک گرفته تا ادامهدادن ویدیو یا تغییر محتوای آن در حین تولید.
این ابزار پویای هوش مصنوعی، فرایند تولید ویدیو را از یک روند ۵۰ مرحلهای به چند اقدام ساده کاهش میدهد. این مدل میتواند صحنههایی خلاقانه و هنری خلق کند، مانند:
تبدیل یک هواپیمای کاغذی به قو
عبور ماموتهای پشمالو از میان برف
پریدن کودکی در یک گودال آب
همچنین کاربران میتوانند یک پرامپت اولیه مثل «مردی در حال عبور از خیابان» وارد کنند و سپس دستورات بعدی مانند «وقتی به آنطرف پیادهرو رسید، در دفترچهاش یادداشت مینویسد» را اضافه کنند.
🎥 یک انیمیشن تولیدشده توسط CausVid که مردی با لباس غواصی قدیمی را در حال قدم زدن روی برگ نشان میدهد، توانایی مدل در ساخت ویدیوهای روان و باکیفیت را نمایش میدهد. (ویدیو تولید شده توسط محققان)
ویدیویی که توسط CausVid تولید شده، توانایی آن در ساخت محتوایی روان و باکیفیت را نشان میدهد. انیمیشن تولیدشده توسط هوش مصنوعی، با همکاری محققان تهیه شده است.
🌍 کاربردهای گسترده
پژوهشگران CSAIL میگویند این مدل میتواند در زمینههای مختلفی مورد استفاده قرار بگیرد، از جمله:
ویرایش ویدیو برای نمایش ترجمهی همزمان در ویدیوهای زنده
ساخت محتوای گرافیکی جدید برای بازیهای ویدیویی
تولید سریع شبیهسازیهای آموزشی برای آموزش وظایف جدید به رباتها
🔧 فناوری ترکیبی: آموزش معلم به دانشآموز
Tianwei Yin، دانشآموخته کارشناسی ارشد و دکترای مهندسی برق و علوم رایانه و پژوهشگر CSAIL، قدرت این مدل را به رویکرد ترکیبی آن نسبت میدهد:
«CausVid یک مدل مبتنی بر انتشار را با معماری خودبازگشتی — که معمولاً در مدلهای تولید متن دیده میشود — ترکیب کرده است. این مدل معلمِ هوشمند، میتواند مراحل آینده را تصور کرده و به سیستم فریمبهفریم آموزش دهد که از خطاهای بصری جلوگیری کند.»
نویسنده مشترک دیگر، Qiang Zhang، پژوهشگر علمی در xAI و بازدیدکننده پیشین CSAIL بوده است. آنها این پروژه را با همکاری پژوهشگران Adobe Research، شامل Richard Zhang، Eli Shechtman و Xun Huang و نیز دو استاد MIT بهنامهای Bill Freeman و Frédo Durand انجام دادهاند.
🔄 خطای تجمعی، دشمن کیفیت
مدلهای خودبازگشتی اغلب میتوانند ویدیویی روان در ابتدا تولید کنند، اما کیفیت آن بهمرور افت میکند. مثلاً ممکن است در کلیپی از فردی در حال دویدن، پاها در ابتدا طبیعی به نظر برسند ولی سپس بهشکلی غیرعادی تکان بخورند — پدیدهای که به آن تجمع خطا (error accumulation) گفته میشود.
در گذشته، رویکردهای خودبازگشتی که بدون کمک خارجی آموزش میدیدند، با همین مشکل مواجه بودند. اما CausVid با استفاده از یک مدل انتشار قدرتمند، به سیستم سادهتر آموزش میدهد که چگونه ویدیویی روان، اما سریع بسازد.
🎯 عملکرد درخشان CausVid در آزمایشها
در تستهایی برای تولید ویدیوهای با کیفیت بالا و ۱۰ ثانیهای، CausVid توانست عملکردی بسیار بهتر از مدلهای مرجع مانند OpenSORA و MovieGen داشته باشد. تا ۱۰۰ برابر سریعتر و در عین حال پایدارتر و با کیفیتتر.
سپس پژوهشگران توانایی مدل را در تولید ویدیوهای ۳۰ ثانیهای بررسی کردند. نتایج نشان داد که CausVid در مقایسه با مدلهای دیگر، همچنان از نظر کیفیت و ثبات در رتبه اول قرار دارد. این موفقیتها حاکی از آن است که این مدل در آینده میتواند ویدیوهایی چند ساعته یا حتی با مدتزمان نامحدود تولید کند.
در مطالعهای دیگر، کاربران ویدیوهای تولیدشده توسط مدل دانشآموز (سریعتر) را بر مدل معلم ترجیح دادند.
یین میگوید: «سرعت مدل خودبازگشتی واقعاً تفاوت ایجاد میکند. کیفیت ویدیوهایش مثل مدل معلم است، اما زمان تولید بسیار کوتاهتر. تنها نقطه ضعفش این است که تنوع بصری کمتری دارد.»
🥇 برتری در ارزیابیهای عددی
CausVid همچنین در مجموعهای از آزمایشها با بیش از ۹۰۰ پرامپت متنی در دیتاست text-to-video شرکت کرد و امتیاز 84.27 را بهعنوان بالاترین امتیاز کلی کسب کرد. این مدل در دستهبندیهایی مانند کیفیت تصویری و واقعگرایی در حرکات انسانی نیز بهترین عملکرد را داشت و از مدلهای پیشرفتهای مانند Gen-3 و Vchitect پیشی گرفت.
⏩ آیندهی سریعتر در راه است
با اینکه CausVid گامی بلند در تولید ویدیوی هوش مصنوعی است، پژوهشگران میگویند این فناوری در آینده حتی میتواند با معماری سادهتر و در زمان آنی (instant) ویدیو تولید کند. اگر این مدل روی دادههای تخصصی آموزش ببیند، میتواند خروجیهای بسیار دقیقتری برای کاربردهایی مثل رباتیک و بازیسازی ارائه دهد.
📉 کاهش مصرف منابع و ردپای کربن
متخصصان بر این باورند که این سیستم ترکیبی، بهروزترین جایگزین برای مدلهای انتشار کند و پرهزینه فعلی است. دکتر Jun-Yan Zhu، استادیار دانشگاه کارنگی ملون که در این پژوهش دخیل نبوده، میگوید:
«این مدلها نسبت به مدلهای زبانی یا تصویرساز خیلی کندتر بودند. کار جدید تیم MIT این وضعیت را تغییر داده و تولید ویدیو را کارآمدتر کرده است. این یعنی سرعت استریم بالاتر، تعاملپذیری بیشتر و کاهش ردپای کربن.»
💡 پشتیبانان پروژه
پژوهشهای مربوط به CausVid با حمایت مؤسساتی مانند Amazon Science Hub، مؤسسه علوم و فناوری گوانگجو (GIST)، Adobe، Google، آزمایشگاه تحقیقات نیروی هوایی ایالات متحده و شتابدهنده هوش مصنوعی نیروی هوایی ایالات متحده انجام شده است.
قرار است این مدل در کنفرانس بینایی ماشین و تشخیص الگو (CVPR) در ژوئن امسال ارائه شود.