مدل هیبریدی هوش مصنوعی در چند ثانیه ویدیوهایی روان و باکیفیت می‌سازد.

خانه » مجله » مدل هیبریدی هوش مصنوعی در چند ثانیه ویدیوهایی روان و باکیفیت می‌سازد.
مدل هیبریدی هوش مصنوعی در چند ثانیه ویدیوهایی روان و باکیفیت می‌سازد.

ابزار تولیدی هوش مصنوعی CausVid از یک مدل انتشار (diffusion) استفاده می‌کند تا به یک سیستم خودبازگشتی (autoregressive – فریم به فریم) آموزش دهد که چگونه ویدیوهایی پایدار و با وضوح بالا را به‌سرعت تولید کند.

چه چیزی پشت‌صحنه‌ی ساخت یک ویدیو با استفاده از مدل هوش مصنوعی خواهد بود؟ شاید تصور کنید این فرایند شبیه به انیمیشن استاپ‌موشن باشد، که در آن تصاویر متعددی ساخته و به هم متصل می‌شوند، اما در مورد «مدل‌های انتشار» مانند SORA از OpenAI یا VEO 2 از گوگل، ماجرا متفاوت است.

این سیستم‌ها به‌جای تولید فریم‌به‌فریم ویدیو (یا همان خودبازگشتی)، تمام دنباله‌ی ویدیو را یک‌جا پردازش می‌کنند. نتیجه معمولاً به‌طرز چشمگیری واقع‌گرایانه است، اما فرآیند بسیار کند بوده و امکان اعمال تغییرات در لحظه را فراهم نمی‌کند.

حالا محققان آزمایشگاه علوم رایانه و هوش مصنوعی MIT (CSAIL) و تیم Adobe Research، رویکردی ترکیبی به نام CausVid توسعه داده‌اند که می‌تواند ویدیوها را در عرض چند ثانیه تولید کند. مانند دانش‌آموزی باهوش که از معلمی باتجربه یاد می‌گیرد، در این مدل، یک سیستم انتشارِ کامل‌توالی به یک سیستم خودبازگشتی آموزش می‌دهد تا فریم بعدی را به‌سرعت و با کیفیت بالا پیش‌بینی کند. مدل «دانش‌آموز» CausVid سپس می‌تواند فقط با یک پرامپت متنی ساده، کلیپ‌هایی خلق کند — از تبدیل یک عکس به صحنه‌ی متحرک گرفته تا ادامه‌دادن ویدیو یا تغییر محتوای آن در حین تولید.

این ابزار پویای هوش مصنوعی، فرایند تولید ویدیو را از یک روند ۵۰ مرحله‌ای به چند اقدام ساده کاهش می‌دهد. این مدل می‌تواند صحنه‌هایی خلاقانه و هنری خلق کند، مانند:

  • تبدیل یک هواپیمای کاغذی به قو
  • عبور ماموت‌های پشمالو از میان برف
  • پریدن کودکی در یک گودال آب

همچنین کاربران می‌توانند یک پرامپت اولیه مثل «مردی در حال عبور از خیابان» وارد کنند و سپس دستورات بعدی مانند «وقتی به آن‌طرف پیاده‌رو رسید، در دفترچه‌اش یادداشت می‌نویسد» را اضافه کنند.

🎥 یک انیمیشن تولیدشده توسط CausVid که مردی با لباس غواصی قدیمی را در حال قدم زدن روی برگ نشان می‌دهد، توانایی مدل در ساخت ویدیوهای روان و باکیفیت را نمایش می‌دهد.
(ویدیو تولید شده توسط محققان)

ویدیویی که توسط CausVid تولید شده، توانایی آن در ساخت محتوایی روان و باکیفیت را نشان می‌دهد.
انیمیشن تولیدشده توسط هوش مصنوعی، با همکاری محققان تهیه شده است.

🌍 کاربردهای گسترده

پژوهشگران CSAIL می‌گویند این مدل می‌تواند در زمینه‌های مختلفی مورد استفاده قرار بگیرد، از جمله:

  • ویرایش ویدیو برای نمایش ترجمه‌ی هم‌زمان در ویدیوهای زنده
  • ساخت محتوای گرافیکی جدید برای بازی‌های ویدیویی
  • تولید سریع شبیه‌سازی‌های آموزشی برای آموزش وظایف جدید به ربات‌ها

🔧 فناوری ترکیبی: آموزش معلم به دانش‌آموز

Tianwei Yin، دانش‌آموخته کارشناسی ارشد و دکترای مهندسی برق و علوم رایانه و پژوهشگر CSAIL، قدرت این مدل را به رویکرد ترکیبی آن نسبت می‌دهد:

«CausVid یک مدل مبتنی بر انتشار را با معماری خودبازگشتی — که معمولاً در مدل‌های تولید متن دیده می‌شود — ترکیب کرده است. این مدل معلمِ هوشمند، می‌تواند مراحل آینده را تصور کرده و به سیستم فریم‌به‌فریم آموزش دهد که از خطاهای بصری جلوگیری کند.»

نویسنده مشترک دیگر، Qiang Zhang، پژوهشگر علمی در xAI و بازدیدکننده پیشین CSAIL بوده است. آن‌ها این پروژه را با همکاری پژوهشگران Adobe Research، شامل Richard Zhang، Eli Shechtman و Xun Huang و نیز دو استاد MIT به‌نام‌های Bill Freeman و Frédo Durand انجام داده‌اند.

🔄 خطای تجمعی، دشمن کیفیت

مدل‌های خودبازگشتی اغلب می‌توانند ویدیویی روان در ابتدا تولید کنند، اما کیفیت آن به‌مرور افت می‌کند. مثلاً ممکن است در کلیپی از فردی در حال دویدن، پاها در ابتدا طبیعی به نظر برسند ولی سپس به‌شکلی غیرعادی تکان بخورند — پدیده‌ای که به آن تجمع خطا (error accumulation) گفته می‌شود.

در گذشته، رویکردهای خودبازگشتی که بدون کمک خارجی آموزش می‌دیدند، با همین مشکل مواجه بودند. اما CausVid با استفاده از یک مدل انتشار قدرتمند، به سیستم ساده‌تر آموزش می‌دهد که چگونه ویدیویی روان، اما سریع بسازد.

🎯 عملکرد درخشان CausVid در آزمایش‌ها

در تست‌هایی برای تولید ویدیوهای با کیفیت بالا و ۱۰ ثانیه‌ای، CausVid توانست عملکردی بسیار بهتر از مدل‌های مرجع مانند OpenSORA و MovieGen داشته باشد. تا ۱۰۰ برابر سریع‌تر و در عین حال پایدارتر و با کیفیت‌تر.

سپس پژوهشگران توانایی مدل را در تولید ویدیوهای ۳۰ ثانیه‌ای بررسی کردند. نتایج نشان داد که CausVid در مقایسه با مدل‌های دیگر، همچنان از نظر کیفیت و ثبات در رتبه اول قرار دارد. این موفقیت‌ها حاکی از آن است که این مدل در آینده می‌تواند ویدیوهایی چند ساعته یا حتی با مدت‌زمان نامحدود تولید کند.

در مطالعه‌ای دیگر، کاربران ویدیوهای تولیدشده توسط مدل دانش‌آموز (سریع‌تر) را بر مدل معلم ترجیح دادند.

یین می‌گوید: «سرعت مدل خودبازگشتی واقعاً تفاوت ایجاد می‌کند. کیفیت ویدیوهایش مثل مدل معلم است، اما زمان تولید بسیار کوتاه‌تر. تنها نقطه ضعفش این است که تنوع بصری کمتری دارد.»

🥇 برتری در ارزیابی‌های عددی

CausVid همچنین در مجموعه‌ای از آزمایش‌ها با بیش از ۹۰۰ پرامپت متنی در دیتاست text-to-video شرکت کرد و امتیاز 84.27 را به‌عنوان بالاترین امتیاز کلی کسب کرد. این مدل در دسته‌بندی‌هایی مانند کیفیت تصویری و واقع‌گرایی در حرکات انسانی نیز بهترین عملکرد را داشت و از مدل‌های پیشرفته‌ای مانند Gen-3 و Vchitect پیشی گرفت.

⏩ آینده‌ی سریع‌تر در راه است

با اینکه CausVid گامی بلند در تولید ویدیوی هوش مصنوعی است، پژوهشگران می‌گویند این فناوری در آینده حتی می‌تواند با معماری ساده‌تر و در زمان آنی (instant) ویدیو تولید کند. اگر این مدل روی داده‌های تخصصی آموزش ببیند، می‌تواند خروجی‌های بسیار دقیق‌تری برای کاربردهایی مثل رباتیک و بازی‌سازی ارائه دهد.

📉 کاهش مصرف منابع و ردپای کربن

متخصصان بر این باورند که این سیستم ترکیبی، به‌روزترین جایگزین برای مدل‌های انتشار کند و پرهزینه فعلی است. دکتر Jun-Yan Zhu، استادیار دانشگاه کارنگی ملون که در این پژوهش دخیل نبوده، می‌گوید:

«این مدل‌ها نسبت به مدل‌های زبانی یا تصویرساز خیلی کندتر بودند. کار جدید تیم MIT این وضعیت را تغییر داده و تولید ویدیو را کارآمدتر کرده است. این یعنی سرعت استریم بالاتر، تعامل‌پذیری بیشتر و کاهش ردپای کربن.»

💡 پشتیبانان پروژه

پژوهش‌های مربوط به CausVid با حمایت مؤسساتی مانند Amazon Science Hub، مؤسسه علوم و فناوری گوانگجو (GIST)، Adobe، Google، آزمایشگاه تحقیقات نیروی هوایی ایالات متحده و شتاب‌دهنده هوش مصنوعی نیروی هوایی ایالات متحده انجام شده است.

قرار است این مدل در کنفرانس بینایی ماشین و تشخیص الگو (CVPR) در ژوئن امسال ارائه شود.

نوشته های مرتبط

دیدگاه خود را بنویسید