سورا دوباره پیشی گرفت! مدل ویدیویی Meta AI در اواخر شب منفجر می شود، با BGM خیره کننده ارائه می شود که ویرایش ویدیو را آسان تر از P-pictures می کند.

زاکربرگ اخیراً در سرتاسر جهان مشغول «دزدیدن کانون توجه» بوده است.

چندی پیش، او «کارآفرینی دوم» خود را آغاز کرد و به تازگی قدرتمندترین عینک AR متا اوریون را به ما نشان داد، که ده سال است آن را تقویت کرده است، اگرچه این فقط یک نمونه اولیه برای شرط بندی در آینده است، اما توجه مردم را به خود جلب کرده است ویژن پرو اپل.

دیشب متا بار دیگر در تراک مدل نسل ویدیویی دزدید.

متا گفت که Meta Movie Gen که به تازگی منتشر شده است، پیشرفته ترین "مدل های بنیاد رسانه" تا به امروز است.

با این حال، بیایید ابتدا یک اقدام احتیاطی انجام دهیم.

مقامات ادعا می کنند که فعالانه با متخصصان و سازندگان صنعت سرگرمی ارتباط و همکاری دارند و انتظار می رود تا سال آینده آن را در محصولات و خدمات متا ادغام کنند.

ویژگی های Meta Movie Gen را به طور خلاصه بیان کنید:

  • عملکردهایی مانند تولید ویدیوی شخصی، ویرایش دقیق ویدیو و تولید صدا دارد.
  • پشتیبانی از تولید ویدیوهای طولانی با کیفیت بالا در 1080P، 16 ثانیه و 16 فریم در ثانیه
  • قابلیت تولید تا 45 ثانیه صدای باکیفیت و با کیفیت بالا
  • برای دستیابی به قابلیت های پیچیده و دقیق ویرایش ویدیو، متن ساده را وارد کنید
  • نسخه ی نمایشی عالی بود، اما انتظار نمی رود این محصول تا سال آینده به طور رسمی در دسترس عموم قرار گیرد

با «میم» خداحافظی کنید و روی عملکردهای بزرگ و جامع تمرکز کنید

به طور خلاصه، Movie Gen چهار عملکرد عمده دارد: تولید ویدیو، تولید ویدیوی شخصی، ویرایش دقیق ویدیو و تولید صدا.

عملکرد ویدیویی Vincent مدت‌هاست که یکی از ویژگی‌های استاندارد مدل‌های تولید ویدیو بوده است، با این حال، Meta Movie Gen می‌تواند فیلم‌هایی با کیفیت بالا با نسبت‌های مختلف با توجه به نیازهای کاربر تولید کند، که در نوع خود در صنعت است.

خلاصه ورودی متن: تنبلی با عینک آفتابی روی یک دونات در یک استخر دراز کشیده است.

خلاصه ای از ورودی متن: مرد بدون پیراهن است. فضا مسحور کننده است، با رقص آتش.

علاوه بر این، Meta Movie Gen عملکردهای پیشرفته ویرایش ویدیو را ارائه می دهد که به کاربران امکان می دهد از طریق ورودی متن ساده به کارهای پیچیده ویرایش ویدیو دست یابند.

از سبک بصری ویدیو گرفته تا افکت‌های انتقال بین کلیپ‌های ویدیویی تا عملیات ویرایش دقیق‌تر، این مدل آزادی کافی را نیز به ارمغان می‌آورد.

Meta Movie Gen نیز گام بزرگی در تولید ویدیوی شخصی سازی شده برداشته است.

کاربران می‌توانند تصاویر خود را آپلود کنند و از Meta Movie Gen برای تولید ویدیوهایی شخصی‌سازی شده در عین حفظ شخصیت و حرکت استفاده کنند.

خلاصه ورودی متن: یک دختر گاوچران با شلوار جین سوار بر اسبی سفید در یک شهر قدیمی در غرب است.

از فانوس‌های کونگ‌مینگ گرفته تا حباب‌های رنگی شفاف، می‌توانید به راحتی همان شی را در ویدیو تنها با یک جمله جایگزین کنید.

ورودی متن: فانوس را به یک حباب تبدیل کنید که در هوا اوج می گیرد.

اگرچه بسیاری از مدل‌های ویدیویی امسال رونمایی شده‌اند، اما حیف است که آن‌ها را رها کنیم، اگر همان اشتباهات متا را تکرار نکرده باشند.

ورودی متن: یک قطعه ارکسترال زیبا که حس شگفتی را برمی انگیزد.

کاربران می‌توانند فایل‌های ویدیویی یا محتوای متنی را ارائه کنند و به Meta Movie Gen اجازه دهند صدای مربوطه را بر اساس این ورودی‌ها تولید کند. (پ: به دوبله فرود اسکیت بورد دقت کنید)

علاوه بر این، نه تنها می تواند یک جلوه صوتی واحد ایجاد کند، بلکه می تواند موسیقی پس زمینه و حتی یک موسیقی متن کامل را برای کل ویدیو ایجاد کند، بنابراین کیفیت کلی ویدیو و تجربه تماشای مخاطب را تا حد زیادی بهبود می بخشد.

لکس فریدمن پس از تماشای دمو، تحسین خود را به اختصار بیان کرد.

بسیاری از کاربران اینترنت یک بار دیگر سورا آتی OpenAI را تحت فشار قرار دادند، اما کاربران مشتاق بیشتری منتظر باز شدن مدارک تجربه آزمایشی هستند.

یان لکون، دانشمند ارشد هوش مصنوعی متا نیز پلتفرم Meta Movie Gen را به صورت آنلاین تبلیغ کرد.

پای نقاشی شده توسط متا ارزش آن را دارد

هنگامی که Meta Movie Gen راه اندازی شد، تیم تحقیقاتی Meta AI همچنین یک مقاله فنی 92 صفحه ای را در همان زمان منتشر کرد.

بر اساس گزارش‌ها، تیم تحقیقاتی هوش مصنوعی متا عمدتاً از دو مدل پایه برای دستیابی به این عملکردهای گسترده استفاده می‌کند – مدل‌های فیلم Gen Video و Movie Gen Audio.

در میان آنها، Movie Gen Video یک مدل پایه با پارامترهای 30B است که برای تولید متن به ویدیو استفاده می شود و می تواند ویدیوهای HD با کیفیت بالا تا 16 ثانیه تولید کند.

مرحله پیش آموزش مدل از حجم زیادی از داده های تصویری و ویدئویی برای درک مفاهیم مختلف دنیای بصری، از جمله حرکت جسم، تعامل، هندسه، حرکت دوربین و قوانین فیزیکی استفاده می کند.
برای بهبود کیفیت تولید ویدیو، مدل نیز با تنظیم دقیق (SFT) با استفاده از مجموعه کوچکی از فیلم‌ها و زیرنویس‌های متنی با کیفیت بالا که با دقت انتخاب شده‌اند، نظارت می‌شود.

این گزارش نشان می‌دهد که فرآیند پس از آموزش مرحله مهمی در آموزش مدل Movie Gen Video است که می‌تواند کیفیت تولید ویدیو، به‌ویژه عملکرد شخصی‌سازی و ویرایش تصاویر و ویدیوها را بیشتر بهبود بخشد.

شایان ذکر است که تیم تحقیقاتی همچنین مدل Movie Gen Video را با مدل های تولید ویدئوی رایج مقایسه کرده است.

از آنجایی که Sora در حال حاضر باز نیست، محققان فقط می توانند از ویدیوها و نکات عمومی منتشر شده آن برای مقایسه استفاده کنند. برای مدل‌های دیگر، مانند Runway Gen3، LumaLabs، و Keling 1.5، محققان انتخاب می‌کنند که ویدیوها را خودشان از طریق رابط‌های API تولید کنند.

و از آنجایی که ویدیوهای ارسال شده توسط Sora دارای وضوح و مدت زمان متفاوتی هستند، محققان ویدیوها را از Movie Gen Video برش دادند تا اطمینان حاصل کنند که ویدیوها در مقایسه با وضوح و مدت زمان یکسانی دارند.

نتایج نشان می دهد که اثر ارزیابی کلی Movie Gen Video به طور قابل توجهی بهتر از Runway Gen3 و LumaLabs است، برتری جزئی نسبت به OpenAI Sora دارد و معادل Keling 1.5 است.

در آینده، متا همچنین قصد دارد چندین بنچمارک از جمله Movie Gen Video Bench، Movie Gen Edit Bench و Movie Gen Audio Bench را به صورت عمومی منتشر کند تا تحقیقات در مورد مدل های تولید ویدئو را تسریع بخشد.

مدل Movie Gen Audio مدلی با پارامتر 13B برای تولید ویدئو و متن به صدا است که می‌تواند تا 45 ثانیه صدای با کیفیت و با کیفیت بالا شامل جلوه‌های صوتی و موسیقی را تولید کند و با ویدئو همگام شود.

این مدل یک مدل مولد مبتنی بر تطبیق جریان و معماری مدل ترانسفورماتور انتشار (DiT) را اتخاذ می‌کند و ماژول‌های شرطی اضافی را برای ارائه کنترل اضافه می‌کند.

حتی تیم تحقیقاتی متا یک فناوری گسترش صدا را معرفی کرد که به مدل اجازه می‌دهد صدای منسجمی را فراتر از محدودیت اولیه 45 ثانیه تولید کند، یعنی مدل می‌تواند صدای منطبق را بدون توجه به اینکه چقدر طولانی باشد، تولید کند.

برای اطلاعات بیشتر، لطفا مقاله فنی را مشاهده کنید

https://ai.meta.com/static-resource/movie-gen-research-paper

دیروز، تیم بروکس، رئیس OpenAI Sora، رسما استعفای خود را اعلام کرد و به Google DeepMind پیوست که بار دیگر آینده نامشخص پروژه Sora را در هاله‌ای از ابهام قرار داد.

به گزارش بلومبرگ، کانر هیز، معاون متا گفت که جنرال متا در حال حاضر هیچ برنامه محصول خاصی ندارد. هیز دلیل مهمی را برای تاخیر در عرضه فاش کرد.

Meta Movie Gen در حال حاضر از پیام‌های متنی برای تولید ویدیویی استفاده می‌کند که اغلب به ده‌ها دقیقه انتظار نیاز دارد، که به شدت بر تجربه کاربر تأثیر می‌گذارد.

متا امیدوار است که بهره وری تولید ویدیو را بیشتر بهبود بخشد و سرویس ویدیویی را در پایانه تلفن همراه راه اندازی کند تا بتواند نیازهای مصرف کنندگان را بهتر برآورده کند.

در واقع، اگر به فرم محصول نگاه کنید، طراحی کاربردی Meta Movie Gen بر بزرگ و جامع بودن تمرکز دارد و مانند سایر مدل های ویدیویی «لنگ» نیست.
برجسته ترین کاستی این است که همان طعم "آینده" سورا را دارد.

ایده آل بسیار پر است، واقعیت بسیار لاغر است.

ممکن است بگویید همانطور که سورا در حال حاضر توسط مدل های بزرگ داخلی پیشی گرفته است، زمانی که Meta Movie Gen راه اندازی شد، ممکن است چشم انداز رقابتی در زمینه تولید ویدیو دوباره تغییر کند.

اما حداقل در حال حاضر، پای نقاشی شده توسط متا برای قورت دادن مردم کافی است.

# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo