زاکربرگ اخیراً در سرتاسر جهان مشغول «دزدیدن کانون توجه» بوده است.
چندی پیش، او «کارآفرینی دوم» خود را آغاز کرد و به تازگی قدرتمندترین عینک AR متا اوریون را به ما نشان داد، که ده سال است آن را تقویت کرده است، اگرچه این فقط یک نمونه اولیه برای شرط بندی در آینده است، اما توجه مردم را به خود جلب کرده است ویژن پرو اپل.
دیشب متا بار دیگر در تراک مدل نسل ویدیویی دزدید.
متا گفت که Meta Movie Gen که به تازگی منتشر شده است، پیشرفته ترین "مدل های بنیاد رسانه" تا به امروز است.
با این حال، بیایید ابتدا یک اقدام احتیاطی انجام دهیم.
مقامات ادعا می کنند که فعالانه با متخصصان و سازندگان صنعت سرگرمی ارتباط و همکاری دارند و انتظار می رود تا سال آینده آن را در محصولات و خدمات متا ادغام کنند.
ویژگی های Meta Movie Gen را به طور خلاصه بیان کنید:
- عملکردهایی مانند تولید ویدیوی شخصی، ویرایش دقیق ویدیو و تولید صدا دارد.
- پشتیبانی از تولید ویدیوهای طولانی با کیفیت بالا در 1080P، 16 ثانیه و 16 فریم در ثانیه
- قابلیت تولید تا 45 ثانیه صدای باکیفیت و با کیفیت بالا
- برای دستیابی به قابلیت های پیچیده و دقیق ویرایش ویدیو، متن ساده را وارد کنید
- نسخه ی نمایشی عالی بود، اما انتظار نمی رود این محصول تا سال آینده به طور رسمی در دسترس عموم قرار گیرد
با «میم» خداحافظی کنید و روی عملکردهای بزرگ و جامع تمرکز کنید
به طور خلاصه، Movie Gen چهار عملکرد عمده دارد: تولید ویدیو، تولید ویدیوی شخصی، ویرایش دقیق ویدیو و تولید صدا.
عملکرد ویدیویی Vincent مدتهاست که یکی از ویژگیهای استاندارد مدلهای تولید ویدیو بوده است، با این حال، Meta Movie Gen میتواند فیلمهایی با کیفیت بالا با نسبتهای مختلف با توجه به نیازهای کاربر تولید کند، که در نوع خود در صنعت است.
خلاصه ورودی متن: تنبلی با عینک آفتابی روی یک دونات در یک استخر دراز کشیده است.
خلاصه ای از ورودی متن: مرد بدون پیراهن است. فضا مسحور کننده است، با رقص آتش.
علاوه بر این، Meta Movie Gen عملکردهای پیشرفته ویرایش ویدیو را ارائه می دهد که به کاربران امکان می دهد از طریق ورودی متن ساده به کارهای پیچیده ویرایش ویدیو دست یابند.
از سبک بصری ویدیو گرفته تا افکتهای انتقال بین کلیپهای ویدیویی تا عملیات ویرایش دقیقتر، این مدل آزادی کافی را نیز به ارمغان میآورد.
Meta Movie Gen نیز گام بزرگی در تولید ویدیوی شخصی سازی شده برداشته است.
کاربران میتوانند تصاویر خود را آپلود کنند و از Meta Movie Gen برای تولید ویدیوهایی شخصیسازی شده در عین حفظ شخصیت و حرکت استفاده کنند.
خلاصه ورودی متن: یک دختر گاوچران با شلوار جین سوار بر اسبی سفید در یک شهر قدیمی در غرب است.
از فانوسهای کونگمینگ گرفته تا حبابهای رنگی شفاف، میتوانید به راحتی همان شی را در ویدیو تنها با یک جمله جایگزین کنید.
ورودی متن: فانوس را به یک حباب تبدیل کنید که در هوا اوج می گیرد.
اگرچه بسیاری از مدلهای ویدیویی امسال رونمایی شدهاند، اما حیف است که آنها را رها کنیم، اگر همان اشتباهات متا را تکرار نکرده باشند.
ورودی متن: یک قطعه ارکسترال زیبا که حس شگفتی را برمی انگیزد.
علاوه بر این، نه تنها می تواند یک جلوه صوتی واحد ایجاد کند، بلکه می تواند موسیقی پس زمینه و حتی یک موسیقی متن کامل را برای کل ویدیو ایجاد کند، بنابراین کیفیت کلی ویدیو و تجربه تماشای مخاطب را تا حد زیادی بهبود می بخشد.
لکس فریدمن پس از تماشای دمو، تحسین خود را به اختصار بیان کرد.
بسیاری از کاربران اینترنت یک بار دیگر سورا آتی OpenAI را تحت فشار قرار دادند، اما کاربران مشتاق بیشتری منتظر باز شدن مدارک تجربه آزمایشی هستند.
یان لکون، دانشمند ارشد هوش مصنوعی متا نیز پلتفرم Meta Movie Gen را به صورت آنلاین تبلیغ کرد.
پای نقاشی شده توسط متا ارزش آن را دارد
هنگامی که Meta Movie Gen راه اندازی شد، تیم تحقیقاتی Meta AI همچنین یک مقاله فنی 92 صفحه ای را در همان زمان منتشر کرد.
بر اساس گزارشها، تیم تحقیقاتی هوش مصنوعی متا عمدتاً از دو مدل پایه برای دستیابی به این عملکردهای گسترده استفاده میکند – مدلهای فیلم Gen Video و Movie Gen Audio.
در میان آنها، Movie Gen Video یک مدل پایه با پارامترهای 30B است که برای تولید متن به ویدیو استفاده می شود و می تواند ویدیوهای HD با کیفیت بالا تا 16 ثانیه تولید کند.
مرحله پیش آموزش مدل از حجم زیادی از داده های تصویری و ویدئویی برای درک مفاهیم مختلف دنیای بصری، از جمله حرکت جسم، تعامل، هندسه، حرکت دوربین و قوانین فیزیکی استفاده می کند.
برای بهبود کیفیت تولید ویدیو، مدل نیز با تنظیم دقیق (SFT) با استفاده از مجموعه کوچکی از فیلمها و زیرنویسهای متنی با کیفیت بالا که با دقت انتخاب شدهاند، نظارت میشود.
این گزارش نشان میدهد که فرآیند پس از آموزش مرحله مهمی در آموزش مدل Movie Gen Video است که میتواند کیفیت تولید ویدیو، بهویژه عملکرد شخصیسازی و ویرایش تصاویر و ویدیوها را بیشتر بهبود بخشد.
شایان ذکر است که تیم تحقیقاتی همچنین مدل Movie Gen Video را با مدل های تولید ویدئوی رایج مقایسه کرده است.
از آنجایی که Sora در حال حاضر باز نیست، محققان فقط می توانند از ویدیوها و نکات عمومی منتشر شده آن برای مقایسه استفاده کنند. برای مدلهای دیگر، مانند Runway Gen3، LumaLabs، و Keling 1.5، محققان انتخاب میکنند که ویدیوها را خودشان از طریق رابطهای API تولید کنند.
و از آنجایی که ویدیوهای ارسال شده توسط Sora دارای وضوح و مدت زمان متفاوتی هستند، محققان ویدیوها را از Movie Gen Video برش دادند تا اطمینان حاصل کنند که ویدیوها در مقایسه با وضوح و مدت زمان یکسانی دارند.
نتایج نشان می دهد که اثر ارزیابی کلی Movie Gen Video به طور قابل توجهی بهتر از Runway Gen3 و LumaLabs است، برتری جزئی نسبت به OpenAI Sora دارد و معادل Keling 1.5 است.
در آینده، متا همچنین قصد دارد چندین بنچمارک از جمله Movie Gen Video Bench، Movie Gen Edit Bench و Movie Gen Audio Bench را به صورت عمومی منتشر کند تا تحقیقات در مورد مدل های تولید ویدئو را تسریع بخشد.
مدل Movie Gen Audio مدلی با پارامتر 13B برای تولید ویدئو و متن به صدا است که میتواند تا 45 ثانیه صدای با کیفیت و با کیفیت بالا شامل جلوههای صوتی و موسیقی را تولید کند و با ویدئو همگام شود.
این مدل یک مدل مولد مبتنی بر تطبیق جریان و معماری مدل ترانسفورماتور انتشار (DiT) را اتخاذ میکند و ماژولهای شرطی اضافی را برای ارائه کنترل اضافه میکند.
حتی تیم تحقیقاتی متا یک فناوری گسترش صدا را معرفی کرد که به مدل اجازه میدهد صدای منسجمی را فراتر از محدودیت اولیه 45 ثانیه تولید کند، یعنی مدل میتواند صدای منطبق را بدون توجه به اینکه چقدر طولانی باشد، تولید کند.
برای اطلاعات بیشتر، لطفا مقاله فنی را مشاهده کنید
https://ai.meta.com/static-resource/movie-gen-research-paper
دیروز، تیم بروکس، رئیس OpenAI Sora، رسما استعفای خود را اعلام کرد و به Google DeepMind پیوست که بار دیگر آینده نامشخص پروژه Sora را در هالهای از ابهام قرار داد.
به گزارش بلومبرگ، کانر هیز، معاون متا گفت که جنرال متا در حال حاضر هیچ برنامه محصول خاصی ندارد. هیز دلیل مهمی را برای تاخیر در عرضه فاش کرد.
Meta Movie Gen در حال حاضر از پیامهای متنی برای تولید ویدیویی استفاده میکند که اغلب به دهها دقیقه انتظار نیاز دارد، که به شدت بر تجربه کاربر تأثیر میگذارد.
متا امیدوار است که بهره وری تولید ویدیو را بیشتر بهبود بخشد و سرویس ویدیویی را در پایانه تلفن همراه راه اندازی کند تا بتواند نیازهای مصرف کنندگان را بهتر برآورده کند.
در واقع، اگر به فرم محصول نگاه کنید، طراحی کاربردی Meta Movie Gen بر بزرگ و جامع بودن تمرکز دارد و مانند سایر مدل های ویدیویی «لنگ» نیست.
برجسته ترین کاستی این است که همان طعم "آینده" سورا را دارد.
ایده آل بسیار پر است، واقعیت بسیار لاغر است.
ممکن است بگویید همانطور که سورا در حال حاضر توسط مدل های بزرگ داخلی پیشی گرفته است، زمانی که Meta Movie Gen راه اندازی شد، ممکن است چشم انداز رقابتی در زمینه تولید ویدیو دوباره تغییر کند.
اما حداقل در حال حاضر، پای نقاشی شده توسط متا برای قورت دادن مردم کافی است.
# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).
Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo