با پیشی گرفتن از Sora در همه جنبه ها، آخرین مدل ویدیویی هوش مصنوعی متا در چیست؟

در دو روز گذشته به دلیل انتشار Meta Movie Gen، عرصه مدل های تولید ویدیو دوباره منفجر شد.

بیشترین سوگواری در داخل و خارج از صنعت چیزی بیش از دو نکته نیست انتشار Sora در آن زمان، دوم، مدل جدید Meta AI بسیار قابل تعریف است، و هم نسبت صفحه نمایش ویدیو و هم عناصر و جزئیات ویدیو را می توان با توجه به نیازهای کاربر تنظیم کرد.

بنابراین، جزئیات فیلم Meta Movie Gen، که ممکن است منجر به انقلاب جدیدی در تولید ویدیو شود، چیست؟ چگونه این اثرات خیره کننده در وب سایت رسمی و ویدیوهای نمایشی به دست می آید؟ اندرو براون، رئیس مدل ویدیویی در Meta AI، به طور خاص فناوری نظری Meta Movie Gen را توضیح داد:

  • Movie Gen از نظر کیفیت و ثبات کلی به طور قابل توجهی بهتر از Sora است. تست اصالت و زیبایی عکس واقع گرایی، و Movie Gen در همه جا برنده می شود.
  • Meta Movie Gen مجموعه ای از مدل هایی است که می تواند تولید متن به ویدئو، تولید متن به تصویر، شخصی سازی، ویرایش و تولید ویدئو به صدا را انجام دهد.
  • گسترش داده‌ها، محاسبات و پارامترهای مدل، ترکیب این پارامترها با تطبیق جریان، و حرکت به یک معماری ساده معمولی LLM (Llama) مهم است، بنابراین کیفیت تولید ویدیو SOTA به دست می‌آید.
  • ما (Meta AI) اولین کسی هستیم که از Llama arch برای تولید رسانه استفاده می کنیم.
  • Movie Gen یک مبدل پارامتریک 30B است که ویدیوی 1080p با نسبت‌های مختلف و صدای همگام‌سازی شده را با حداکثر مدت زمان 16 ثانیه (16 فریم در ثانیه) تولید می‌کند.
  • ما (متا) یک راه حل آموزشی چند مرحله ای برای مدل T2V ارائه می دهیم. تمرین مشترک T2I + T2V که منجر به همگرایی بسیار کندتر و کیفیت بدتر می شود.
  • ارزیابی متن به ویدئو دشوار است. معیارهای خودکار بسیار ضعیف هستند و با ارزیابی های انسانی همبستگی خوبی ندارند.

"فوق العاده فردی" تولید شده توسط ویدئو

در روزی که Meta Movie Gen راه اندازی شد، APPSO بلافاصله آخرین مدل نسل ویدیویی را گزارش و تفسیر کرد.

بیایید ابتدا نگاهی به نسل جدید فیلم سینمایی داشته باشیم. قابلیت چند وجهی باعث می شود که کاربران نه تنها از طریق متن ساده و چند کلمه سریع، ویدئوهای مربوطه را تولید کنند پردازش مورد نیاز تصاویر را در مدل قرار دهید و با توجه به متن مورد نیاز، تصاویر استاتیک را به ویدیوهای پویا تبدیل کنید.

▲ متن اعلان: دختری در حال دویدن در ساحل است، او یک شلوارک جین به تن دارد و یک تی شرت زرد بر روی او می تابد.

حتی می توانید از Movie Gen بخواهید که به بازسازی یا بهینه سازی یک ویدیو کمک کند. مهم نیست که کدام روش ورودی انتخاب شده است، ویدئوی نمایشی فعلی Movie Gen در وب سایت رسمی بسیار موثر است دقیق تر

اندرو براون معرفی کرد که در فرآیند تولید ویدیو، گسترش داده‌ها، محاسبه و پارامترهای مدل، ترکیب آن با تطبیق جریان، و روی آوردن به معماری ساده و پرکاربرد LLM (Llama) بسیار مهم است و در نتیجه کیفیت تولید ویدیو SOTA به دست می‌آید. .

علاوه بر این، مدل‌های T2V، شخصی‌سازی و ویرایش در مدل جدید همگی از یک طرح آموزشی می‌آیند. در حین پیش تمرینی، متا ابتدا T2I و سپس T2V را آموزش می دهد. از این مدل به عنوان مقداردهی اولیه استفاده کنید، سپس T2V را پس از آموزش انجام دهید و توانایی شخصی سازی ویرایش T2V و V2V را آموزش دهید.

علاوه بر این، آموزش مدل نیز با توجه به سطح وضوح، ابتدا با آموزش با وضوح پایین (256 پیکسل) و سپس با آموزش با وضوح بالا (768 پیکسل) انجام می شود. هوش مصنوعی متا سعی می کند به طور مشترک T2I + T2V را آموزش دهد، اما این منجر به همگرایی بسیار کندتر و کیفیت بدتری نسبت به قبل می شود.

دلیل اینکه Movie Gen Video می تواند به نتایج تولید واقعی دست یابد اساساً به دلیل قابلیت های عالی مدل مبدل پارامتر تا 30B است. 16 ثانیه ویدیو 45 ثانیه با کیفیت و صوت بالا.

مقامات متا همچنین در این روزنامه فاش کردند:

این مدل‌ها می‌توانند در مورد حرکت شی، تعاملات سوژه و شی و حرکت دوربین استدلال کنند و می‌توانند حرکت معقول را برای مفاهیم مختلف بیاموزند.

این جمله در مجموع دارای سه معنی است تکنولوژی مدل موفق ترین مکان.

Movie Gen Video می تواند الگوهای حرکتی دنیای فیزیکی را به دقت درک کند و هوش مصنوعی متا تلاش زیادی کرده است. این تیم پیش‌آموزش گسترده‌ای را از مدل جدید روی صدها میلیون ویدیو و میلیاردها تصویر انجام دادند. از طریق تکرار مداوم، یادگیری، خلاصه سازی، استدلال و کاربرد، Movie Gen Video عملکرد فوق العاده ای در وب سایت رسمی به دست آورده است.

سپس مدل می تواند به طور فعال حرکات دوربین، صحنه ها، مونتاژها و غیره فیلم های حرفه ای را تقلید کرده و یاد بگیرد. به عبارت دیگر، ویدیوهای تولید شده از طریق Movie Gen Video نیز حرفه ای و هنری مشابه فیلمبرداری فیلم دارند.

با این حال، اندرو براون اشاره کرد که ارزیابی متن به ویدئو دشوار است. زیرا معیارهای خودکار بسیار ضعیف هستند و با ارزیابی های انسانی همبستگی خوبی ندارند. به عبارت دیگر، در روزهای اولیه توسعه مدل‌های تولید ویدیو، نتایج تولید در برداشت‌ها و مشاهدات مردم بسیار متفاوت از دنیای فیزیکی واقعی بود ارزیابی

ما تلاش زیادی کردیم تا ارزیابی ویدیو را به چندین محور متعامد کیفیت و تراز تقسیم کنیم.

Results Movie Gen برنده است یا از نظر کیفیت و سازگاری در مقایسه با مدل‌های موجود در مجموعه ارزیابی 1000 نشانه‌ای، برنده است.

در نهایت، مدل می‌تواند محتوای بعدی را بر این اساس بسازد که با تصویر در زمان واقعی مطابقت دارد.

▲ جلوه صوتی در لحظه انفجار آتش بازی

توانایی تولید صدا به صورت همزمان به Movie Gen Audio متکی است. این یک مدل مبدل پارامتر 13B است که ورودی ویدیو و همچنین درخواست‌های متن اختیاری را برای تولید قابل کنترل صدای با وفاداری بالا همگام‌سازی شده با ویدیو می‌پذیرد.

مانند Movie Gen Video، Movie Gen Audio نیز تمرینات "عظیم" متا را انجام می دهد که میلیون ها ساعت مرجع صوتی را به آموزش مدل می دهد. پس از مقایسه و جمع بندی زیاد، مدل فعلی بر مطابقت صدا و تصویر مسلط شده است و حتی می تواند احساسات متفاوت BGM های مختلف را برای مخاطب درک کند.

بنابراین وقتی صحبت از کلمات کلیدی در مورد حال و هوا و محیط می شود، Movie Gen Audio همیشه می تواند موسیقی کاملاً مطابق با تصویر را پیدا کند.

در عین حال، می‌تواند صداهای محیطی، آهنگ‌های پشتیبان ساز و صداهای فولی تولید کند و نتایج پیشرفته‌ای را از نظر کیفیت صدا، تراز ویدئو به صدا و تراز متن به صدا ارائه دهد.

این آنها را به پیشرفته ترین مدل ها در نوع خود تبدیل می کند.

اگرچه ما جرات چنین نتیجه گیری مطمئنی مانند رسمی را نداریم، صرف نظر از طول ویدیوی رسمی، کیفیت تصویر یا تناسب موسیقی پس زمینه، در مقایسه با مدل های نسل قبلی ویدیو، Movie Gen Video پیشرفت بسیار واضحی دارد.

علاوه بر این، در مقایسه با بت‌های قدرتمند Sora، Movie Gen از نظر کیفیت و ثبات کلی پیشتاز است.

فیلم Gen در همه جا برنده می شود.

"کارشناس همه جانبه" در ویرایش ویدئو

با همکاری Movie Gen Video و Movie Gen Audio، مدل جدید Meta AI دارای قابلیت‌های جدیدی است مدل جدید دامنه کاربرد آن را قادر می سازد از تولید فیلم های شخصی سازی شده پشتیبانی کند.

شخصی سازی، همانطور که از نام آن پیداست، ترکیب نیازهای کاربر و تولید محتوای ویدئویی مشخص بر اساس نیاز است.

اگرچه مدل‌های ویدیویی قبلی نیز می‌توانند نتایج شخصی‌سازی‌شده ایجاد کنند، نتایج همیشه رضایت‌بخش نیستند یا نمی‌توان جزئیات را تغییر داد و باید از نو شروع به کار کرد، یا وقتی که جزئیات همیشه تا حدودی تحت تأثیر قرار می‌گیرند، نمی‌توان عناصر دیگر را در تصویر حفظ کرد توسط نسل ویدیوهای جدید

نمایش Movie Gen Video در وب سایت رسمی مزایای آنها را در این زمینه به خوبی نشان می دهد. مدل جدید نه‌تنها می‌تواند ویدیوهای شخصی‌سازی‌شده را مطابق با الزامات کلمات سریع/تصاویر مرجع تولید کند، بلکه همچنان به بهینه‌سازی و تنظیم جزئیات بر اساس ویدیو ادامه می‌دهد و اطمینان حاصل می‌کند که دیگر محتوای تولید شده مختل نمی‌شود، که «اصلاح خوب» است.

برخلاف ابزارهای تولید سنتی که نیاز به مهارت‌های تخصصی یا عدم دقت دارند، Movie Gen محتوای اصلی را حفظ می‌کند و فقط پیکسل‌های مرتبط را هدف قرار می‌دهد.

مدل ما در ایجاد ویدیوهای شخصی که هویت و اعمال انسان را حفظ می کند، به نتایج پیشرفته ای دست می یابد.

این عملکرد برای بسیاری از استودیوهای خودرسانه یا افرادی که نیاز به ویرایش ویدیو دارند بسیار مفید است. این می تواند به اندازه بازسازی کل تصویر بر اساس متن یا به کوچکی تغییر رنگ موی شخصیت، مدل عینک و غیره باشد. به عنوان مثال، از مدل ها می توان برای از بین بردن به هم ریختگی های نامربوط در پس زمینه استفاده کرد.

یا می‌توانید به ویدیوی اصلی پس‌زمینه جدیدی بدهید، چه سبک باشد و چه رنگ، می‌توانید آن را در هر زمانی تغییر دهید، و همچنین می‌توانید در چند ثانیه روز را به شب تبدیل کنید.

علاوه بر این، Movie Gen Video می‌تواند تنظیمات ظریفی را در بسیاری از جزئیات انجام دهد، در حالی که اطمینان حاصل می‌کند که ترکیب ویدیو و تصویر کلی بدون تغییر باقی می‌ماند، همچنین می‌تواند رنگ لباس شخصیت، سبک عینک زدن، لباس بدن اصلی، رنگ خز حیوان خانگی را نیز تغییر دهد. و غیره

به عنوان مثال، از بین بردن شلوغی های نامربوط در فیلم ها، تغییر سبک پس زمینه تصویر، افزودن جزئیات به فیلم، تغییر رنگ لباس سوژه و… همگی نقاط قوت او هستند.

اما این فقط یک فانتزی است، زیرا Movie Gen Video در حال حاضر تنها از کیفیت 1080P، 16 ثانیه، 16 فریم در ثانیه ویدیوی طولانی با کیفیت بالا یا حداکثر 45 ثانیه از صدای با کیفیت بالا و وفاداری بالا پشتیبانی می کند. این نوع وضوح تصویر و طول ویدئو برای یک فرد یا شرکت با نیازهای خلاقانه کافی به نظر نمی رسد.

با این حال، این پیشرفت تکنولوژیکی به هوش مصنوعی امکان ویرایش فایل‌های ویدیویی با تنظیمات بی‌نهایت، شخصی‌سازی و تنظیم دقیق را می‌دهد این امر به طور رسمی توسط مردم پذیرفته نشده است، اما با قضاوت از نتایج نمایش رسمی فعلی، واقعاً می توان انگیزه جدیدی را به صنعت ویدیو، فیلم و تلویزیون و هوش مصنوعی تزریق کرد و حتی یک انقلاب جدید به وجود آورد.

جدیدترین و پیشرفته ترین ابزارها، از جمله Movie Gen Video، سعی در شکستن این کلیشه از هوش مصنوعی در زمینه تولید ویدئو دارند، هرچند که با قابلیت های کنونی خود، این روز هنوز فاصله زیادی دارد.

برای مدل‌های تولید ویدیو، در ابتدا تأثیر مستقیم یا حتی لمس کردن زندگی روزمره مردم عادی دشوار است. فیلم‌ها، سریال‌های تلویزیونی و انیمیشن‌های فعلی تولید شده با هوش مصنوعی دارای کاستی‌هایی مانند تصاویر غیرواقعی و حرکات ناهماهنگ هستند.

هوش مصنوعی متا همچنین در وب سایت رسمی خود اعلام کرد که با پیشرفت و توسعه فناوری مدل، آنها از نزدیک با فیلمسازان و سازندگان همکاری خواهند کرد تا بازخورد آنها را یکپارچه کنند. در حال حاضر، چه Runway، چه Sora یا آخرین متا AI، همه آنها به سرعت در حال توسعه هستند، حداقل در مقایسه با نتایج یک سال پیش، ما می توانیم پیشرفت قابل توجهی را مشاهده کنیم.

تأثیر فناوری هوش مصنوعی بر زندگی مردم ممکن است فوراً آشکار نشود.

خواه فردی فیلمساز باشد که به دنبال پیشرفت در هالیوود است یا خالقی که از ساختن ویدیو برای مخاطبان لذت می برد، ما معتقدیم که همه باید به ابزارهایی دسترسی داشته باشند که به افزایش خلاقیت آنها کمک می کند.

# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo