در دو روز گذشته به دلیل انتشار Meta Movie Gen، عرصه مدل های تولید ویدیو دوباره منفجر شد.
بیشترین سوگواری در داخل و خارج از صنعت چیزی بیش از دو نکته نیست انتشار Sora در آن زمان، دوم، مدل جدید Meta AI بسیار قابل تعریف است، و هم نسبت صفحه نمایش ویدیو و هم عناصر و جزئیات ویدیو را می توان با توجه به نیازهای کاربر تنظیم کرد.
بنابراین، جزئیات فیلم Meta Movie Gen، که ممکن است منجر به انقلاب جدیدی در تولید ویدیو شود، چیست؟ چگونه این اثرات خیره کننده در وب سایت رسمی و ویدیوهای نمایشی به دست می آید؟ اندرو براون، رئیس مدل ویدیویی در Meta AI، به طور خاص فناوری نظری Meta Movie Gen را توضیح داد:
- Movie Gen از نظر کیفیت و ثبات کلی به طور قابل توجهی بهتر از Sora است. تست اصالت و زیبایی عکس واقع گرایی، و Movie Gen در همه جا برنده می شود.
- Meta Movie Gen مجموعه ای از مدل هایی است که می تواند تولید متن به ویدئو، تولید متن به تصویر، شخصی سازی، ویرایش و تولید ویدئو به صدا را انجام دهد.
- گسترش دادهها، محاسبات و پارامترهای مدل، ترکیب این پارامترها با تطبیق جریان، و حرکت به یک معماری ساده معمولی LLM (Llama) مهم است، بنابراین کیفیت تولید ویدیو SOTA به دست میآید.
- ما (Meta AI) اولین کسی هستیم که از Llama arch برای تولید رسانه استفاده می کنیم.
- Movie Gen یک مبدل پارامتریک 30B است که ویدیوی 1080p با نسبتهای مختلف و صدای همگامسازی شده را با حداکثر مدت زمان 16 ثانیه (16 فریم در ثانیه) تولید میکند.
- ما (متا) یک راه حل آموزشی چند مرحله ای برای مدل T2V ارائه می دهیم. تمرین مشترک T2I + T2V که منجر به همگرایی بسیار کندتر و کیفیت بدتر می شود.
- ارزیابی متن به ویدئو دشوار است. معیارهای خودکار بسیار ضعیف هستند و با ارزیابی های انسانی همبستگی خوبی ندارند.
"فوق العاده فردی" تولید شده توسط ویدئو
در روزی که Meta Movie Gen راه اندازی شد، APPSO بلافاصله آخرین مدل نسل ویدیویی را گزارش و تفسیر کرد.
بیایید ابتدا نگاهی به نسل جدید فیلم سینمایی داشته باشیم. قابلیت چند وجهی باعث می شود که کاربران نه تنها از طریق متن ساده و چند کلمه سریع، ویدئوهای مربوطه را تولید کنند پردازش مورد نیاز تصاویر را در مدل قرار دهید و با توجه به متن مورد نیاز، تصاویر استاتیک را به ویدیوهای پویا تبدیل کنید.
▲ متن اعلان: دختری در حال دویدن در ساحل است، او یک شلوارک جین به تن دارد و یک تی شرت زرد بر روی او می تابد.
حتی می توانید از Movie Gen بخواهید که به بازسازی یا بهینه سازی یک ویدیو کمک کند. مهم نیست که کدام روش ورودی انتخاب شده است، ویدئوی نمایشی فعلی Movie Gen در وب سایت رسمی بسیار موثر است دقیق تر
اندرو براون معرفی کرد که در فرآیند تولید ویدیو، گسترش دادهها، محاسبه و پارامترهای مدل، ترکیب آن با تطبیق جریان، و روی آوردن به معماری ساده و پرکاربرد LLM (Llama) بسیار مهم است و در نتیجه کیفیت تولید ویدیو SOTA به دست میآید. .
علاوه بر این، مدلهای T2V، شخصیسازی و ویرایش در مدل جدید همگی از یک طرح آموزشی میآیند. در حین پیش تمرینی، متا ابتدا T2I و سپس T2V را آموزش می دهد. از این مدل به عنوان مقداردهی اولیه استفاده کنید، سپس T2V را پس از آموزش انجام دهید و توانایی شخصی سازی ویرایش T2V و V2V را آموزش دهید.
علاوه بر این، آموزش مدل نیز با توجه به سطح وضوح، ابتدا با آموزش با وضوح پایین (256 پیکسل) و سپس با آموزش با وضوح بالا (768 پیکسل) انجام می شود. هوش مصنوعی متا سعی می کند به طور مشترک T2I + T2V را آموزش دهد، اما این منجر به همگرایی بسیار کندتر و کیفیت بدتری نسبت به قبل می شود.
دلیل اینکه Movie Gen Video می تواند به نتایج تولید واقعی دست یابد اساساً به دلیل قابلیت های عالی مدل مبدل پارامتر تا 30B است. 16 ثانیه ویدیو 45 ثانیه با کیفیت و صوت بالا.
مقامات متا همچنین در این روزنامه فاش کردند:
این مدلها میتوانند در مورد حرکت شی، تعاملات سوژه و شی و حرکت دوربین استدلال کنند و میتوانند حرکت معقول را برای مفاهیم مختلف بیاموزند.
این جمله در مجموع دارای سه معنی است تکنولوژی مدل موفق ترین مکان.
Movie Gen Video می تواند الگوهای حرکتی دنیای فیزیکی را به دقت درک کند و هوش مصنوعی متا تلاش زیادی کرده است. این تیم پیشآموزش گستردهای را از مدل جدید روی صدها میلیون ویدیو و میلیاردها تصویر انجام دادند. از طریق تکرار مداوم، یادگیری، خلاصه سازی، استدلال و کاربرد، Movie Gen Video عملکرد فوق العاده ای در وب سایت رسمی به دست آورده است.
سپس مدل می تواند به طور فعال حرکات دوربین، صحنه ها، مونتاژها و غیره فیلم های حرفه ای را تقلید کرده و یاد بگیرد. به عبارت دیگر، ویدیوهای تولید شده از طریق Movie Gen Video نیز حرفه ای و هنری مشابه فیلمبرداری فیلم دارند.
با این حال، اندرو براون اشاره کرد که ارزیابی متن به ویدئو دشوار است. زیرا معیارهای خودکار بسیار ضعیف هستند و با ارزیابی های انسانی همبستگی خوبی ندارند. به عبارت دیگر، در روزهای اولیه توسعه مدلهای تولید ویدیو، نتایج تولید در برداشتها و مشاهدات مردم بسیار متفاوت از دنیای فیزیکی واقعی بود ارزیابی
ما تلاش زیادی کردیم تا ارزیابی ویدیو را به چندین محور متعامد کیفیت و تراز تقسیم کنیم.
Results Movie Gen برنده است یا از نظر کیفیت و سازگاری در مقایسه با مدلهای موجود در مجموعه ارزیابی 1000 نشانهای، برنده است.
در نهایت، مدل میتواند محتوای بعدی را بر این اساس بسازد که با تصویر در زمان واقعی مطابقت دارد.
▲ جلوه صوتی در لحظه انفجار آتش بازی
توانایی تولید صدا به صورت همزمان به Movie Gen Audio متکی است. این یک مدل مبدل پارامتر 13B است که ورودی ویدیو و همچنین درخواستهای متن اختیاری را برای تولید قابل کنترل صدای با وفاداری بالا همگامسازی شده با ویدیو میپذیرد.
مانند Movie Gen Video، Movie Gen Audio نیز تمرینات "عظیم" متا را انجام می دهد که میلیون ها ساعت مرجع صوتی را به آموزش مدل می دهد. پس از مقایسه و جمع بندی زیاد، مدل فعلی بر مطابقت صدا و تصویر مسلط شده است و حتی می تواند احساسات متفاوت BGM های مختلف را برای مخاطب درک کند.
بنابراین وقتی صحبت از کلمات کلیدی در مورد حال و هوا و محیط می شود، Movie Gen Audio همیشه می تواند موسیقی کاملاً مطابق با تصویر را پیدا کند.
در عین حال، میتواند صداهای محیطی، آهنگهای پشتیبان ساز و صداهای فولی تولید کند و نتایج پیشرفتهای را از نظر کیفیت صدا، تراز ویدئو به صدا و تراز متن به صدا ارائه دهد.
این آنها را به پیشرفته ترین مدل ها در نوع خود تبدیل می کند.
اگرچه ما جرات چنین نتیجه گیری مطمئنی مانند رسمی را نداریم، صرف نظر از طول ویدیوی رسمی، کیفیت تصویر یا تناسب موسیقی پس زمینه، در مقایسه با مدل های نسل قبلی ویدیو، Movie Gen Video پیشرفت بسیار واضحی دارد.
علاوه بر این، در مقایسه با بتهای قدرتمند Sora، Movie Gen از نظر کیفیت و ثبات کلی پیشتاز است.
فیلم Gen در همه جا برنده می شود.
"کارشناس همه جانبه" در ویرایش ویدئو
با همکاری Movie Gen Video و Movie Gen Audio، مدل جدید Meta AI دارای قابلیتهای جدیدی است مدل جدید دامنه کاربرد آن را قادر می سازد از تولید فیلم های شخصی سازی شده پشتیبانی کند.
شخصی سازی، همانطور که از نام آن پیداست، ترکیب نیازهای کاربر و تولید محتوای ویدئویی مشخص بر اساس نیاز است.
اگرچه مدلهای ویدیویی قبلی نیز میتوانند نتایج شخصیسازیشده ایجاد کنند، نتایج همیشه رضایتبخش نیستند یا نمیتوان جزئیات را تغییر داد و باید از نو شروع به کار کرد، یا وقتی که جزئیات همیشه تا حدودی تحت تأثیر قرار میگیرند، نمیتوان عناصر دیگر را در تصویر حفظ کرد توسط نسل ویدیوهای جدید
نمایش Movie Gen Video در وب سایت رسمی مزایای آنها را در این زمینه به خوبی نشان می دهد. مدل جدید نهتنها میتواند ویدیوهای شخصیسازیشده را مطابق با الزامات کلمات سریع/تصاویر مرجع تولید کند، بلکه همچنان به بهینهسازی و تنظیم جزئیات بر اساس ویدیو ادامه میدهد و اطمینان حاصل میکند که دیگر محتوای تولید شده مختل نمیشود، که «اصلاح خوب» است.
برخلاف ابزارهای تولید سنتی که نیاز به مهارتهای تخصصی یا عدم دقت دارند، Movie Gen محتوای اصلی را حفظ میکند و فقط پیکسلهای مرتبط را هدف قرار میدهد.
مدل ما در ایجاد ویدیوهای شخصی که هویت و اعمال انسان را حفظ می کند، به نتایج پیشرفته ای دست می یابد.
این عملکرد برای بسیاری از استودیوهای خودرسانه یا افرادی که نیاز به ویرایش ویدیو دارند بسیار مفید است. این می تواند به اندازه بازسازی کل تصویر بر اساس متن یا به کوچکی تغییر رنگ موی شخصیت، مدل عینک و غیره باشد. به عنوان مثال، از مدل ها می توان برای از بین بردن به هم ریختگی های نامربوط در پس زمینه استفاده کرد.
یا میتوانید به ویدیوی اصلی پسزمینه جدیدی بدهید، چه سبک باشد و چه رنگ، میتوانید آن را در هر زمانی تغییر دهید، و همچنین میتوانید در چند ثانیه روز را به شب تبدیل کنید.
علاوه بر این، Movie Gen Video میتواند تنظیمات ظریفی را در بسیاری از جزئیات انجام دهد، در حالی که اطمینان حاصل میکند که ترکیب ویدیو و تصویر کلی بدون تغییر باقی میماند، همچنین میتواند رنگ لباس شخصیت، سبک عینک زدن، لباس بدن اصلی، رنگ خز حیوان خانگی را نیز تغییر دهد. و غیره
به عنوان مثال، از بین بردن شلوغی های نامربوط در فیلم ها، تغییر سبک پس زمینه تصویر، افزودن جزئیات به فیلم، تغییر رنگ لباس سوژه و… همگی نقاط قوت او هستند.
اما این فقط یک فانتزی است، زیرا Movie Gen Video در حال حاضر تنها از کیفیت 1080P، 16 ثانیه، 16 فریم در ثانیه ویدیوی طولانی با کیفیت بالا یا حداکثر 45 ثانیه از صدای با کیفیت بالا و وفاداری بالا پشتیبانی می کند. این نوع وضوح تصویر و طول ویدئو برای یک فرد یا شرکت با نیازهای خلاقانه کافی به نظر نمی رسد.
با این حال، این پیشرفت تکنولوژیکی به هوش مصنوعی امکان ویرایش فایلهای ویدیویی با تنظیمات بینهایت، شخصیسازی و تنظیم دقیق را میدهد این امر به طور رسمی توسط مردم پذیرفته نشده است، اما با قضاوت از نتایج نمایش رسمی فعلی، واقعاً می توان انگیزه جدیدی را به صنعت ویدیو، فیلم و تلویزیون و هوش مصنوعی تزریق کرد و حتی یک انقلاب جدید به وجود آورد.
جدیدترین و پیشرفته ترین ابزارها، از جمله Movie Gen Video، سعی در شکستن این کلیشه از هوش مصنوعی در زمینه تولید ویدئو دارند، هرچند که با قابلیت های کنونی خود، این روز هنوز فاصله زیادی دارد.
برای مدلهای تولید ویدیو، در ابتدا تأثیر مستقیم یا حتی لمس کردن زندگی روزمره مردم عادی دشوار است. فیلمها، سریالهای تلویزیونی و انیمیشنهای فعلی تولید شده با هوش مصنوعی دارای کاستیهایی مانند تصاویر غیرواقعی و حرکات ناهماهنگ هستند.
هوش مصنوعی متا همچنین در وب سایت رسمی خود اعلام کرد که با پیشرفت و توسعه فناوری مدل، آنها از نزدیک با فیلمسازان و سازندگان همکاری خواهند کرد تا بازخورد آنها را یکپارچه کنند. در حال حاضر، چه Runway، چه Sora یا آخرین متا AI، همه آنها به سرعت در حال توسعه هستند، حداقل در مقایسه با نتایج یک سال پیش، ما می توانیم پیشرفت قابل توجهی را مشاهده کنیم.
تأثیر فناوری هوش مصنوعی بر زندگی مردم ممکن است فوراً آشکار نشود.
خواه فردی فیلمساز باشد که به دنبال پیشرفت در هالیوود است یا خالقی که از ساختن ویدیو برای مخاطبان لذت می برد، ما معتقدیم که همه باید به ابزارهایی دسترسی داشته باشند که به افزایش خلاقیت آنها کمک می کند.
# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).
Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo