یک فیلم کوتاه در سطح فیلم و تلویزیون در 10 ثانیه برداشت شد و بدنه اصلی حرکت دوربین فانتزی هنوز مشخص است.

آهنگ Vincent Video هر دو هفته یکبار به روز می شود و ماسک به عنوان یک مدل تقریباً بیش از حد شلوغ است. رول کردن آن واقعا آسان است. مدل تولید ویدیوی Doubao یک مدل انتشار جدید طراحی شده را ارائه می دهد که واقع گرایی در سطح فیلم و تلویزیون و جزئیات واقعی را برای صحنه های بسیار پویا و پیچیده نشان می دهد. برای توصیف اثر از یک جمله استفاده کنید: بسیار قوی، بسیار انفجاری، نمی توانم چشمانم را باور کنم.

در 24 سپتامبر، تور نوآوری هوش مصنوعی موتور آتشفشانی 2024 به شنژن آمد و یک مدل نسل ویدیوی جدید را منتشر کرد که دو بمب را برای کل آهنگ ویدیویی هوش مصنوعی به طور همزمان پرتاب کرد: Doubao Video Generation-PixelDance، Doubao Video Generation-Seaweed Two مدل های بزرگ.

به عنوان یکی از اولین تولیدکنندگان مدل پایه در مقیاس بزرگ در چین که ثبت الگوریتم را پشت سر گذاشت، جای تعجب نیست که وارد مسیر Vincent Video شده است. حتی باعث می شود مردم منتظر آن باشند: دیگر چگونه می توان آن را رول کرد؟ پس از شرکت در تست واقعی این مدل قدرتمند داخلی، متوجه شدیم که قطعاً قدرت آن نه تنها در تولید تصاویر است، بلکه دارای اکولوژی و دید بزرگ تری است.

پیشرفت های مهم در درک معنایی و سازگاری، تسلط کامل بر زبان لنز

"جادو" ویدیوی مولد از "جادو" ناشی می شود.

به عبارت دیگر، توانایی درک معنایی مدل اساس است. تنها با درک دقیق محتوای متن اعلان می توان تصویر مورد انتظار را به درستی ارائه کرد – ابتدا باید "درک خواندن" را درک کرد.

این بار APPSO در یک آزمایش داخلی شرکت کرد و به نتایج قابل توجهی دست یافت – باز هم بسیار قوی و انفجاری.

▲ اعلان: بچه گربه ای که پیش بند و دستکش دارد در حال شستن ظروف در یک سطل پر از فوم است.

هر عنصری که با اعلان نشان داده شده است منعکس شده است، و هیچ "سوالی از دست رفته" وجود ندارد.

فراموشش کن، یک بچه گربه چه اشتباهی می تواند بکند؟ از نظر تصویربرداری، جزئیات فوم و جریان آب بسیار شگفت انگیز است و بیان غرور آمیز گربه نیز بسیار واضح است.

یک جزئیات کوچک: آب روی سر بچه گربه می افتد و سپس از پشت و چانه می افتد این جزئیات با قوانین فیزیک مطابقت دارد و برای نشان دادن توانایی درک قدرتمند مدل کافی است. عملکرد مشابهی را می توان در نمایش رسمی نیز مشاهده کرد.

▲ دمو رسمی

ترمیم موهای آشفته در باد نه تنها منعکس کننده موهای در حال بال زدن است، بلکه جهت نیز با ریتم حرکت کاراکتر مطابقت دارد که با منطق فیزیکی همخوانی دارد.

این قابلیت با وفاداری بالا ناشی از درک و انباشت فنی ایجاد ویدئو توسط Douyin و Jianying از طریق نسبت فشرده سازی بالا و قابلیت بازیابی بالا کدگذاری و رمزگشایی ویدئویی است که به شدت رمزگذاری کارآمد مدل انتشار را تضمین می کند عملیات

▲ اعلان: در جنگلی با درختان انبوه، به آسمان نگاه کنید. زاویه عکسبرداری رو به بالا، کنتراست قوی بین نور و تاریکی

اگر آن را به خوبی تنظیم کنید، رنگ سبز بسیار دشوار است، اما اگر آن را به درستی تنظیم نکنید، لحن از بین می رود. در اینجا، اثر دیافراگم ایجاد شده توسط انکسار نور از طریق برگ‌ها و شاخه‌های سبز به دقت بازیابی می‌شود، که نزدیک به لنز است.

باید گفت که پس از صیقل دادن مکرر و تکرار مستمر سناریوهای تجاری مانند ویرایش ویدئو و هوش مصنوعی جیمنگ، مدل تولید ویدئو Doubao واقعا دارای قابلیت چیدمان نور و سایه و تنظیم رنگ در سطح حرفه ای، پشتیبانی از انیمیشن های سه بعدی، انیمیشن های دو بعدی، چینی است. نقاشی، سبک های مختلف مانند سیاه و سفید، impasto، و مهمتر از آن – تسلط بر زبان لنز.

حرکات جالب دوربین، مهم نیست که حرکات چگونه تغییر می کند، شخصیت اصلی ثابت می ماند

اهمیت زبان لنز را نمی توان بارها مورد تاکید قرار داد. هیچ کس نمی خواهد زمان زیادی را صرف ساختن یک PPT پویا صرف کند.

با این حال، برای کاربران عادی، نیازی به رفتن به کلاس آموزشی «زبان لنز» نیست: Doubao Video Generation Model مجموعه‌ای از راه‌حل‌های عملکرد لنز، از زوم، فراگیر، پان، تا زوم، دنبال کردن هدف و سایر موارد فوق‌العاده چندگانه را آماده کرده است. -زبان لنز را می توان با استفاده از اعلان تکمیل کرد تا به کنترل انعطاف پذیر پرسپکتیو دست یافت.
به نظر آسان است، اما اجرای آن ساده نیست: ثبات یک چالش بزرگ است.

مدل دستورالعمل‌ها را می‌فهمد، سوژه را تولید می‌کند و سپس تغییرات و مسیر حرکت سوژه را با توجه به نیاز لنز طراحی می‌کند "متغیر" مناسب با توجه به حرکات و زوایا.

▲پیشنهاد: یک کولی مرزی با لباس فضایی در حال دویدن روی سطح ماه، بالا پریدن و تعقیب یک دیسک پرنده در هوا است. مهتاب خز خود را با زاویه مایل روشن می کند، زاویه کم، کیفیت 4k، حرکت آهسته

هنگامی که توله سگ از جا پرید، سر و اندام او تغییر شکل زیادی نداشت، او ثابت بود و احساس راحتی می کرد.

▲ تذکر: ماسک در مزرعه برنج ایستاد و خم شد تا برنج بکارد و کلاه حصیری روی سرش گذاشته بود، پس از بلند کردن سر، دستش را برای خوشامدگویی به دوربین بلند کرد.

در طول ده ثانیه ای که او با دوربین صحبت کرد، حالت ظاهری، بازوها و حالت بدن ماسک با حرکات او تغییر کرد، اما همه چیز به هم نخورد و این سری حرکات بسیار نرم بود.

در مواجهه با این چالش «تغییر» و «تغییر ناپذیری»، ثبات موضوع تقریباً کاملاً تضمین شده است و عملکرد واقعاً قدرتمند است.

هنگامی که لنز تغییر می کند، همین اصل اعمال می شود. در دمو رسمی، یک بخش زیر آب وجود دارد که قابل توجه است.

▲ دمو رسمی

با یک زوم ساده لنز، چیزی که مدل باید انجام دهد این است: باید جزئیات عالی در جلو وجود داشته باشد، سپس سوژه حرکت می کند تا یک سوژه جدید را نشان دهد، و در نهایت روی سوژه جدید قرار می گیرد و کل حرکت کامل می شود. در یک حرکت.

علاوه بر عملکرد ثابت فوق‌العاده و قابلیت‌های حرکتی شگفت‌انگیز دوربین، به طور طبیعی از سبک‌های مختلف مانند انیمیشن‌های سه بعدی، دو بعدی، ایمپاستو، کمیک و غیره و همچنین گزینه‌های مختلف نسبت‌ها پشتیبانی می‌کند که به کاربران امکان انتخاب بسیار آزاد را می‌دهد. .

▲ دمو رسمی

▲ اعلان: شهر زیبا و برفی توکیو شلوغ است، دوربین در یک خیابان شلوغ شهر حرکت می‌کند و چندین نفر را دنبال می‌کند که از آب و هوای برفی زیبا لذت می‌برند و در غرفه‌های اطراف خرید می‌کنند

▲ اعلان: در یک تقاطع در هنگ کنگ در شب، اتومبیل‌ها و اتوبوس‌ها به سرعت عبور می‌کنند و خطوطی را تشکیل می‌دهند. عابران پیاده منتظر چراغ راهنمایی هستند. ساختمان‌های پس‌زمینه تار هستند، لکه‌های روشن، زاویه کم، کیفیت 4k را تشکیل می‌دهند

از "بالا" تا "اجرای آسان"

اگرچه مدل تولید ویدئو Doubao به تازگی به دست کاربران رسیده است، اما فناوری پشت آن برای مدت طولانی صیقل داده شده است. طبق گزارش فنی منتشر شده توسط ByteDance Research در نوامبر سال گذشته، تیم Byte اولین و آخرین دستورالعمل تصویر را با دستورالعمل های متنی ترکیب کرد.

علاوه بر این، در آن زمان، بایت به جای روش سلسله مراتبی، مسیر اتورگرسیو را برای دستیابی به قابلیت های عملکرد تصویر با ثبات بالا انتخاب کرد. ملاحظاتی که در پشت این موضوع وجود دارد این است که مدل باید اطمینان حاصل کند که محتوای تولید شده با انتظارات کاربر سازگار است. برنامه های کاربردی در اسرع وقت

در مقایسه با محصولات مشابه (به استثنای معاملات آتی)، مدل تولید ویدیوی دوبائو کاملاً در سطح اول قرار دارد. در مقایسه با محصولات خارجی مانند Luma و Runway، کاربران چینی و چینی را بهتر درک می کند و برای گردش کار خلاقانه در اینترنت چینی مناسب تر است.

▲ دمو رسمی

با چنین عملکرد عالی، برجسته شدن اجتناب ناپذیر است. این نه تنها به مدل تولید ویدیو، بلکه به کل خانواده مدل های بزرگ دوبائو اشاره دارد: به عنوان یکی از اولین مدل های بزرگ در چین که ثبت الگوریتم را به تصویب رساند، مدل بزرگ Doubao خدمات را از طریق Volcano Engine و Volcano Ark به شرکت ها ارائه می دهد.

تا سپتامبر، میانگین استفاده روزانه توکن از مدل زبان دوبائو از 1.3 تریلیون فراتر رفت که نسبت به زمانی که برای اولین بار در ماه می منتشر شد، ده برابر افزایش داشت.

برای ارائه قوی ترین عملکرد، Doubao Universal Model Pro به طور پیش فرض از tpm اولیه 800K پشتیبانی می کند. برای استفاده ایمن در مقیاس بزرگ در یک محیط تولید.

در حالی که قابلیت‌های فنی آن بسیار قوی است، در مقایسه قیمت قوی‌ترین نسخه‌های مدل‌های مختلف بزرگ، مدل بزرگ دوبائو بیش از 98 درصد کمتر از قیمت صنعت است – آستانه استفاده از هوش مصنوعی کمتر از همیشه بوده است.

هرچه فناوری پیشرفته تر باشد، نیاز به پیاده سازی و ادغام آن در زندگی روزمره بیشتر است.

در سناریوهای تجاری واقعی، آنچه مورد نیاز است نتایج خوب، سرعت سریع و استفاده آسان است. با در نظر گرفتن تجارت الکترونیکی، باید هم گره های بازاریابی و هم اثرات نمایشی پلتفرم های مختلف را در نظر بگیریم، یک روش تولید انعطاف پذیر و سریع است.

خواه فیلمبرداری تبلیغاتی، ویدئوهای کوتاه، تجارت الکترونیکی زنده و سایر زمینه ها باشد، ابزارهای ساده و آسان برای جاسازی در فرآیند تولید موجود مورد نیاز است.

در کنفرانس مطبوعاتی در 24th، رئیس موتور آتشفشان، Tan Dai، همچنین یک سری از برنامه های کاربردی مدل در مقیاس بزرگ را به نمایش گذاشت، به ویژه مواردی که واقعاً در سناریوهای استفاده تجاری پیاده سازی شدند.
موتور Huoshan از طریق سرویس‌های مدل بزرگ تمام پشته، واقعاً قدرت مدل‌های بزرگ Doubao را در سناریوهای تجاری واقعی ادغام می‌کند. از این سال، Volcano Engine اتحاد زیست محیطی مدل بزرگ خرده فروشی، اتحاد زیست محیطی مدل بزرگ خودرو و اتحاد مدل بزرگ ترمینال هوشمند را ایجاد کرده است که طیف گسترده ای از مشاغل و سناریوها را پوشش می دهد.

مدل‌های قوی‌تر، قیمت‌های پایین‌تر و اجرای آسان‌تر بدون شک از مزیت‌های مهم مدل‌های کیسه حبوبات بزرگ است.

«مدل قوی‌تر» نیازی به گفتن نیست که مدل بزرگ Doubao می‌تواند از استفاده بیش از یک تریلیون توکن در روز پشتیبانی کند. . در حالی که بازخورد بیشتری از شرکت ها دریافت می کند، به مدل Baoda نیز کمک می کند تا بهتر و جامع تر شود.

تان دای در کنفرانس مطبوعاتی گفت: "هزینه کاربرد مدل های بزرگ به خوبی حل شده است. مدل های بزرگ باید از قیمت حجمی به عملکرد حجمی با قابلیت ها و خدمات مدل بهتر حرکت کنند."

تان دای گفت: "کاربرد سناریوهای تجاری چیزی است که مدل تولید ویدئو دوبائو از ابتدا مورد توجه قرار گرفته است به همه اجازه می دهد تا از طریق مدل تولید ویدیو beanbao در یک محیط کسب و کار، واقعاً نوآوری کنند و تجارت را تسریع بخشند.

علاقه مندان می توانند کاوش در دنیای هوش مصنوعی را از طریق محصولات C-end با آستانه پایین شروع کنند. توسعه‌دهندگان می‌توانند از موتور آتشفشانی برای پیاده‌سازی کار هوش مصنوعی به روشی ارزان‌تر، متنوع‌تر و انعطاف‌پذیرتر استفاده کنند و پایگاه کاربر گسترده‌تری با محصولات و محتوای جدید برای کاوش بیشتر فراهم کنند.

در جلسه پرسش و پاسخ بعدی با خبرنگاران، او همچنین به اشتراک گذاشت که با ادامه تکرار و پیشرفت فناوری، زمانی که هوش مصنوعی می تواند یک مشکل را به طور کامل حل کند، تفاوت بین toB و toC ممکن است آنقدر بزرگ نباشد.

شاید این دیدنی ترین منظره در عصر هوش مصنوعی باشد: موانعی که در ابتدا غیرقابل دسترس بودند در حال واژگونی هستند. مهم نیست که تجربه داشته باشید یا نداشته باشید، چه برای توانمندسازی کسب و کار یا برای سرگرمی خودتان، تا زمانی که شروع کنید، معجزه خواهید کرد.

# خوش آمدید به دنبال حساب عمومی رسمی وی چت aifaner: aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo