در حال اجرا Stable Diffusion و مدل های بزرگ سرتاسر روی نوت بوک های نازک و سبک؟ اینتل میگه مشکلی نیست


فرقی نمی‌کند منفعل یا فعال، اسم‌هایی مانند big model، AIGC، ChatGPT، Stable Diffusion، MidJourney و غیره در لیست اخبار همه بمباران می‌شوند. انجیل یا آمدن ثانویه اسکای نت، مردم شروع به مواجهه مستقیم با آن کردند، آن را درک کردند و به درستی از آن استفاده کردند.

البته، این دور از موج AIGC عمدتاً در فضای ابری رخ می‌دهد، چه ChatGPT باشد، یا Wenxin Yiyan، Tongyi Qianwen و دیگر برنامه‌های مدل زبان بزرگ، یا MidJourney و سایر برنامه‌های تصویری تولید شده توسط هوش مصنوعی، بسیاری مانند ویدیوهای تولید شده با هوش مصنوعی وجود دارد. برنامه هایی مانند Runway باید به اینترنت متصل شوند، زیرا محاسبات هوش مصنوعی در سرورهای ابری هزاران مایل دورتر انجام می شود.

به هر حال، به طور کلی، قدرت محاسباتی و فضای ذخیره‌سازی که می‌تواند توسط سرور انتهایی ارائه شود، بسیار بیشتر از پایان کامپیوتر و انتهای موبایل است، اما وضعیت مطلق نیست. هوش مصنوعی سمت انتهایی با پاسخ‌دهی سریع و بدون نیاز برای شبکه بدون شک روند دیگری است و هوش مصنوعی ابری قادر به تکمیل یکدیگر است.

چندی پیش در سخنرانی سالانه شیائومی، لی جون، بنیانگذار شیائومی، گفت که آخرین مدل 1.3 میلیارد پارامتری مدل هوش مصنوعی شیائومی با موفقیت به صورت محلی بر روی تلفن همراه اجرا شده است و برخی سناریوها را می توان با نتایج عملکرد مدل 6 میلیارد پارامتر مقایسه کرد. روی ابر

اگرچه مقدار پارامترها خیلی زیاد نیست، اما امکان سنجی و پتانسیل مدل بزرگ را به صورت انتها به سمت نشان می دهد.

در سمت رایانه شخصی با قدرت محاسباتی بسیار بیشتر، آیا امکان و پتانسیل برنامه های AIGC مانند مدل های بزرگ در سمت دستگاه وجود دارد؟ در 18 آگوست، اینتل یک جلسه اشتراک‌گذاری فناوری برگزار کرد که بر روی اشتراک‌گذاری دو جنبه از اطلاعات تمرکز داشت: به‌روزرسانی‌های عملکرد Intel Sharp Graphics DX11، و راه‌اندازی ابزار جدید اینتل PresentMon Beta، و همچنین نمایش پیشرفت اینتل در زمینه AIGC.

زمانی که محصولات دسکتاپ تیز اینتل در سال گذشته عرضه شد، قول داده شد که کارت‌های گرافیکی شارپ اینتل به بهینه‌سازی و ارتقا برای تجربه بهتر ادامه دهند.

از طریق انتشار آخرین درایور Game On، Intel Ruixuan Graphics می‌تواند به افزایش ۱۹ درصدی نرخ فریم هنگام اجرای یک سری بازی‌های DX11 و به طور متوسط ​​حدود ۲۰ درصد بهبود روانی نرخ فریم درصد ۹۹ (در مقایسه با نسخه اول درایور) دست یابد. . کاربرانی که قبلاً کارت گرافیک Intel Sharp A750 را خریداری و استفاده کرده‌اند، می‌توانند مستقیماً آخرین درایور را دانلود کرده و تجربه ارتقاء بازی‌هایی مانند Overwatch 2، DOTA 2 و Apex Legends را دریافت کنند.

برای کاربرانی که در انتخاب کارت گرافیک کمی مردد هستند، کارت گرافیک Ruixuan A750 در محدوده 1700 یوان نیز به یک انتخاب کاملا رقابتی تبدیل شده است.

PresentMon Beta یک ابزار تجزیه و تحلیل عملکرد گرافیکی است که توسط اینتل راه اندازی شده است. عملکردهایی مانند Overlay (نمای همپوشانی) را ارائه می دهد که می تواند داده های عملکرد را در حین اجرای بازی روی صفحه نمایش دهد و به بازیکنان کمک کند ولتاژ و دمای GPU را در زمان واقعی اندازه گیری کنند. ، و حجم زیادی از اطلاعات را در زمان واقعی تجزیه و تحلیل کنید. همچنین نمودار زمان فریم درصد 99 در مقابل نمودار استفاده از GPU را بررسی کنید.

علاوه بر این، PresentMon Beta یک نشانگر جدید به نام "GPU Busy" را نیز به ارمغان می آورد. در اینجا توضیحی وجود دارد، بنابراین کاربران می‌توانند ببینند که پردازنده گرافیکی به‌جای منتظر ماندن، واقعاً از چه زمانی برای رندر واقعی استفاده می‌کند، یا اینکه رایانه‌ای که بازی را اجرا می‌کند در تعادل CPU و GPU است.

بازی ها تم ابدی رایانه های شخصی هستند، در حالی که هوش مصنوعی یک تم جدید است.

در واقع، تجهیزات اصلی برای این دور از موج AIGC رایانه شخصی است، چه ChatGPT، چه MidJourney، یا Stable Diffusion و سایر برنامه ها، از جمله Microsoft Office Copilot بر اساس مدل های بزرگ، یا WPS AI Kingsoft Office. یک تجربه بهتر است. روی کامپیوتر

با این حال، در مقایسه با سایر دستگاه‌ها، مانند تلفن‌های همراه، تبلت‌ها و رایانه‌های شخصی، مزایای رایانه‌های شخصی نه تنها در صفحه نمایش بزرگ‌تر و ورودی تعاملی کارآمدتر، بلکه در عملکرد تراشه نیز نهفته است.

قبل از اینکه اینتل در مورد AIGC روی رایانه‌های شخصی صحبت کند، متوجه شدیم که اجرای AIGC در کنار هم روی رایانه‌های شخصی اغلب از نوت‌بوک‌های بازی با کارایی بالا برای اجرای گرافیک استفاده می‌کند، اما نوت‌بوک‌های باریک و سبک اغلب حذف می‌شوند.

اکنون اینتل به وضوح اعلام کرده است که غریزه نازک و سبک مبتنی بر پردازنده های اینتل می تواند مدل های بزرگ را اجرا کند و همچنین می تواند مدل های بزرگ و Stable Diffusion را اجرا کند.

راه‌حل بک‌اند اینتل مبتنی بر OpenVINO PyTorch (یک ابزار منبع باز که توسط اینتل برای بهینه‌سازی عملکرد استنتاج مدل‌های یادگیری عمیق و استقرار آنها بر روی پلت‌فرم‌های سخت‌افزاری مختلف راه‌اندازی شده است)، از طریق Pytorch API، مدل منبع باز جامعه را می‌توان به خوبی اجرا کرد. پردازنده های مشتری اینتل، گرافیک یکپارچه، گرافیک مجزا و موتورهای اختصاصی هوش مصنوعی.

به عنوان مثال، مدل تولید تصویر منبع باز Stable Diffusion (به طور خاص، Automatic1111 WebUI) می تواند مدل های دقیق FP16 را بر روی پردازنده ها و پردازنده های گرافیکی اینتل (شامل کارت های گرافیک یکپارچه و کارت های گرافیک مجزا) به این روش اجرا کند و کاربران می توانند متن و عکس تولید کنند. عملکردهایی مانند تولید تصویر و تعمیر جزئی.

▲ تصویر از: Aijiwu

به عنوان مثال، این تصویر پنکیک عسلی با وضوح 512×512 را می توان تنها در ده ثانیه در یک نوت بوک نازک و سبک پردازنده اینتل (فقط با استفاده از صفحه نمایش هسته i7-13700H) ایجاد کرد.

این امر عمدتاً به دلیل پیشرفت پردازنده نسل سیزدهم Core در تعداد هسته، عملکرد، نسبت مصرف انرژی و عملکرد گرافیکی است.با مثال پردازنده i7-13700H با 14 هسته و 20 رشته، TDP آن به 45 وات رسیده است و یکپارچه کارت گرافیک Intel Iris Xe Graphics (96EU) را نیز نباید دست کم گرفت.

به عنوان یکی از بالاترین مشخصات صفحه نمایش هسته ای در حال حاضر، Intel Iris Xe Graphics (96EU) در مقایسه با صفحه نمایش هسته Iris Plus تا 64EU است، مشخصات اولیه به طور قابل توجهی بهبود یافته است، عملکرد ممیز شناور FP16، FP32 تا 84٪ بهبود یافته است. و قابلیت محاسبه اعداد صحیح INT8 نیز معرفی شده است، اینها قابلیت‌های محاسباتی گرافیکی هوش مصنوعی آن را افزایش داده‌اند، و همچنین دلیل اصلی این است که کتاب‌های نازک و سبک اینتل می‌توانند از Stable Diffusion به خوبی پشتیبانی کنند.

در گذشته، پردازنده‌های اینتل با TDP حدود 45 وات به سختی در نوت‌بوک‌های باریک و سبک قرار می‌گرفتند، اما در نسل سیزدهم Core، تعداد زیادی نوت‌بوک نازک و سبک در حدود 1.4 کیلوگرم با 14 هسته، 20 رشته، وجود داشت. پردازنده‌های i7-13700H و حتی عملکرد بالاتر. پردازنده i7-13900H به برق وصل است، بنابراین اجرای Stable Diffusion روی نوت‌بوک برای خروجی سریع تصاویر دیگر منحصر به نوت‌بوک‌های بازی با کارایی بالا نیست و نوت‌بوک‌های نازک و سبک نیز قادر خواهند بود در آینده این کار را انجام دهید

البته خود Stable Diffusion عمدتاً به صورت محلی اجرا می‌شود و منطقی است که نوت‌بوک‌های باریک و سبک از طریق بهبود و بهینه‌سازی عملکرد تراشه کار کنند، اما مدل بزرگ انتهایی محلی چیز نسبتاً جدیدی است.

از طریق بهینه سازی مدل، تقاضای مدل برای منابع سخت افزاری کاهش می یابد و در نتیجه سرعت استنتاج مدل بهبود می یابد و اینتل برخی از مدل های منبع باز جامعه را قادر می سازد تا به خوبی روی رایانه های شخصی اجرا شوند.

با در نظر گرفتن مدل زبان بزرگ، اینتل از شتاب نسل سیزدهمین پردازنده Intel Core XPU، کوانتیزاسیون کم بیت و دیگر بهینه‌سازی‌های سطح نرم‌افزار استفاده می‌کند تا به یک مدل زبان بزرگ با حداکثر 16 میلیارد پارامتر اجازه دهد تا با 16 گیگابایت کار کند. چارچوب BigDL-LLM در رایانه شخصی با ظرفیت حافظه و بالاتر.

اگرچه یک فاصله بزرگی از 175 میلیارد پارامتر ChatGPT3.5 وجود دارد، به هر حال، ChatGPT3.5 بر روی یک خوشه شبکه AGI اجرا می شود که با 10000 تراشه Nvidia V100 ساخته شده است. و این مدل بزرگ با 16 میلیارد پارامتر که از طریق چارچوب BigDL-LLM اجرا می شود بر روی پردازنده ای مانند Intel Core i7-13700H یا i7-13900H اجرا می شود که برای نوت بوک های نازک و سبک با کارایی بالا ساخته شده است.

با این حال، در اینجا نیز می توان مشاهده کرد که مدل زبان بزرگ در سمت رایانه شخصی نیز یک مرتبه بزرگتر از آن در سمت تلفن همراه است.

رایانه‌های شخصی که دهه‌ها وجود داشته‌اند ابزاری برای اجرای مدل‌های بزرگ در فضای ابری نیستند. به لطف پیشرفت‌های سخت‌افزاری، رایانه‌های شخصی که توسط پردازنده‌های اینتل پشتیبانی می‌شوند، می‌توانند به سرعت به مدل‌های نوظهور متصل شوند و با مدل‌های Transformers در HuggingFace سازگار هستند. تایید شده تا کنون شامل اما نه محدود به: LLAMA/LLAMA2، ChatGLM/ChatGLM2، MPT، Falcon، MOSS، Baichuan، QWen، Dolly، RedPajama، StarCoder، Whisper و غیره.

▲ تصویر از: Aijiwu

در جلسه اشتراک‌گذاری فناوری، اینتل عملکرد اجرای یک مدل بزرگ مبتنی بر دستگاه Core i7-13700H را نشان داد: ChatGLM-6b می‌تواند به اولین تاخیر نسل اول توکن 241.7 میلی‌ثانیه دست یابد و میانگین نرخ تولید توکن‌های بعدی نیز 55.63 میلی‌ثانیه است. /توکن. در زمینه پردازش زبان طبیعی، «ژتون» به یک واحد اساسی در متن اطلاق می‌شود که می‌تواند یک کلمه، یک کلمه، یک زیرکلمه، یک علامت نقطه‌گذاری یا کوچک‌ترین واحدهای دیگری باشد که می‌توانند به صورت معنایی پردازش شوند. همانطور که می بینید سرعت پردازنده بسیار خوب است.

اخباری که هنوز در دسترس است این است که پردازنده نسل بعدی Meteor Lake اینتل از مزایای معماری ماژول جدا شده منحصر به فرد برای ارائه بهتر هوش مصنوعی، از جمله عملکردهای چندرسانه ای مانند قاب بندی مجدد خودکار و تشخیص ویرایش صحنه در Adobe Premiere Pro و دستیابی به ماشین کارآمدتر برخوردار است. شتاب یادگیری

اگرچه AIGC یک کلمه کلیدی در سال 2023 است، اما هوش مصنوعی جدید نیست و همچنین کلیدواژه ای است که اینتل در سال های اخیر بارها درباره آن صحبت کرده است.

کاهش نویز تماس ویدیویی قبلی با هوش مصنوعی، کاهش نویز پس‌زمینه تماس ویدیویی هوش مصنوعی و غیره در واقع از کاربردهای هوش مصنوعی هستند.

مشاهده می شود که رقابت پذیری پردازنده های آینده محدود به تعداد هسته، تعداد رشته ها و فرکانس اصلی نخواهد بود.یکی از عواملی که محصول در نظر خواهد گرفت.

در گلخانه پلاستیکی سرنوشت، هر کلم که با آفت‌کش‌های زیادی سمپاشی شده باشد، زمانی رویای تبدیل شدن به یک سبزی ارگانیک بدون آلودگی را در سر داشت.

#خوش آمدید به حساب عمومی رسمی وی چت Aifaner توجه کنید: Aifaner (شناسه WeChat: ifanr)، در اسرع وقت مطالب هیجان انگیزتری برای شما ارائه خواهد شد.

Ai Faner | لینک اصلی · مشاهده نظرات · Sina Weibo