در پشت مینی کوچکتر و قدرتمندتر GPT-4o، آینده مدل های هوش مصنوعی دیگر آنقدر بزرگتر نیست، بهتر است.

هفته گذشته، OpenAI در انتشار یک حرکت بزرگ در اواخر شب پیشرو شد. آن را در عرصه مدل بزرگ LMSYS پاس GPT-4.

در مورد مدل بزرگ Llama 3.1 که توسط متا در این هفته منتشر شد، اگر اندازه 405B از اولین طبقه همچنان انتظار می رود، نسخه های 8B و 70B که "پیروزی های کوچک بر بزرگ" را انجام می دهند شگفتی های بیشتری را به همراه خواهند داشت.

و این ممکن است پایان رقابت مدل های کوچک نباشد، بلکه به احتمال زیاد نقطه شروع جدیدی باشد.

اینطور نیست که مدل های بزرگ مقرون به صرفه نیستند، اما مدل های کوچک مقرون به صرفه تر هستند

در دنیای وسیع محافل هوش مصنوعی، مدل های کوچک همیشه افسانه های خاص خود را داشته اند.

با نگاهی به بیرون، فیلم پرفروش سال گذشته Mistral 7B به محض انتشار از مدل 13B پارامتر Llama 2 در معیارهای ارزیابی چندگانه سبقت گرفت و از آن در استدلال، ریاضیات و تولید کد پیشی گرفت .

امسال مایکروسافت قدرتمندترین پارامتر کوچک مدل بزرگ phi-3-mini را نیز منتشر کرد، اگرچه تعداد پارامترها تنها 3.8B است، نتایج ارزیابی عملکرد بسیار بیشتر از سطح مقیاس پارامتر مشابه است و قابل مقایسه با مدل های بزرگتر است. غزل GPT-3.5 و کلود-3.

با نگاهی به داخل، MiniCPM، یک مدل زبان جانبی با پارامترهای 2B در اوایل فوریه راه اندازی شد. فولاد کوچک". تفنگ".

چندی پیش، MiniCPM-Llama3-V2.5، که تنها اندازه پارامتر 8B دارد، از نظر عملکرد جامع چندوجهی و قابلیت های OCR از مدل های بزرگتر مانند GPT-4V و Gemini Pro پیشی گرفت تیم هوش مصنوعی دانشگاه.

تا هفته گذشته، OpenAI که در اواخر شب بمباران می‌کرد، چیزی را به عنوان «قوی‌ترین و مقرون‌به‌صرفه‌ترین مدل پارامتر کوچک» معرفی کرد – GPT-4o mini، که توجه همه را به مدل کوچک بازگرداند.

از زمانی که OpenAI جهان را به تخیل هوش مصنوعی مولد کشاند، از زمینه های طولانی، پارامترهای چرخشی، عوامل، و اکنون به جنگ قیمت، توسعه در داخل و خارج از کشور همیشه حول یک منطق می چرخد ​​- ماندن در این زمینه با حرکت به سمت تجاری سازی. روی میز کارت.

بنابراین، در حوزه افکار عمومی، چشم نوازترین چیز این است که OpenAI که قیمت ها را کاهش داده است، به نظر می رسد وارد جنگ قیمت می شود.

بسیاری از مردم ممکن است تصور روشنی از قیمت GPT-4o mini نداشته باشند. قیمت GPT-4o mini 15 سنت به ازای هر 1 میلیون توکن ورودی و 60 سنت به ازای هر 1 میلیون توکن خروجی است که بیش از 60 درصد ارزان تر از GPT-3.5 Turbo است.

به عبارت دیگر، GPT-4o mini یک کتاب 2500 صفحه ای را تنها با 60 سنت تولید می کند.

سام آلتمن، مدیر عامل OpenAI نیز در مورد X ابراز تاسف کرد که در مقایسه با GPT-4o mini، قدرتمندترین مدل دو سال پیش نه تنها شکاف عملکردی بسیار زیادی داشت، بلکه هزینه استفاده از آن 100 برابر بیشتر از اکنون بود.

در حالی که جنگ قیمت برای مدل‌های بزرگ به طور فزاینده‌ای شدید می‌شود، برخی از مدل‌های منبع باز کارآمد و اقتصادی بیشتر توجه بازار را به خود جلب می‌کنند .

از یک سو، زمانی که پردازنده‌های گرافیکی در سراسر جهان به فروش می‌رسند یا حتی موجودی ندارند، مدل‌های منبع باز کوچک با هزینه‌های آموزش و استقرار کمتر برای به دست آوردن تدریجی دست بالا کافی هستند.

به عنوان مثال، MiniCPM که توسط Mianbi Intelligence راه اندازی شده است، می تواند با پارامترهای کوچکتر خود به یک افت صخره ای در هزینه های استنباط دست یابد، و حتی می تواند به یک دستگاه برای آموزش مداوم پارامترها و یک کارت گرافیک برای تنظیم دقیق پارامترها دست یابد همچنین بهبود مستمر فضای هزینه است.

اگر یک توسعه‌دهنده بالغ هستید، حتی می‌توانید با ساختن یک مدل کوچک، یک مدل عمودی را در زمینه حقوقی آموزش دهید، و هزینه استنتاج ممکن است تنها یک هزارم هزینه تنظیم دقیق یک مدل بزرگ باشد.

اجرای برخی از برنامه های کاربردی "مدل های کوچک" در سمت ترمینال به بسیاری از تولید کنندگان اجازه داده است که طلوع سودآوری را ببینند. برای مثال، Facewall Intelligence به دادگاه بین‌المللی مردم شنژن کمک کرد تا یک سیستم محاکمه با کمک هوش مصنوعی راه‌اندازی کند و ارزش این فناوری را برای بازار ثابت کند.

البته دقیق تر است که بگوییم تغییری که خواهیم دید، تغییر از مدل های بزرگ به مدل های کوچک نیست، بلکه تغییر از یک دسته از مدل ها به مجموعه ای از مدل ها است، با انتخاب مدل مناسب بسته به آن. در مورد نیازهای خاص سازمان، پیچیدگی وظایف و منابع موجود.

از سوی دیگر، استقرار و ادغام مدل های کوچک در دستگاه های تلفن همراه، سیستم های تعبیه شده یا محیط های کم مصرف آسان تر است.

مقیاس پارامتر یک مدل کوچک در مقایسه با یک مدل بزرگ، تقاضای آن برای منابع محاسباتی (مانند قدرت محاسباتی هوش مصنوعی، حافظه و غیره) کمتر است و می‌تواند به راحتی در دستگاه‌های انتهایی با محدودیت اجرا شود. منابع علاوه بر این، تجهیزات جانبی معمولاً نیازهای شدیدتری برای مصرف انرژی، تولید گرما و سایر مسائل دارند.

مدیر عامل آنر، ژائو مینگ، گفت که به دلیل مسائل مربوط به قدرت محاسباتی هوش مصنوعی، پارامترها ممکن است بین 1B و 10B باشد دو .

گوشی در فضای بسیار محدودی قرار دارد، درست است؟ 7 میلیارد در یک باتری محدود، اتلاف حرارت محدود و محیط ذخیره سازی محدود پشتیبانی می کند، اگر تصور کنید محدودیت های زیادی وجود دارد، باید سخت ترین باشد.

ما همچنین قهرمانان پشت صحنه را که مسئول کار با تلفن‌های هوشمند اپل هستند، نشان داده‌ایم Gemma-7B و برای اجرا در پایانه های موبایل مناسب است. از جمله گوگل همچنین قصد دارد نسخه 2B مدل کوچک Gemma-2 را که برای پایانه های تلفن همراه مناسب است در چند ماه آینده به روز کند.

اخیراً، آندری کارپاتی، گورو سابق OpenAI نیز قضاوت کرده است که رقابت در اندازه مدل، "پیشرفت معکوس" خواهد بود، نه اینکه بزرگتر و بزرگتر شود، بلکه چه کسی کوچکتر و انعطاف پذیرتر است.

چرا مدل های کوچک می توانند مدل های بزرگ را با مدل های کوچک شکست دهند؟

پیش بینی آندری کارپاتی بی اساس نیست.

در این دوره داده محور، مدل‌ها به سرعت در حال بزرگ‌تر شدن و پیچیده‌تر شدن هستند. به صورت ضرب المثل

با این حال، مدل تنظیم شده حتی می تواند در کارهای خاص "بزرگ با کوچک" را به دست آورد و قابلیت استفاده آن با بسیاری از "مدل های فوق بزرگ" قابل مقایسه است.

کلم دلانگ، مدیر شرکت Hugging Face نیز پیشنهاد کرده است که تا 99 درصد موارد استفاده را می توان با استفاده از مدل های کوچک حل کرد و پیش بینی کرد که سال 2024 سال مدل های زبان کوچک خواهد بود.

قبل از بررسی دلایل، ابتدا باید برخی از دانش های علمی را رایج کنیم.

در سال 2020، OpenAI قانون معروفی را در مقاله ای پیشنهاد کرد: قانون مقیاس بندی، به این معنی که با افزایش اندازه مدل، عملکرد آن نیز افزایش می یابد. با معرفی مدل هایی مانند GPT-4، مزایای قانون مقیاس بندی به تدریج نمایان شد.

محققان و مهندسان در زمینه هوش مصنوعی معتقدند که با افزایش تعداد پارامترهای مدل، می توان توانایی یادگیری و توانایی تعمیم مدل را بیشتر بهبود بخشید. به این ترتیب، شاهد جهش مقیاس مدل از میلیاردها پارامتر به صدها میلیارد و حتی صعود به سمت مدل‌هایی با تریلیون‌ها پارامتر بوده‌ایم.

در دنیای هوش مصنوعی، اندازه یک مدل تنها معیار سنجش هوش آن نیست.

برعکس، یک مدل کوچک با طراحی خوب، با بهینه‌سازی الگوریتم، بهبود کیفیت داده‌ها و اتخاذ فناوری فشرده‌سازی پیشرفته، اغلب می‌تواند عملکردی قابل مقایسه یا حتی بهتر از یک مدل بزرگ را در کارهای خاص نشان دهد. این استراتژی استفاده از کوچک برای دستیابی به نتایج بیشتر در حال تبدیل شدن به یک روند جدید در زمینه هوش مصنوعی است.

بهبود کیفیت داده ها یکی از راه های برتری مدل های کوچک بر مدل های بزرگ است.

Satish Jayanthi، CTO و یکی از بنیانگذاران Coalesce، زمانی نقش داده ها را در مدل ها توضیح داد:

اگر LLM در قرن هفدهم وجود داشت، و ما از ChatGPT پرسیدیم که آیا زمین گرد است یا مسطح، و پاسخ داد که زمین مسطح است، به این دلیل است که داده‌هایی که ما ارائه کردیم، آن را متقاعد می‌کرد که این درست است. داده هایی که به LLM ارائه می کنیم و نحوه آموزش آن مستقیماً بر خروجی آن تأثیر می گذارد.

برای تولید نتایج با کیفیت بالا، مدل های زبان بزرگ باید بر روی داده های با کیفیت بالا و هدفمند برای موضوعات و حوزه های خاص آموزش داده شوند. همانطور که دانش آموزان برای یادگیری به کتاب های درسی با کیفیت نیاز دارند، LLM نیز به منابع داده با کیفیت نیاز دارند.

لیو ژیوان، دانشیار دائمی دپارتمان علوم کامپیوتر در دانشگاه تسینگ‌هوا و دانشمند ارشد هوش رو به دیوار، با کنار گذاشتن زیبایی‌شناسی سنتی خشونت‌آمیز کار سخت برای دستیابی به معجزه، اخیرا قانون رو به دیوار را در عصر بزرگ‌ها پیشنهاد کرد. مدل‌ها، یعنی چگالی دانش مدل همچنان در حال افزایش است و به طور متوسط ​​هر هشت ماه دو برابر می‌شود.

از جمله تراکم دانش = قابلیت مدل / پارامترهای مدل درگیر در محاسبه.

Liu Zhiyuan به وضوح توضیح داد که اگر ۱۰۰ سوال تست هوش به شما داده شود، امتیاز شما نه تنها به تعداد سوالاتی که به درستی پاسخ می دهید، بلکه به تعداد نورون هایی که برای تکمیل این سوالات استفاده می کنید نیز بستگی دارد. هر چه کارهای بیشتری با نورون های کمتر انجام دهید، ضریب هوشی شما بالاتر است.

این دقیقاً ایده اصلی است که تراکم دانش بیان می کند:

دو عنصر دارد یک عنصر توانایی این مدل است. عنصر دوم تعداد نورون های مورد نیاز برای این توانایی یا مصرف انرژی محاسباتی مربوطه است.

در مقایسه با 175 میلیارد پارامتر GPT-3 منتشر شده توسط OpenAI در سال 2020، در سال 2024 MiniCPM-2.4B را با همان عملکرد اما تنها 2.4 میلیارد پارامتر GPT-3 منتشر کرد که تراکم دانش را حدود 86 برابر افزایش داد.

مطالعه‌ای در دانشگاه تورنتو همچنین نشان می‌دهد که همه داده‌ها ضروری نیستند و زیرمجموعه‌های با کیفیت بالا را از مجموعه داده‌های بزرگ شناسایی می‌کند که پردازش آنها آسان‌تر است و تمام اطلاعات و تنوع موجود در مجموعه داده اصلی را حفظ می‌کند.

حتی اگر تا 95 درصد از داده های آموزشی حذف شوند، عملکرد پیش بینی مدل در یک توزیع خاص ممکن است به طور قابل توجهی تحت تأثیر قرار نگیرد.

جدیدترین نمونه مدل بزرگ Meta Llama 3.1 است.

زمانی که متا Llama 3 را آموزش داد، داده های آموزشی 15T توکن را تغذیه کرد، اما توماس اسکیالوم، محقق هوش مصنوعی متا که مسئولیت کار پس از آموزش Llama2 و Llama3 را بر عهده داشت، گفت: متن موجود در اینترنت پر از اطلاعات بیهوده است و آموزش بر اساس آن این اطلاعات هدر دادن منابع محاسباتی است.

"در آموزش بعدی Llama 3 هیچ پاسخی به صورت دستی وجود ندارد … فقط از داده های مصنوعی صرفاً از Llama 2 استفاده می کند."

علاوه بر این، تقطیر دانش نیز یکی از روش های مهم «تسخیر بزرگ با کوچک» است.

تقطیر دانش به استفاده از یک «مدل معلم» بزرگ و پیچیده برای هدایت آموزش یک «مدل دانش‌آموزی» کوچک و ساده اشاره دارد که می‌تواند عملکرد قدرتمند و توانایی تعمیم برتر مدل بزرگ را به مدل‌های کوچک‌تر محاسباتی سبک‌تر و هزینه‌ای منتقل کند. کمتر

پس از انتشار Llama 3.1، زاکربرگ، مدیر عامل متا، مقاله ای طولانی با عنوان "هوش مصنوعی منبع باز مسیر رو به جلو است" نوشت که در آن نیز بر اهمیت تنظیم دقیق و تقطیر مدل های کوچک تاکید کرد.

ما باید مدل های خود را آموزش دهیم، تنظیم و تقطیر کنیم. هر سازمانی نیازهای متفاوتی دارد که با استفاده از مدل‌هایی که در مقیاس‌های مختلف و با داده‌های خاص آموزش داده شده یا به‌خوبی تنظیم شده‌اند، به بهترین نحو برآورده می‌شوند.

وظایف روی دستگاه و وظایف طبقه بندی به مدل های کوچک نیاز دارند، در حالی که کارهای پیچیده تر به مدل های بزرگ نیاز دارند.

اکنون می‌توانید مدل‌های Llama را بگیرید، به آموزش آن‌ها بر روی داده‌های خود ادامه دهید، و سپس آنها را به اندازه مدلی تقطیر کنید که به بهترین شکل با نیازهای شما مطابقت دارد – بدون اینکه ما یا شخص دیگری داده‌های شما را ببیند.

همچنین به طور کلی در صنعت اعتقاد بر این است که نسخه های 8B و 70B Meta Llama 3.1 از فنجان های فوق العاده بزرگ تقطیر شده اند، بنابراین، عملکرد کلی به طور قابل توجهی بهبود یافته است و راندمان مدل نیز بالاتر است.

یا، بهینه‌سازی معماری مدل نیز کلیدی است. برای مثال، هدف اصلی طراحی MobileNet پیاده‌سازی مدل‌های یادگیری عمیق کارآمد در دستگاه‌های تلفن همراه است.

این به طور قابل توجهی تعداد پارامترهای مدل را از طریق پیچیدگی قابل تفکیک عمیق کاهش می دهد. در مقایسه با ResNet، MobileNetV1 تعداد پارامترها را حدود 8-9 برابر کاهش می دهد.

MobileNet به دلیل کاهش تعداد پارامترها از نظر محاسباتی کارآمدتر است. این امر به ویژه برای محیط‌های محدود به منابع مانند دستگاه‌های تلفن همراه مهم است، زیرا می‌تواند نیازهای محاسباتی و ذخیره‌سازی را بدون به خطر انداختن عملکرد بیش از حد کاهش دهد.

علیرغم پیشرفت های صورت گرفته در سطح فنی، صنعت هوش مصنوعی همچنان با چالش سرمایه گذاری بلندمدت و هزینه های بالا مواجه است و چرخه بازگشت نسبتا طولانی است.

بر اساس آمار ناقص «اخبار روز اقتصاد»، تا پایان فروردین ماه سال جاری، در مجموع حدود 305 مدل بزرگ در چین عرضه شده بود، اما تا 16 می، هنوز حدود 165 مدل بزرگ وجود داشت که هنوز عرضه نشده بودند. ثبت نام کامل شد

رابین لی، بنیانگذار Baidu، علناً از اینکه وجود بسیاری از مدل‌های پایه فعلی اتلاف منابع است، انتقاد کرده و پیشنهاد کرده است که منابع باید بیشتر برای کشف امکان ترکیب مدل‌ها با صنایع و توسعه کاربرد فوق‌العاده بالقوه بعدی استفاده شوند.

این نیز یک موضوع اصلی در صنعت فعلی هوش مصنوعی است، تضاد نامتناسب بین افزایش تعداد مدل‌ها و اجرای برنامه‌های کاربردی عملی.

در مواجهه با این چالش، تمرکز صنعت به تدریج به سرعت بخشیدن به استفاده از فناوری هوش مصنوعی معطوف شد و مدل‌های کوچک با هزینه‌های استقرار پایین و راندمان بالاتر به نقطه پیشرفت مناسب‌تری تبدیل شدند.

بنابراین متوجه شدیم که برخی از مدل‌های کوچک با تمرکز بر زمینه‌های خاص شروع به ظهور کردند، مانند مدل‌های بزرگ برای آشپزی و مدل‌های بزرگ برای پخش زنده. اگرچه ممکن است این نام ها کمی بلوف کننده به نظر برسند، اما دقیقاً در مسیر درستی قرار دارند.

به طور خلاصه، هوش مصنوعی در آینده دیگر موجودی واحد و عظیم نخواهد بود، بلکه متنوع تر و شخصی تر خواهد بود. ظهور مدل های کوچک بازتابی از این روند است. عملکرد عالی آنها در کارهای خاص ثابت می کند که "کوچک اما زیبا" می تواند احترام و شناخت را نیز به دست آورد.

یک چیز دیگر

اگر می‌خواهید این مدل را از قبل روی آیفون خود اجرا کنید، می‌توانید یک اپلیکیشن iOS به نام «Hugging Chat» را که توسط Hugging Face راه‌اندازی شده است، امتحان کنید.

برنامه را می توان با کمک اکانت اپ استور Magic Hemei District دانلود کرد و سپس کاربران می توانند به مدل های متن باز مختلف، از جمله اما نه محدود به Phi 3 دسترسی داشته باشند و از آنها استفاده کنند.
Mixtral، Command R+ و مدل های دیگر.

یادآوری گرم، برای تجربه و عملکرد بهتر، پیشنهاد می شود از آخرین نسل نسخه پرو آیفون استفاده کنید.

لینک دانلود: https://apps.apple.com/us/app/huggingchat/id6476778843

# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo