با رسیدن به GPT-4o، قدرتمندترین مدل Llama 3.1 405B یک شبه خدایی شد، زاکربرگ: منبع باز عصر جدیدی را پیش می برد

همین حالا، متا طبق برنامه، مدل Llama 3.1 را منتشر کرد.

به بیان ساده، Llama 3.1 405B که به تازگی منتشر شده است، قدرتمندترین مدل بزرگ متا تا به امروز است، همچنین قدرتمندترین مدل بزرگ در جهان است.

از امروز به بعد، دیگر نیازی به بحث در مورد مزایای مدل های بزرگ منبع باز و مدل های بزرگ منبع بسته نیست، زیرا Llama 3.1 405B با قدرت انکارناپذیر ثابت می کند که نبرد بر سر مسیرها بر قدرت فنی نهایی تأثیر نمی گذارد.

اجازه دهید ابتدا ویژگی های مدل Llama 3.1 را خلاصه کنم:

  • شامل سه اندازه 8B، 70B و 405B، حداکثر زمینه به 128K افزایش یافته است، از چندین زبان پشتیبانی می کند، عملکرد تولید کد عالی دارد و دارای قابلیت های استدلال پیچیده و مهارت های استفاده از ابزار است.
  • با قضاوت از نتایج تست معیار، Llama 3.1 از GPT-4 0125 پیشی گرفت و با GPT-4o و Claude 3.5 رقابت کرد.
  • با ارائه وزن‌ها و کدهای مدل باز/رایگان، مجوز به کاربران اجازه می‌دهد تا مدل را به شکل‌های دیگر تنظیم کنند، و از استقرار در هر کجا پشتیبانی کنند.
  • ارائه Llama Stack API برای تسهیل استفاده یکپارچه و پشتیبانی از هماهنگی چندین مؤلفه، از جمله فراخوانی ابزارهای خارجی

آدرس دانلود مدل پیوست شده است:

https://huggingface.co/meta-llama
https://llama.meta.com/

فنجان فوق العاده بزرگ به قله قدرتمندترین مدل جهان می رسد، در حالی که فنجان های متوسط ​​و بزرگ شگفتی ها را پنهان می کنند.

Llama 3.1 منتشر شده این بار در سه نسخه سایز 8B، 70B و 405B عرضه می شود.

با قضاوت از نتایج تست معیار، Llama 3.1 405B فوق العاده بزرگ می تواند تمام فشارهای GPT-3.5 Turbo را تحمل کند و اکثر نمرات تست معیار از GPT-4 0125 فراتر می رود.

در مواجهه با قدرتمندترین مدل بزرگ منبع بسته GPT-4o که قبلا توسط OpenAI و Sonnet طبقه اول کلود 3.5 منتشر شده بود، Super Cup هنوز هم قدرت مبارزه با پارامترهای کاغذی را دارد که Llama 3.1 405B منبع باز را نشان می‌دهد برای اولین بار، مدل‌های بزرگ با مدل‌های بزرگ منبع بسته کنار می‌آیند.

با تجزیه نتایج معیار به طور خاص، Llama 3.1 405B امتیاز 98.1 را در معیار NIH/Multi-needle به دست آورد، اگرچه به خوبی GPT-4o نیست، اما همچنین نشان می دهد که توانایی پردازش اطلاعات پیچیده عالی است.

و Llama 3.1 405B امتیاز 95.2 را در معیار ZeroSCROLLS/QUALITY به دست آورد، که همچنین به این معنی است که توانایی قوی در ادغام مقادیر زیادی از اطلاعات متنی دارد. تمرکز بر LLM در RAG برای توسعه دهندگان برنامه های هوش مصنوعی، عملکرد کاملاً کاربرپسند است.

نگرانی ویژه این است که Human-Eval عمدتاً مسئول محک زدن توانایی مدل برای درک و تولید کد و حل منطق انتزاعی است و Llama 3.1 405B نیز در رقابت با سایر مدل‌های بزرگ برتری جزئی دارد.

علاوه بر غذای اصلی Llama 3.1 405B، مخلفات Llama 3.1 8B و Llama 3.1 70B نیز نمایش خوبی از "پیروزی های کوچک بر بزرگ" به نمایش می گذارند.

با قضاوت از نتایج آزمایش معیار، Llama 3.1 8B تقریباً Gemma 2 9B 1T و Mistral 7B Instruct را در هم شکسته است. Llama 3.1 70B حتی می تواند از GPT-3.5 Turbo و مدل Mixtral 8×7B با عملکرد عالی بهتر عمل کند.

طبق مقدمه رسمی، در این نسخه، تیم تحقیقاتی Llama عملکرد مدل را در بیش از 150 مجموعه داده معیاری که چندین زبان را پوشش می‌دهند، ارزیابی کردند و این تیم همچنین تعداد زیادی ارزیابی دستی را انجام داد.

نتیجه نهایی این است:

مدل پرچم‌دار ما با مدل‌های پایه برتر مانند GPT-4، GPT-4o و کلود 3.5 Sonnet در چندین کار قابل رقابت است. در عین حال، مدل کوچک ما نیز در مقایسه با مدل های بسته و باز با تعداد پارامترهای مشابه، رقابت پذیری را نشان می دهد.

Llama 3.1 405B چگونه ساخته می شود

بنابراین Llama 3.1 405B چگونه آموزش داده می شود؟

طبق وبلاگ رسمی، به عنوان بزرگترین مدل متا تا به امروز، Llama 3.1 405B از بیش از 15 تریلیون توکن برای آموزش استفاده می کند.

برای دستیابی به آموزش در این مقیاس و دستیابی به نتایج مورد انتظار در زمان کوتاه، تیم تحقیقاتی همچنین کل پشته آموزشی را بهینه کرد و بر روی بیش از 16000 پردازنده گرافیکی H100 آموزش دید. .

این تیم همچنین برخی بهینه‌سازی‌ها را در طول فرآیند آموزش انجام داده است که بر روی مقیاس‌پذیر و ساده نگه داشتن فرآیند توسعه مدل تمرکز دارد:

  • یک معماری مدل ترانسفورماتور رمزگشای استاندارد با تنظیمات جزئی به جای یک مدل متخصص ترکیبی برای به حداکثر رساندن پایداری آموزشی انتخاب شد.
  • یک روش تکراری پس از آموزش، با استفاده از تنظیم دقیق نظارت شده و بهینه سازی اولویت مستقیم در هر دور استفاده می شود. این به تیم تحقیقاتی اجازه می دهد تا بالاترین کیفیت داده های مصنوعی را برای هر دور ایجاد کند و عملکرد هر ویژگی را بهبود بخشد.
  • در مقایسه با نسخه قدیمی مدل Llama، تیم تحقیقاتی کمیت و کیفیت داده‌های مورد استفاده برای پیش‌آموزش و پس‌آموزش را بهبود بخشیده است، از جمله توسعه یک خط لوله پیش‌پردازش و مدیریت بیشتر برای داده‌های پیش‌آموزشی، و توسعه بیشتر. تضمین کیفیت دقیق و روش های فیلتر برای داده های پس از آموزش.

مقامات متا اظهار داشتند که تحت تأثیر قانون مقیاس‌بندی، مدل پرچم‌دار جدید از مدل‌های کوچک‌تری که با استفاده از روش مشابه آموزش دیده‌اند، بهتر عمل می‌کند.

تیم تحقیقاتی همچنین از مدل پارامتر 405B برای بهبود کیفیت پس از آموزش مدل های کوچک استفاده کرد.

به منظور پشتیبانی از استنباط تولید انبوه مدل‌های 405B، تیم تحقیقاتی مدل را از دقت 16 بیتی (BF16) به دقت 8 بیتی (FP8) تبدیل کرد و این به طور موثر منابع محاسباتی مورد نیاز را کاهش داد و مدل را قادر ساخت در یک گره سرور واحد اجرا شود.

همچنین جزئیاتی در مورد Llama 3.1 405B وجود دارد، مانند طراحی آن که بر روی عملی بودن و ایمنی تمرکز دارد و به آن اجازه می‌دهد تا دستورالعمل‌های کاربر را بهتر درک و اجرا کند.

از طریق روش‌هایی مانند تنظیم دقیق نظارت‌شده، نمونه‌برداری رد و بهینه‌سازی اولویت مستقیم، چندین دور هم‌ترازی بر اساس مدل از پیش آموزش‌دیده انجام می‌شود تا مدل چت Llama 3.1 405B نیز با دقت بیشتری با سناریوهای استفاده سازگار شود و نیازهای کاربر، بهبود عملکرد برنامه های کاربردی واقعی است.

شایان ذکر است که تیم تحقیقاتی Llama از تولید داده های مصنوعی برای تولید اکثریت قریب به اتفاق نمونه های SFT استفاده می کند، به این معنی که آنها بر داده های دنیای واقعی تکیه نمی کنند بلکه به داده های الگوریتمی برای آموزش مدل متکی هستند.

علاوه بر این، تیم تحقیقاتی به بهبود کیفیت داده های سنتز شده از طریق فرآیندهای تکراری متعدد ادامه می دهد. به منظور اطمینان از کیفیت بالای داده های مصنوعی، تیم تحقیقاتی از انواع تکنیک های پردازش داده برای فیلتر کردن و بهینه سازی داده ها استفاده کردند.

از طریق این تکنیک‌ها، تیم می‌تواند میزان داده‌های تنظیم دقیق را به‌گونه‌ای مقیاس‌بندی کند که فقط برای یک تابع منفرد قابل استفاده نباشد، بلکه بتواند در چندین عملکرد مورد استفاده قرار گیرد و کاربرد و انعطاف‌پذیری مدل را افزایش دهد.

به عبارت ساده، کاربرد این فناوری تولید و پردازش داده های مصنوعی برای ایجاد حجم زیادی از داده های آموزشی با کیفیت بالا است که به بهبود توانایی تعمیم و دقت مدل کمک می کند.

متا به عنوان حامی مسیر مدل منبع باز، در "امکانات پشتیبانی" مدل لاما نیز صداقت نشان داده است.

  • به عنوان بخشی از یک سیستم هوش مصنوعی، مدل Llama از هماهنگی چندین مؤلفه از جمله فراخوانی ابزارهای خارجی پشتیبانی می کند.
  • انتشار سیستم های مرجع و نمونه برنامه های کاربردی منبع باز، تشویق مشارکت و همکاری جامعه، و تعریف رابط های مؤلفه.
  • قابلیت همکاری اجزای زنجیره ابزار و برنامه های عامل را از طریق رابط استاندارد "Llama Stack" ارتقا دهید.
  • پس از انتشار مدل، همه ویژگی‌های پیشرفته از جمله گردش‌های کاری پیشرفته مانند تولید داده‌های مصنوعی برای توسعه‌دهندگان باز است.
  • Llama 3.1 405B با یک بسته هدیه از ابزارهای داخلی، شامل پروژه‌های کلیدی برای ساده‌سازی فرآیند از توسعه تا استقرار ارائه می‌شود.

شایان ذکر است که در قرارداد منبع باز جدید، متا دیگر استفاده از Llama 3 را برای بهبود سایر مدل ها، از جمله قوی ترین Llama 3.1 405B، یک فرد خوب منبع باز واقعی، ممنوع نمی کند.

آدرس گزارش آموزش پایان نامه در 92 صفحه به پیوست آمده است:

https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

عصر جدیدی که توسط منبع باز رهبری می شود

Netizen @ZHOZHO672070 همچنین به سرعت پاسخ‌های Llama 3.1 405B Instruct FP8 را به دو سؤال کلاسیک در Hugging Chat آزمایش کرد.

متأسفانه Llama 3.1 405B در حل مشکل «چه کسی بزرگتر است، 9.11 یا 9.9» با واژگونی مواجه شد، اما پس از تلاش مجدد، پاسخ صحیح را داد. از نظر حاشیه نویسی پینیین "I caught it" نیز اجرای آن قابل قبول است.

کاربران شبکه از مدل Llama 3.1 برای ساخت و استقرار سریع یک ربات چت در کمتر از 10 دقیقه استفاده کردند.

علاوه بر این، دانشمند داخلی Llama @astonzhangAZ همچنین در X فاش کرد که تیم تحقیقاتی او در حال حاضر در حال بررسی یکپارچه کردن عملکردهای تصویر، ویدیو و صدا در Llama 3 هستند.

بحث بین منبع باز و منبع بسته در عصر مدل های بزرگ ادامه دارد، اما انتشار امروز مدل جدید Meta Llama 3.1 به این بحث پایان می دهد.

متا رسماً اظهار داشت: «تاکنون، مدل‌های زبان متن‌باز در مقیاس بزرگ عمدتاً از نظر عملکرد و عملکرد از مدل‌های بسته عقب مانده‌اند.

تولد Meta Llama 3.1 405B یک چیز را ثابت می کند که توانایی یک مدل در باز کردن یا بسته شدن نیست، بلکه در سرمایه گذاری منابع، افراد و تیم های پشت سر آن و غیره است. اما همیشه کسانی خواهند بود که این پرچم را حمل کنند.

متا به عنوان اولین غولی که از این موقعیت استفاده کرد، عنوان اولین SOTA را نیز دریافت کرد که از قوی ترین مدل بزرگ منبع بسته پیشی گرفت.

زاکربرگ، مدیر عامل متا در مقاله ای طولانی با عنوان "هوش مصنوعی منبع باز مسیر رو به جلو است" که امروز منتشر شد، نوشت:

"از سال آینده، ما انتظار داریم لاما آینده پیشرفته ترین در صنعت باشد. اما قبل از آن، لاما در حال حاضر در زمینه منبع باز، قابلیت تغییر و کارایی هزینه پیشرو است."

مدل‌های AI منبع باز ممکن است به دنبال پیشی گرفتن از منبع بسته یا خارج از برابری فنی نباشند، به طوری که ابزاری برای چند نفر برای کسب سود یا به امید اینکه همه به شکوفایی هوش مصنوعی بیفزایند تبدیل نشوند. اکوسیستم

همانطور که زاکربرگ چشم انداز خود را در پایان پست طولانی خود توضیح داد:

من معتقدم که نسخه Llama 3.1 نقطه عطفی در صنعت خواهد بود و بیشتر توسعه دهندگان شروع به استفاده از فناوری های منبع باز خواهند کرد. به همه در سراسر جهان.

# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo