همین حالا، متا طبق برنامه، مدل Llama 3.1 را منتشر کرد.
به بیان ساده، Llama 3.1 405B که به تازگی منتشر شده است، قدرتمندترین مدل بزرگ متا تا به امروز است، همچنین قدرتمندترین مدل بزرگ در جهان است.
از امروز به بعد، دیگر نیازی به بحث در مورد مزایای مدل های بزرگ منبع باز و مدل های بزرگ منبع بسته نیست، زیرا Llama 3.1 405B با قدرت انکارناپذیر ثابت می کند که نبرد بر سر مسیرها بر قدرت فنی نهایی تأثیر نمی گذارد.
اجازه دهید ابتدا ویژگی های مدل Llama 3.1 را خلاصه کنم:
- شامل سه اندازه 8B، 70B و 405B، حداکثر زمینه به 128K افزایش یافته است، از چندین زبان پشتیبانی می کند، عملکرد تولید کد عالی دارد و دارای قابلیت های استدلال پیچیده و مهارت های استفاده از ابزار است.
- با قضاوت از نتایج تست معیار، Llama 3.1 از GPT-4 0125 پیشی گرفت و با GPT-4o و Claude 3.5 رقابت کرد.
- با ارائه وزنها و کدهای مدل باز/رایگان، مجوز به کاربران اجازه میدهد تا مدل را به شکلهای دیگر تنظیم کنند، و از استقرار در هر کجا پشتیبانی کنند.
- ارائه Llama Stack API برای تسهیل استفاده یکپارچه و پشتیبانی از هماهنگی چندین مؤلفه، از جمله فراخوانی ابزارهای خارجی
آدرس دانلود مدل پیوست شده است:
https://huggingface.co/meta-llama
https://llama.meta.com/
فنجان فوق العاده بزرگ به قله قدرتمندترین مدل جهان می رسد، در حالی که فنجان های متوسط و بزرگ شگفتی ها را پنهان می کنند.
Llama 3.1 منتشر شده این بار در سه نسخه سایز 8B، 70B و 405B عرضه می شود.
با قضاوت از نتایج تست معیار، Llama 3.1 405B فوق العاده بزرگ می تواند تمام فشارهای GPT-3.5 Turbo را تحمل کند و اکثر نمرات تست معیار از GPT-4 0125 فراتر می رود.
در مواجهه با قدرتمندترین مدل بزرگ منبع بسته GPT-4o که قبلا توسط OpenAI و Sonnet طبقه اول کلود 3.5 منتشر شده بود، Super Cup هنوز هم قدرت مبارزه با پارامترهای کاغذی را دارد که Llama 3.1 405B منبع باز را نشان میدهد برای اولین بار، مدلهای بزرگ با مدلهای بزرگ منبع بسته کنار میآیند.
با تجزیه نتایج معیار به طور خاص، Llama 3.1 405B امتیاز 98.1 را در معیار NIH/Multi-needle به دست آورد، اگرچه به خوبی GPT-4o نیست، اما همچنین نشان می دهد که توانایی پردازش اطلاعات پیچیده عالی است.
و Llama 3.1 405B امتیاز 95.2 را در معیار ZeroSCROLLS/QUALITY به دست آورد، که همچنین به این معنی است که توانایی قوی در ادغام مقادیر زیادی از اطلاعات متنی دارد. تمرکز بر LLM در RAG برای توسعه دهندگان برنامه های هوش مصنوعی، عملکرد کاملاً کاربرپسند است.
نگرانی ویژه این است که Human-Eval عمدتاً مسئول محک زدن توانایی مدل برای درک و تولید کد و حل منطق انتزاعی است و Llama 3.1 405B نیز در رقابت با سایر مدلهای بزرگ برتری جزئی دارد.
علاوه بر غذای اصلی Llama 3.1 405B، مخلفات Llama 3.1 8B و Llama 3.1 70B نیز نمایش خوبی از "پیروزی های کوچک بر بزرگ" به نمایش می گذارند.
با قضاوت از نتایج آزمایش معیار، Llama 3.1 8B تقریباً Gemma 2 9B 1T و Mistral 7B Instruct را در هم شکسته است. Llama 3.1 70B حتی می تواند از GPT-3.5 Turbo و مدل Mixtral 8×7B با عملکرد عالی بهتر عمل کند.
طبق مقدمه رسمی، در این نسخه، تیم تحقیقاتی Llama عملکرد مدل را در بیش از 150 مجموعه داده معیاری که چندین زبان را پوشش میدهند، ارزیابی کردند و این تیم همچنین تعداد زیادی ارزیابی دستی را انجام داد.
نتیجه نهایی این است:
مدل پرچمدار ما با مدلهای پایه برتر مانند GPT-4، GPT-4o و کلود 3.5 Sonnet در چندین کار قابل رقابت است. در عین حال، مدل کوچک ما نیز در مقایسه با مدل های بسته و باز با تعداد پارامترهای مشابه، رقابت پذیری را نشان می دهد.
Llama 3.1 405B چگونه ساخته می شود
بنابراین Llama 3.1 405B چگونه آموزش داده می شود؟
طبق وبلاگ رسمی، به عنوان بزرگترین مدل متا تا به امروز، Llama 3.1 405B از بیش از 15 تریلیون توکن برای آموزش استفاده می کند.
برای دستیابی به آموزش در این مقیاس و دستیابی به نتایج مورد انتظار در زمان کوتاه، تیم تحقیقاتی همچنین کل پشته آموزشی را بهینه کرد و بر روی بیش از 16000 پردازنده گرافیکی H100 آموزش دید. .
این تیم همچنین برخی بهینهسازیها را در طول فرآیند آموزش انجام داده است که بر روی مقیاسپذیر و ساده نگه داشتن فرآیند توسعه مدل تمرکز دارد:
- یک معماری مدل ترانسفورماتور رمزگشای استاندارد با تنظیمات جزئی به جای یک مدل متخصص ترکیبی برای به حداکثر رساندن پایداری آموزشی انتخاب شد.
- یک روش تکراری پس از آموزش، با استفاده از تنظیم دقیق نظارت شده و بهینه سازی اولویت مستقیم در هر دور استفاده می شود. این به تیم تحقیقاتی اجازه می دهد تا بالاترین کیفیت داده های مصنوعی را برای هر دور ایجاد کند و عملکرد هر ویژگی را بهبود بخشد.
- در مقایسه با نسخه قدیمی مدل Llama، تیم تحقیقاتی کمیت و کیفیت دادههای مورد استفاده برای پیشآموزش و پسآموزش را بهبود بخشیده است، از جمله توسعه یک خط لوله پیشپردازش و مدیریت بیشتر برای دادههای پیشآموزشی، و توسعه بیشتر. تضمین کیفیت دقیق و روش های فیلتر برای داده های پس از آموزش.
مقامات متا اظهار داشتند که تحت تأثیر قانون مقیاسبندی، مدل پرچمدار جدید از مدلهای کوچکتری که با استفاده از روش مشابه آموزش دیدهاند، بهتر عمل میکند.
تیم تحقیقاتی همچنین از مدل پارامتر 405B برای بهبود کیفیت پس از آموزش مدل های کوچک استفاده کرد.
به منظور پشتیبانی از استنباط تولید انبوه مدلهای 405B، تیم تحقیقاتی مدل را از دقت 16 بیتی (BF16) به دقت 8 بیتی (FP8) تبدیل کرد و این به طور موثر منابع محاسباتی مورد نیاز را کاهش داد و مدل را قادر ساخت در یک گره سرور واحد اجرا شود.
همچنین جزئیاتی در مورد Llama 3.1 405B وجود دارد، مانند طراحی آن که بر روی عملی بودن و ایمنی تمرکز دارد و به آن اجازه میدهد تا دستورالعملهای کاربر را بهتر درک و اجرا کند.
از طریق روشهایی مانند تنظیم دقیق نظارتشده، نمونهبرداری رد و بهینهسازی اولویت مستقیم، چندین دور همترازی بر اساس مدل از پیش آموزشدیده انجام میشود تا مدل چت Llama 3.1 405B نیز با دقت بیشتری با سناریوهای استفاده سازگار شود و نیازهای کاربر، بهبود عملکرد برنامه های کاربردی واقعی است.
شایان ذکر است که تیم تحقیقاتی Llama از تولید داده های مصنوعی برای تولید اکثریت قریب به اتفاق نمونه های SFT استفاده می کند، به این معنی که آنها بر داده های دنیای واقعی تکیه نمی کنند بلکه به داده های الگوریتمی برای آموزش مدل متکی هستند.
علاوه بر این، تیم تحقیقاتی به بهبود کیفیت داده های سنتز شده از طریق فرآیندهای تکراری متعدد ادامه می دهد. به منظور اطمینان از کیفیت بالای داده های مصنوعی، تیم تحقیقاتی از انواع تکنیک های پردازش داده برای فیلتر کردن و بهینه سازی داده ها استفاده کردند.
از طریق این تکنیکها، تیم میتواند میزان دادههای تنظیم دقیق را بهگونهای مقیاسبندی کند که فقط برای یک تابع منفرد قابل استفاده نباشد، بلکه بتواند در چندین عملکرد مورد استفاده قرار گیرد و کاربرد و انعطافپذیری مدل را افزایش دهد.
به عبارت ساده، کاربرد این فناوری تولید و پردازش داده های مصنوعی برای ایجاد حجم زیادی از داده های آموزشی با کیفیت بالا است که به بهبود توانایی تعمیم و دقت مدل کمک می کند.
متا به عنوان حامی مسیر مدل منبع باز، در "امکانات پشتیبانی" مدل لاما نیز صداقت نشان داده است.
- به عنوان بخشی از یک سیستم هوش مصنوعی، مدل Llama از هماهنگی چندین مؤلفه از جمله فراخوانی ابزارهای خارجی پشتیبانی می کند.
- انتشار سیستم های مرجع و نمونه برنامه های کاربردی منبع باز، تشویق مشارکت و همکاری جامعه، و تعریف رابط های مؤلفه.
- قابلیت همکاری اجزای زنجیره ابزار و برنامه های عامل را از طریق رابط استاندارد "Llama Stack" ارتقا دهید.
- پس از انتشار مدل، همه ویژگیهای پیشرفته از جمله گردشهای کاری پیشرفته مانند تولید دادههای مصنوعی برای توسعهدهندگان باز است.
- Llama 3.1 405B با یک بسته هدیه از ابزارهای داخلی، شامل پروژههای کلیدی برای سادهسازی فرآیند از توسعه تا استقرار ارائه میشود.
شایان ذکر است که در قرارداد منبع باز جدید، متا دیگر استفاده از Llama 3 را برای بهبود سایر مدل ها، از جمله قوی ترین Llama 3.1 405B، یک فرد خوب منبع باز واقعی، ممنوع نمی کند.
آدرس گزارش آموزش پایان نامه در 92 صفحه به پیوست آمده است:
https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
عصر جدیدی که توسط منبع باز رهبری می شود
Netizen @ZHOZHO672070 همچنین به سرعت پاسخهای Llama 3.1 405B Instruct FP8 را به دو سؤال کلاسیک در Hugging Chat آزمایش کرد.
متأسفانه Llama 3.1 405B در حل مشکل «چه کسی بزرگتر است، 9.11 یا 9.9» با واژگونی مواجه شد، اما پس از تلاش مجدد، پاسخ صحیح را داد. از نظر حاشیه نویسی پینیین "I caught it" نیز اجرای آن قابل قبول است.
کاربران شبکه از مدل Llama 3.1 برای ساخت و استقرار سریع یک ربات چت در کمتر از 10 دقیقه استفاده کردند.
علاوه بر این، دانشمند داخلی Llama @astonzhangAZ همچنین در X فاش کرد که تیم تحقیقاتی او در حال حاضر در حال بررسی یکپارچه کردن عملکردهای تصویر، ویدیو و صدا در Llama 3 هستند.
بحث بین منبع باز و منبع بسته در عصر مدل های بزرگ ادامه دارد، اما انتشار امروز مدل جدید Meta Llama 3.1 به این بحث پایان می دهد.
متا رسماً اظهار داشت: «تاکنون، مدلهای زبان متنباز در مقیاس بزرگ عمدتاً از نظر عملکرد و عملکرد از مدلهای بسته عقب ماندهاند.
تولد Meta Llama 3.1 405B یک چیز را ثابت می کند که توانایی یک مدل در باز کردن یا بسته شدن نیست، بلکه در سرمایه گذاری منابع، افراد و تیم های پشت سر آن و غیره است. اما همیشه کسانی خواهند بود که این پرچم را حمل کنند.
متا به عنوان اولین غولی که از این موقعیت استفاده کرد، عنوان اولین SOTA را نیز دریافت کرد که از قوی ترین مدل بزرگ منبع بسته پیشی گرفت.
زاکربرگ، مدیر عامل متا در مقاله ای طولانی با عنوان "هوش مصنوعی منبع باز مسیر رو به جلو است" که امروز منتشر شد، نوشت:
"از سال آینده، ما انتظار داریم لاما آینده پیشرفته ترین در صنعت باشد. اما قبل از آن، لاما در حال حاضر در زمینه منبع باز، قابلیت تغییر و کارایی هزینه پیشرو است."
مدلهای AI منبع باز ممکن است به دنبال پیشی گرفتن از منبع بسته یا خارج از برابری فنی نباشند، به طوری که ابزاری برای چند نفر برای کسب سود یا به امید اینکه همه به شکوفایی هوش مصنوعی بیفزایند تبدیل نشوند. اکوسیستم
همانطور که زاکربرگ چشم انداز خود را در پایان پست طولانی خود توضیح داد:
من معتقدم که نسخه Llama 3.1 نقطه عطفی در صنعت خواهد بود و بیشتر توسعه دهندگان شروع به استفاده از فناوری های منبع باز خواهند کرد. به همه در سراسر جهان.
# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).
Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo