OpenAI قوی ترین مدل o1 را منتشر می کند! شکستن گلوگاه هوش مصنوعی و باز کردن یک دوره جدید، GPT-5 ممکن است هرگز نیاید

بدون هیچ هشداری، OpenAI به طور ناگهانی سری مدل های OpenAI o1 را منتشر کرد. طبق وبلاگ رسمی فناوری، o1 از نظر قابلیت استدلال قوی ترین سطح هوش مصنوعی را نشان می دهد.

سام آلتمن، مدیر عامل OpenAI گفت: "OpenAI o1 آغاز یک پارادایم جدید است: هوش مصنوعی که می تواند استدلال پیچیده همه منظوره را انجام دهد."

این مدل جدید یک پیشرفت مهم در وظایف استدلالی پیچیده است و سطح جدیدی از قابلیت‌های هوش مصنوعی را نشان می‌دهد. بر این اساس OpenAI نام این سری را به OpenAI o1 تغییر داد و از ابتدا شروع به شمارش کرد.

من نمی دانم که آیا این بدان معنی است که نام GPT-5 ظاهر نمی شود یا خیر.

ویژگی های مدل جدید را به طور خلاصه بیان کنید:

  • OpenAI o1: عملکرد قدرتمند، مناسب برای انجام وظایف پیچیده استدلال در زمینه های مختلف.
  • OpenAI o1 mini: مقرون به صرفه و مناسب برای برنامه هایی که نیاز به استدلال دارند اما به دانش گسترده جهانی نیاز ندارند.

اکنون، مدل به طور کامل تحت فشار قرار گرفته است و می توانید از طریق سرویس گیرنده وب ChatGPT یا API به آن دسترسی داشته باشید.

در میان آنها، o1-preview هنوز یک نسخه پیش نمایش است و OpenAI به به روز رسانی و توسعه نسخه بعدی ادامه خواهد داد. در حال حاضر محدودیت های استفاده خاصی وجود دارد، o1-preview 30 پیام در هفته دارد و o1-mini 50 پیام در هفته دارد.

مانند شایعه «توت فرنگی»، این مدل‌های جدید هوش مصنوعی قادر به استدلال در مورد وظایف پیچیده و حل مسائل دشوارتر از همیشه در علوم، کدنویسی و ریاضیات هستند. مقامات می گویند که این قابلیت های استدلالی پیشرفته به ویژه در صورت نیاز به حل مسائل پیچیده در علوم، کدنویسی، ریاضیات و موارد دیگر مفید خواهد بود.

به عنوان مثال، محققان پزشکی می توانند از آن برای حاشیه نویسی داده های توالی سلولی، فیزیکدانان می توانند از آن برای تولید فرمول های نوری کوانتومی پیچیده استفاده کنند، و توسعه دهندگان می توانند از آن برای ساخت و اجرای گردش های کاری چند مرحله ای استفاده کنند.

علاوه بر این، سری OpenAI o1 در تولید و اشکال زدایی کدهای پیچیده برتری دارد.

به منظور ارائه راه‌حل‌های کارآمدتر به توسعه‌دهندگان، OpenAI همچنین یک مدل استنتاج سریع‌تر و ارزان‌تر OpenAI o1-mini را منتشر کرد که به ویژه در کدنویسی خوب است.

به عنوان یک نسخه کوچکتر، o1-mini 80٪ کمتر از o1-preview هزینه دارد و یک مدل قدرتمند و کارآمد مناسب برای سناریوهای کاربردی است که نیاز به استدلال دارند اما به دانش گسترده جهانی نیاز ندارند.

در طول آموزش، OpenAI این مدل ها را آموزش می دهد تا قبل از پاسخ دادن به یک سوال عمیق فکر کنند. o1 قبل از پاسخ دادن به یک سوال زنجیره ای درونی از افکار ایجاد می کند که به آن اجازه می دهد در استدلال عمیق تری شرکت کند.

از طریق آموزش، مدل OpenAI o1 یاد می‌گیرد که طرز تفکر خود را کامل کند و با یادگیری تقویتی بیشتر (در زمان آموزش محاسبه می‌شود) و زمان بیشتری برای فکر کردن (در زمان آزمون محاسبه می‌شود) به بهبود خود ادامه می‌دهد.

محقق OpenAI @yubai01 همچنین به مسیر آموزشی 01 اشاره کرد:

ما از RL برای آموزش یک مدل استنتاج قدرتمندتر استفاده می کنیم. خیلی هیجان زده هستم که بخشی از این سفر هستم، و راه طولانی را طی می کند!

بر اساس گزارش ها، این مدل در تست ها مانند یک دانشجوی دکترا در کارهایی مانند فیزیک، شیمی و زیست شناسی به ویژه در رشته های ریاضی و کدنویسی عمل کرده است.

در آزمون مقدماتی المپیاد بین‌المللی ریاضی (IMO)، GPT-4o تنها 13 درصد از مسائل را حل کرد، در حالی که مدل استنتاج تا 83 درصد امتیاز کسب کرد. در رقابت برنامه نویسی Codeforces، عملکرد آن در 89 درصد برتر گروه قرار گرفت.

با این حال، مانند افشاگری های شایعه شده، به عنوان نسخه اولیه، این مدل هنوز برخی از عملکردهای رایج ChatGPT مانند قابلیت های چند وجهی مانند مرور وب و آپلود فایل ها یا تصاویر را ندارد.

در مقابل، GPT-4o توانایی بیشتری در بسیاری از سناریوهای کاربردی رایج دارد.

برای اطمینان از ایمنی مدل های جدید، OpenAI یک روش آموزش ایمن جدید را پیشنهاد می کند.

در سخت‌گیرانه‌ترین تست جیلبریک، GPT-4o امتیاز 22 (از 100) را کسب کرد، در حالی که مدل o1-preview امتیاز 84 را کسب کرد که از نظر امنیت بسیار جلوتر است.

کاربران ChatGPT Enterprise و Edu نیز از هفته آینده به هر دو مدل دسترسی خواهند داشت. توسعه دهندگان واجد شرایط اکنون می توانند از هر دو مدل از طریق API با محدودیت نرخ در دقیقه استفاده کنند.

برای ترسیم یک نکته مهم در اینجا، OpenAI بیان کرد که در آینده دسترسی به o1-mini را برای همه کاربران رایگان ChatGPT فراهم می کند. با این حال، احتمال زیادی وجود دارد که تعداد دفعات محدود شود.

جزئیات بیشتر در مورد مدل جدید o1 به زودی پس از یک تجربه دقیق تر با شما به اشتراک گذاشته خواهد شد. اگر سوالی دارید، لطفا در قسمت پیام به ما بگویید.

توانایی استدلال من بسیار جلوتر است، اما هنوز نمی توانم بگویم کدام یک بزرگتر است، 9.11 یا 9.8.

این مقام همچنین ویدیوهای دمو بیشتری از OpenAI o1 منتشر کرد.

به عنوان مثال، از OpenAI o1 برای نوشتن یک بازی وب سنجاب یاب استفاده کنید. هدف از این بازی کنترل یک کوالا برای جلوگیری از افزایش تعداد توت فرنگی ها و یافتن سنجاب است که پس از 3 ثانیه ظاهر می شود.

متفاوت از بازی های کلاسیک سنتی مانند Snake، منطق این نوع بازی ها نسبتا پیچیده است و توانایی استدلال منطقی OpenAI o1 را آزمایش می کند.

یا، OpenAI o1 شروع به حل برخی مشکلات فیزیکی ساده از طریق استدلال کرده است.

تظاهرات مثالی زد که در آن یک توت فرنگی کوچک را در یک فنجان معمولی قرار دادند، فنجان را روی میز وارونه کردند، سپس فنجان را برداشتند و پرسیدند که توت فرنگی کجا خواهد بود و از او خواسته شد که فرآیند استدلال را توضیح دهد. این نشان می دهد که مدل قادر به درک تغییرات موقعیت اجسام در حالت های فیزیکی مختلف است.

هنگامی که OpenAI o1 در برنامه‌های خاص پیاده‌سازی شود، می‌تواند به دست راست پزشک نیز تبدیل شود، مانند کمک به پزشکان در سازماندهی و خلاصه کردن اطلاعات موردی، و حتی در تشخیص برخی بیماری‌های سخت و پیچیده.

ماریو کرن، فیزیکدان کوانتومی که مشتاق ترکیب هوش مصنوعی و علم است، از مدل o1 OpenAI نیز سوالی در مورد کاربرد یک عملگر کوانتومی خاص پرسید در نتیجه، OpenAI o1 نیز به راحتی آن را کشف کرد.

چند "r" در "توت فرنگی" وجود دارد که پاسخ های اشتباه می دهد، اما نمی تواند OpenAI o1 را دچار مشکل کند

با این حال، پس از آزمایش واقعی، OpenAI o1 هنوز نمی تواند مشکل کلاسیک "کدام بزرگتر است، 9.11 یا 9.8؟" را حل کند، که منجر به کسر جدی امتیاز می شود.

در رابطه با ورود OpenAI o1، جیم فن، رئیس هوش تجسم یافته در NVIDIA، گفت:

ما در نهایت شاهد تعمیم و تولید پارادایم مقیاس بندی زمان استنتاج هستیم. همانطور که ساتون (پدرخوانده یادگیری تقویتی) در "درس های تلخ" گفت، تنها دو تکنیک وجود دارد که می توانند با محاسبات بدون محدودیت مقیاس شوند:

یاد بگیرید و جستجو کنید. وقت آن است که تمرکز خود را به دومی معطوف کنیم.

از نظر او، پارامترهای زیادی در مدل‌های بزرگ برای به خاطر سپردن حقایق استفاده می‌شود، که در واقع برای «تقویت امتیازات» در آزمون معیار پرسش و پاسخ مفید است، اما اگر توانایی استدلال منطقی از دانش (حافظه واقعیت) جدا شود کوچک «هسته استنتاج» برای فراخوانی ابزارهایی مانند مرورگرها و تأییدکننده‌های کد استفاده می‌شود که می‌تواند میزان محاسبات پیش از آموزش را کاهش دهد.

جیم فن همچنین به قدرتمندترین مزیت OpenAI o1 اشاره کرد، یعنی مدل o1 به راحتی می تواند بخشی از چرخ لنگر داده شود.

به بیان ساده، اگر مدل پاسخ صحیح را بدهد، کل فرآیند جستجو را می توان به مجموعه داده های آموزشی حاوی پاداش های مثبت و منفی تبدیل کرد. چنین مجموعه‌های داده‌ای را می‌توان برای آموزش نسخه‌های آینده مدل مورد استفاده قرار داد، و با اصلاح بیشتر داده‌های آموزشی تولید شده، عملکرد مدل همچنان بهبود می‌یابد. ایده خوبی است که حلقه درونی آموزش خود را از طریق بازی خود درک کنید.

با این حال، کاربران اینترنت در تست‌های واقعی خود مشکلاتی را نیز پیدا کردند.

Cyber ​​Zen Heart حدس می‌زند که این بار o1 ممکن است عامل GPT-4o پس از تنظیم/تراز کردن دقیق باشد و عملکرد کلی بسیار کمتر از حد انتظار است.

سام آلتمن همچنین اذعان می‌کند که o1 هنوز هم دارای نقص‌هایی است، محدودیت‌هایی دارد، اولین باری که از آن استفاده می‌کنید تاثیرگذارتر است و پس از صرف زمان بیشتر از آن کمتر است.

با وجود این، عملکرد کلی مدل OpenAI o1 قابل توجه است.

اکنون، انتشار مدل OpenAI o1 را می توان به عنوان محرک جنگ مدل های هوش مصنوعی در نیمه دوم سال در نظر گرفت، اگر اتفاق غیرمنتظره ای رخ ندهد، سایر شرکت های هوش مصنوعی آن را پنهان نخواهند کرد.

درست است، من رقبای قدیمی مانند Anthropic، Meta AI، و xAI، و همچنین برخی اسب‌های تیره با هوش مصنوعی عمیق را هدف قرار می‌دهم.

علاوه بر این، از انتشار GPT-4 تا به امروز، عمیق‌ترین اهمیت هر نسخه از مدل OpenAI، عملکرد قدرتمند نیست، بلکه ارائه یک معیار برای یک مسیر فنی است، بنابراین مردم را به سمت آب‌های عمیق ناشناخته سوق می‌دهد.

GPT-4 اینگونه است و OpenAI o1 امیدوار است اینگونه باشد.

# خوش آمدید به دنبال حساب عمومی رسمی وی چت aifaner: aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo