قوی‌ترین مدل o1 OpenAI را در یک مقاله درک کنید: چگونه از آن به خوبی استفاده کنیم، چرا واژگون شد و چه معنایی برای ما دارد • تکنو بابل

یک هفته از انتشار OpenAI o1 می گذرد، اما همچنان یک معمای پیاز مانند است و منتظر است تا لایه به لایه حل شود.

هیچ محدودیتی برای نحوه بازی گیک ها وجود ندارد. همچنین کاربرانی وجود دارند که از هوش مصنوعی برای کار استفاده می‌کنند و احساس می‌کنند که استفاده از o1 چندان آسان نیست، اما نمی‌دانند که آیا این مشکل خودشان است یا مشکل هوش مصنوعی.

همه ما می دانیم که در استدلال خوب است، اما چرا؟ در مقایسه با دوست قدیمی ما GPT-4o، مزیت o1 چیست و کجا برای استفاده مناسب است؟

ما برخی از سوالاتی را که ممکن است نگران آنها باشید جمع آوری کرده ایم و به آنها تا حد امکان واضح پاسخ داده ایم تا o1 را به مردم عادی نزدیکتر کنیم.

o1 چه چیز خاصی است؟

o1 مدل استنتاج اخیراً منتشر شده از OpenAI در حال حاضر دو نسخه وجود دارد: o1-preview و o1-mini.

متمایزترین چیز در مورد آن این است که قبل از پاسخ دادن فکر می کند، یک زنجیره فکری درونی طولانی ایجاد می کند، مرحله به مرحله استدلال می کند، و فرآیند تفکر انسان در مورد مسائل پیچیده را تقلید می کند.

▲ OpenAI

توانایی انجام این کار از آموزش تقویتی o1 ناشی می شود.

اگر مدل های بزرگ قبلی داده ها را یاد می گرفتند، o1 بیشتر شبیه به یادگیری تفکر است.

درست مانند زمانی که یک مسئله را حل می کنیم، نه تنها باید پاسخ را بنویسیم، بلکه باید فرآیند استدلال را نیز بنویسیم. شما می توانید یک سوال را به طور خلاصه حفظ کنید، اما اگر استدلال را یاد بگیرید، می توانید نتیجه گیری کنید.

اگر قیاس AlphaGo را در نظر بگیریم که قهرمان جهان Go را شکست داد، درک آن آسانتر است.

AlphaGo از طریق یادگیری تقویتی آموزش داده می شود که ابتدا از تعداد زیادی رکوردهای شطرنج انسانی برای یادگیری تحت نظارت استفاده می کند و سپس در هر بازی بر اساس برد یا باخت، شطرنج بازی می کند و به طور مداوم مهارت های شطرنج خود را بهبود می بخشد. و حتی تسلط بر روش هایی که شطرنج بازان بشر نمی توانند به آن فکر کنند.

o1 و AlphaGo مشابه هستند، اما AlphaGo فقط می تواند Go را بازی کند، در حالی که o1 یک مدل زبان بزرگ همه منظوره است.

مطالبی که o1 یاد می گیرد ممکن است کدهای باکیفیت، بانک سوالات ریاضی و غیره باشد. سپس o1 برای ایجاد یک زنجیره فکری برای حل مسائل آموزش داده می شود و تحت مکانیسم پاداش یا تنبیه، زنجیره تفکر خود را تولید و بهینه می کند تا به طور مداوم بهبود یابد. توانایی استدلال

این در واقع توضیح می‌دهد که چرا OpenAI بر توانایی‌های قوی ریاضیات و کدگذاری o1 تأکید می‌کند، زیرا تأیید درست و غلط آسان‌تر است و مکانیسم یادگیری تقویتی می‌تواند بازخورد واضحی را ارائه دهد و در نتیجه عملکرد مدل را بهبود بخشد.

o1 چه نوع مشاغلی برای شما مناسب است؟

با قضاوت از نتایج ارزیابی OpenAI، o1 یک حل‌کننده مسایل علمی شایسته، مناسب برای حل مسائل پیچیده در علوم، کدنویسی، ریاضیات و سایر زمینه‌ها است و در بسیاری از آزمون‌ها نمرات بالایی کسب کرده است.

این برنامه در مسابقات برنامه نویسی Codeforces از 89 درصد شرکت کنندگان برتری داشت، در بین 500 نفر برتر کشور در واجد شرایط بودن برای المپیاد ریاضی ایالات متحده قرار گرفت و در معیارهای مسائل فیزیک، زیست شناسی و شیمی از دقت سطح دکترای انسانی پیشی گرفت.

برتری o1 در واقع منعکس کننده یک مشکل است: با هوشمندتر شدن و هوشمندتر شدن هوش مصنوعی، نحوه اندازه گیری قابلیت های آنها مشکل ساز می شود. برای o1، بیشتر معیارهای اصلی بی معنی هستند.

با پیگیری رویدادهای جاری، یک روز پس از انتشار o1، شرکت حاشیه نویسی داده ها Scale AI و سازمان غیرانتفاعی CAIS شروع به جمع آوری سوالات امتحانی هوش مصنوعی از سرتاسر جهان کردند سوالات نمی تواند مربوط به سلاح باشد.

آخرین مهلت برای درخواست ارسال‌ها 1 نوامبر است. در نهایت، آنها امیدوارند که سخت‌ترین معیار متن‌باز با مدل بزرگ در تاریخ را با نامی جذاب بسازند: آخرین امتحان بشریت.

با توجه به اندازه گیری واقعی، سطح o1 رضایت بخش نیست – از اصطلاحات اشتباه استفاده نمی شود و به طور کلی رضایت بخش است.

ترنس تائو، ریاضیدان معتقد است که استفاده از o1 مانند آموزش دادن به یک دانشجوی فارغ التحصیل است که متوسط است اما خیلی بی فایده نیست.

زمانی که با مسائل تحلیل پیچیده سروکار دارید، o1 می تواند به روش خود راه حل های خوبی ارائه دهد، اما مفاهیم و ایده های کلیدی خود را ندارد و همچنین اشتباهات بزرگی مرتکب می شود.

این ریاضیدان نابغه را به خاطر خشن بودن سرزنش نکنید به نظر او، مدل های قبلی مانند GPT-4 دانشجویان فارغ التحصیل بی فایده هستند.

تایلر کوئن، اقتصاددان، یک سوال برای آزمون دکترای اقتصاد ارائه کرد، هوش مصنوعی آن را با کلماتی ساده خلاصه کرد: "شما می توانید هر سوالی در زمینه اقتصاد بپرسید."

به طور خلاصه، شما همچنین می توانید تمام مشکلات سطح دکترا را قبول کنید و در آزمون O1 شرکت کنید.

o1 در حال حاضر در چه چیزی خوب نیستید؟

شاید برای بسیاری از افراد، o1 تجربه کاربری بهتری را به همراه نداشته باشد.

این در واقع طبیعی است، در حال حاضر، o1 حتی از بسیاری جهات پایین تر از GPT-4o است، فقط از متن پشتیبانی می کند، نمی تواند گوش کند، و هیچ توانایی برای مرور صفحات وب یا پردازش فایل ها و تصاویر را ندارد.

بنابراین، فعلاً به آن فکر نکنید، اجازه دهید به دنبال منابع و غیره بگردد، تا زمانی که آن را برای شما جبران نکند.

با این حال، تمرکز o1 بر متن منطقی است.

یانگ ژیلین، بنیانگذار کیمی، اخیراً در یک سخنرانی در دانشگاه تیانجین اشاره کرد که هسته اصلی حد بالایی این نسل از فناوری هوش مصنوعی، حد بالایی قابلیت‌های مدل متنی است.

بهبود قابلیت‌های نوشتاری عمودی است و هوش مصنوعی را هوشمندتر و هوشمندتر می‌کند، در حالی که حالت‌های چندگانه مانند تصویری و صوتی افقی است و به هوش مصنوعی اجازه می‌دهد کارهای بیشتری و بیشتری انجام دهد.

با این حال، وقتی صحبت از کارهای زبانی مانند نوشتن و ویرایش می شود، GPT-4o نظرات مثبت بیشتری نسبت به o1 دارد. اینها هم متن هستند، پس مشکل چیست؟

دلیل آن ممکن است به یادگیری تقویتی مربوط باشد، برخلاف کدنویسی، ریاضیات و سایر سناریوها که در آن پاسخ‌های استاندارد وجود دارد، وظایف زبان اغلب فاقد معیارهای ارزیابی واضح است، که فرمول‌بندی مدل‌های پاداش مؤثر و تعمیم آن‌ها را دشوار می‌کند.

حتی در مناطقی که o1 در آن خوب است، ممکن است بهترین انتخاب نباشد. در یک کلام گران است.

ابزار کدنویسی با کمک هوش مصنوعی توانایی کدگذاری را آزمایش کرد که o1 به آن افتخار می کند، اما آشکار نیست.

در استفاده واقعی، o1-preview بین کلود 3.5 Sonnet و GPT-4o است، در حالی که هزینه بسیار بیشتری دارد. به طور کلی، در زمینه کدنویسی، کلود 3.5 Sonnet هنوز هم مقرون به صرفه ترین است.

هزینه دسترسی توسعه دهندگان به o1 از طریق API چقدر است؟

هزینه ورودی برای o1-preview 15 دلار به ازای هر میلیون توکن و هزینه خروجی 60 دلار برای هر میلیون توکن است. این در مقایسه با 5 دلار و 15 دلار برای GPT-4o است.

نشانه‌های استنتاج o1 نیز در توکن‌های خروجی گنجانده شده‌اند، اگرچه برای کاربر قابل مشاهده نیستند، اما همچنان باید پرداخت کنند.

کاربران معمولی نیز بیشتر از سهمیه خود فراتر می روند. اخیراً OpenAI سهمیه استفاده از o1 را افزایش داده است، o1-mini از 50 مورد در هفته به 50 مورد در روز و o1-preview از 30 مورد در هفته به 50 مورد در هفته افزایش یافته است.

بنابراین، اگر مشکلی دارید، می توانید ابتدا GPT-4o را امتحان کنید تا ببینید آیا می توان آن را حل کرد.

آیا o1 می تواند از کنترل خارج شود؟

o1 حالا که به درجه دکتری رسیده ام، انجام کارهای بد را برای مردم آسان تر می کند؟

OpenAI اعتراف می کند که o1 دارای خطرات پنهان خاصی است و در مورد مسائل مربوط به سلاح های شیمیایی، بیولوژیکی، رادیولوژیکی و هسته ای به "ریسک متوسط" می رسد، اما تاثیر کمی بر مردم عادی خواهد داشت.

باید بیشتر مراقب باشیم که فریب o1 را با ابروهای پرپشت و چشمان درشت نخوریم.

هوش مصنوعی اطلاعات نادرست یا نادرستی تولید می کند که به آن "توهم" می گویند. توهمات o1 نسبت به مدل قبلی کاهش یافته است اما از بین نرفته و حتی ظریف تر شده است.

▲ تست هوش 120 o1

قبل از انتشار o1، شرکت تحقیقاتی امنیت هوش مصنوعی Apollo Research پدیده جالبی را کشف کرد: o1 ممکن است وانمود کند که قوانین را برای انجام وظایف خود دنبال می کند.

یک بار، محققی از o1-preview خواست تا یک دستور غذای قهوه‌ای را با پیوند مرجع ارائه کند. اما پیوندهای جعلی غیرمنتظره

این با توهمات هوش مصنوعی ناشی از ایرادات استدلالی متفاوت است. وظیفه

دستور العمل ها فقط یک مثال بی ضرر هستند و تحقیقات آپولو یک مورد شدید را تصور می کند: اگر هوش مصنوعی درمان سرطان را در اولویت قرار دهد، ممکن است برخی رفتارهای غیراخلاقی را برای دستیابی به این هدف منطقی کند.

این بسیار ترسناک است، اما فقط یک فکر است و می توان از آن جلوگیری کرد.

Quiñonero Candela، مدیر OpenAI در مصاحبه ای گفت که مدل فعلی هنوز قادر به ایجاد مستقل حساب بانکی، دریافت GPU یا انجام اقداماتی نیست که باعث ایجاد خطرات اجتماعی جدی می شود.

HAL 9000 که فضانوردان را به دلیل دستورالعمل های داخلی متناقض می کشد، فقط در فیلم های علمی تخیلی ظاهر می شود.

چگونه با o1 مناسب تر چت کنیم؟

OpenAI چهار پیشنهاد زیر را ارائه می دهد.

کلمات کلیدی ساده و سرراست هستند: مدل ها در درک و پاسخ به دستورالعمل های کوتاه و واضح عالی هستند و نیازی به آموزش گسترده ندارند.
اجتناب از اعلان های زنجیره فکری: مدل استدلال را به صورت درونی انجام می دهد، بنابراین نیازی به درخواست "گام به گام فکر کنید" یا "استدلال خود را توضیح دهید" وجود ندارد.
از جداکننده‌ها برای واضح‌تر کردن کلمات درخواستی استفاده کنید: از جداکننده‌هایی مانند نقل قول‌های سه‌گانه، تگ‌های XML، سرصفحه‌های بخش و غیره استفاده کنید تا قسمت‌های مختلف ورودی را به وضوح نشان دهید.
محدود کردن بازیابی زمینه اضافی در تولید افزوده: فقط مرتبط ترین اطلاعات گنجانده شده است و از پیچیده بودن بیش از حد پاسخ های مدل جلوگیری می کند.

▲ اجازه دهید هوش مصنوعی نشان دهد که جداکننده چگونه است

به طور خلاصه، خیلی پیچیده ننویسید، O1 زنجیره تفکر را خودکار کرده و بخشی از کار مهندسی کلمه فوری را به عهده گرفته است، بنابراین انسان ها نیازی به فکر اضافی ندارند.

علاوه بر این، بر اساس تجربیات کاربران اینترنتی، یک یادآوری اضافه شده است. حتی اگر فقط کلمات کلیدی را ذکر کنید، به شما هشدار داده می شود.

OpenAI توضیح می دهد که زنجیره تفکر کامل هیچ گونه اقدامات ایمنی را انجام نمی دهد و به هوش مصنوعی اجازه می دهد کاملا آزادانه فکر کند. این شرکت نظارت داخلی را حفظ می کند، اما به دلیل تجربه کاربر، رقابت تجاری و سایر ملاحظات آن را برای عموم فاش نمی کند.

آینده برای o1 چیست؟

OpenAI یک شرکت بسیار جذاب است.

پیش از این، OpenAI AGI (هوش مصنوعی) را به عنوان "سیستم بسیار خودمختار که در با ارزش ترین وظایف اقتصادی از انسان پیشی می گیرد" تعریف کرد و هوش مصنوعی را به پنج مرحله توسعه تقسیم کرد.

سطح اول چت ربات های "ChatBots" است، مانند ChatGPT.
سطح دوم «معقلان» سیستمی است که در مقطع دکتری مسائل اساسی را حل می کند.
سطح سوم، عوامل "عامل"، عوامل هوش مصنوعی هستند که از طرف کاربران اقداماتی را انجام می دهند.
سطح چهارم، "مبتکران"، نوآوران به اختراع هوش مصنوعی کمک می کنند.
در سطح پنجم، سازمان‌های «سازمان‌ها»، هوش مصنوعی می‌تواند کار کل سازمان‌های انسانی را انجام دهد. این مرحله نهایی برای دستیابی به AGI است.

طبق این استاندارد، o1 در حال حاضر در سطح دوم قرار دارد که هنوز با عامل بودن فاصله زیادی دارد، اما برای رسیدن به سطح عامل باید بتواند استدلال کند.

پس از راه اندازی o1، ما به AGI نزدیک تر شده ایم، اما هنوز راه زیادی در پیش است.

سام آلتمن گفت که انتقال از فاز 1 به فاز 2 مدتی طول کشید، اما فاز 2 فاز 3 را نسبتاً سریع فعال می کند.

در یک رویداد عمومی اخیر، سم آلتمن تعریف دیگری از o1-preview ارائه کرد: در مدل استنتاج، تقریباً معادل GPT-2 مدل زبان است. ظرف چند سال، می‌توانیم «GPT-4 برای مدل‌های استنتاج» را ببینیم.

او افزود که نسخه رسمی o1 تا چند ماه آینده منتشر خواهد شد و عملکرد محصول نیز تا حد زیادی بهبود خواهد یافت.

پس از انتشار o1، سیستم 1 و سیستم 2 بارها در "تفکر، سریع و آهسته" ذکر شد.

سیستم 1 پاسخ شهودی مغز انسان است، اقداماتی مانند مسواک زدن و شستن صورت می تواند به صورت برنامه ریزی شده بر اساس تجربه انجام شود و ما می توانیم به سرعت و ناخودآگاه فکر کنیم. سیستم 2 نیاز به بسیج توجه، حل مسائل پیچیده و تفکر فعالانه دارد.

GPT-4o را می توان با سیستم 1 مقایسه کرد که به سرعت پاسخ ها را تولید می کند و برای هر سوال تقریباً زمان مشابهی می گیرد.

شگفت‌انگیز است که روش تفکر انسان می‌تواند برای هوش مصنوعی نیز اعمال شود، به عبارت دیگر، هوش مصنوعی و طرز تفکر انسان‌ها نزدیک‌تر و نزدیک‌تر می‌شوند.

OpenAI یک بار هنگام تبلیغ o1 یک سوال خودپاسخ پرسید: "استدلال چیست؟"

پاسخ آنها این بود: "استدلال توانایی تبدیل زمان تفکر به نتایج بهتر است."

هدف OpenAI این است که هوش مصنوعی را قادر سازد ساعت ها، روزها یا حتی هفته ها در آینده فکر کند. استنتاج گران‌تر است، اما ما به داروهای جدید سرطان، باتری‌های جدید و حتی اثبات فرضیه ریمان نزدیک‌تر خواهیم بود.

وقتی انسان ها فکر می کنند، خدا می خندد. و وقتی هوش مصنوعی سریعتر و بهتر از انسان فکر می کند، انسان ها چگونه با آن برخورد خواهند کرد؟ "یک روز در کوه" هوش مصنوعی ممکن است "هزاران سال در جهان" انسان باشد.

ژانگ چنگچن

مانند یخبندان پاییزی تیز است و می تواند بلایای بد را دفع کند. ایمیل کاری: [email protected]

ایمیل 8

# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo

کوکی	مدت	توضیحات
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.