استارت آپ هوش مصنوعی Anthropic، پس از اعلام این خبر مبنی بر اینکه مدل کلود 3.5 Sonnet به زبان بزرگ از دیگر مدل های پیشرو ، از جمله GPT-4o و Llama-400B غلبه کرده است، روز دوشنبه اعلام کرد که قصد دارد برنامه جدیدی را برای تأمین مالی توسعه مستقل راه اندازی کند. تست های بنچمارک شخص ثالث که بر اساس آن می توان مدل های آینده آن را ارزیابی کرد.
طبق یک پست وبلاگ، این شرکت مایل است به توسعه دهندگان شخص ثالث پول بپردازد تا معیارهایی ایجاد کنند که می توانند به طور موثر قابلیت های پیشرفته را در مدل های هوش مصنوعی اندازه گیری کنند.
Anthropic در یک پست وبلاگ دوشنبه نوشت: "سرمایه گذاری ما در این ارزیابی ها برای ارتقای کل زمینه ایمنی هوش مصنوعی، ارائه ابزارهای ارزشمندی است که برای کل اکوسیستم مفید است." "توسعه ارزیابیهای با کیفیت بالا و مرتبط با ایمنی همچنان چالش برانگیز است و تقاضا از عرضه پیشی میگیرد."
این شرکت می خواهد معیارهای ارائه شده را برای کمک به اندازه گیری «سطح ایمنی» نسبی یک هوش مصنوعی بر اساس تعدادی از عوامل، از جمله میزان مقاومت آن در برابر تلاش برای وادار کردن پاسخ هایی که ممکن است شامل امنیت سایبری باشد، کمک کند. شیمیایی، بیولوژیکی، رادیولوژیکی و هسته ای (CBRN)؛ و ناهماهنگی، دستکاری اجتماعی، و سایر خطرات امنیت ملی. آنتروپیک همچنین به دنبال معیارهایی برای کمک به ارزیابی قابلیتهای پیشرفته مدلها است و مایل است برای «توسعه دهها هزار سؤال جدید ارزیابی و تکالیف انتها به انتها که حتی دانشجویان فارغالتحصیل را به چالش میکشد» بودجه مالی بپردازد، و اساساً توانایی مدل را در ترکیب دانش از منابع مختلف، توانایی آن در رد درخواستهای مخرب کاربر با عبارت هوشمندانه ، و توانایی آن برای پاسخگویی به چندین زبان.
آنتروپیک به دنبال کارهای «به اندازه کافی دشوار» و با حجم بالا است که میتواند «هزاران» آزمایشکننده را در مجموعهای از قالبهای آزمایشی درگیر کند که به شرکت کمک میکند تا تلاشهای مدلسازی تهدید «واقع بینانه و مرتبط با ایمنی» خود را اطلاع دهد. هر توسعهدهنده علاقهمندی میتواند پیشنهادات خود را به شرکت ارسال کند ، شرکتی که قصد دارد آنها را بهصورت متوالی ارزیابی کند.