ربات OpenAI در صحنه منفجر شد! ChatGPT بالاخره بدنی دارد، می تواند صحبت کند، بخواند و کارهای خانه را انجام دهد

مدل‌های بزرگی که توسط GPT-4 نشان داده شده‌اند، مغز ساخته‌اند و قدم بعدی نیاز به بدنه رباتی است که بتواند این مغز را حمل کند.

اواخر شب گذشته، شرکت ستاره ربات‌های انسان‌نما Figure AI ویدئویی را منتشر کرد که در آن مجموعه‌ای از تعاملات مکالمه‌ای که توسط ربات Figure 01 با پشتیبانی از مدل قدرتمند OpenAI انجام می‌شد، نشان می‌داد.

ربات موجود در این ویدئو پاسخ های عملیاتی انعطاف پذیری را نشان می دهد و تسلط آن در برقراری ارتباط با انسان ها تقریباً با افراد واقعی قابل مقایسه است.

این کمتر از نیم ماه پس از سرمایه گذاری Figure AI از OpenAI، Microsoft، NVIDIA و سایر شرکت ها است. همچنین به من این امکان را داد که ببینم قدرتمندترین مدل بزرگ چند وجهی OpenAI با بدنه چگونه خواهد بود.

شکل 01، ربات انسان نما که شما را بهتر درک می کند؟

به لطف پشتیبانی قدرتمند از مدل بزرگ چند وجهی OpenAI، شکل 01 اکنون در تشخیص اشیا روی میز متخصص است. سیب، آبکش، فنجان و بشقاب همه چیز یک کیک برای آن است!

وقتی گرسنه هستید و می خواهید یک لقمه کامل بخورید، بلافاصله افکار شما را درک می کند و یک سیب را به آرامی به شما می دهد.

علاوه بر این، حتی می‌تواند زباله‌هایی را که دور انداخته‌اید جمع کند و به شما توضیح دهد که چرا همین حالا سیب را به شما داده است. با کمک مدل های بزرگ، شکل 01 می تواند تنها غذای روی میز – سیب را درک کند.

به دستور یک انسان، شکل 01 می تواند کارهای خانه را نیز انجام دهد و ظروف را کنار بگذارد.این ربات به سادگی بهترین شریک زندگی خانوادگی است.

پس از دیدن این ویدیوی خیره کننده، کاربران اینترنتی واکنش های مختلفی داشتند.

کاربران شبکه نمی‌توانند منتظر باشند تا وظایفی را به شکل 01 اختصاص دهند.

آیا رقبا از دیدن این می ترسند، در دل خود مضطرب هستند، و آماده می شوند تا مخفیانه برای یک مسابقه فنی بزرگ آماده شوند؟

کاربران اینترنتی هیجان زده تر گفتند که به نظر می رسد طلوع AGI نزدیک است.

البته همیشه صداهای انتقادی شنیده می شود، برخی از کاربران اینترنتی گلایه کردند که چرا این ربات لکنت زبان می کند؟

کاربران اینترنت نیز فرصت شوخی کردن را از دست ندادند.

برت ادوک، رئیس Figure AI، مایل به تنها ماندن نبود و برای ارائه یک تفسیر فوق‌العاده روی X پرید.

این ویدئو کاربرد شبکه های عصبی سرتاسر را نشان می دهد. در این فرآیند از کنترل از راه دور (تلئوپ) استفاده نمی شود. ویدیو با سرعت واقعی (سرعت 1.0x) گرفته می شود و پیوسته است.

همانطور که در ویدئو مشاهده می کنید سرعت ربات ها به میزان قابل توجهی بهبود یافته و کم کم به سرعت هایی مشابه انسان ها می رسیم.

بدون نیاز به کنترل از راه دور، خودآموز

بنابراین چگونه شکل 01 این کار را انجام می دهد؟

کوری لینچ، رهبر تیم Figure AI آن را در X توضیح داد.

به طور خاص، تمام رفتارهای نشان داده شده در ویدیو یاد گرفته شد (نه از راه دور) و با سرعت واقعی (سرعت 1.0x) انجام شد.

Figure AI تصاویر گرفته شده توسط دوربین ربات و متن رونویسی شده با صدای ضبط شده از طریق میکروفون پردازنده را به یک مدل چندوجهی آموزش دیده توسط OpenAI تغذیه می کند که می تواند هم تصویر و هم اطلاعات متنی را درک کند.

این مدل کل تاریخچه مکالمه، از جمله تصاویر گذشته را پردازش می کند تا یک پاسخ کلامی ایجاد کند و از طریق متن به گفتار با انسان صحبت کند. همین مدل همچنین مسئول تصمیم گیری در مورد اینکه کدام رفتار حلقه بسته آموخته شده در پاسخ به یک دستور داده شده اجرا شود. وزن های شبکه عصبی خاص را بر روی GPU بارگذاری می کند و خط مشی مربوطه را اجرا می کند.

اتصال شکل 01 به یک مدل بزرگ چند وجهی از پیش آموزش دیده، بسیاری از ویژگی های جدید جالب را برای آن به ارمغان می آورد.

اکنون، شکل 01 + OpenAI می تواند:

  • جزئیات اطراف آن
  • هنگام تصمیم گیری از استدلال عقل سلیم استفاده کنید. به عنوان مثال، "اقلام روی میز، مانند آن بشقاب و فنجان، به احتمال زیاد در مرحله بعد روی قفسه خشک کن قرار می گیرند."
  • دستورات مبهم سطح بالا، مانند «من گرسنه هستم» را به رفتارهای مناسب موقعیت، مانند «به آن شخص یک سیب بدهید» تبدیل کنید.
  • به زبان انگلیسی ساده توضیح دهید که چرا یک عمل خاص را انجام می دهد. به عنوان مثال، "این تنها مورد خوراکی است که می توانم از جدول ارائه دهم."

وقتی صحبت از مهارت‌های عملی خوبی می‌شود که شکل 01 از طریق یادگیری به آنها مسلط شد، در واقع یک سری اصول پیچیده و ظریف پشت آن وجود دارد.

همه رفتارها توسط استراتژی مبدل بینایی به موتور شبکه عصبی هدایت می شوند که مستقیماً پیکسل های تصویر را به اقدامات نگاشت می کند. این شبکه ها تصاویر ساخته شده در ربات را با سرعت 10 فریم در ثانیه دریافت می کنند و 200 حرکت 24 درجه آزادی (شامل حالت مچ دست و زوایای مفصل انگشتان) را 200 بار در ثانیه ایجاد می کنند.

این حرکات به عنوان "نقاط تنظیم" با سرعت بالا برای ردیابی توسط کنترلرهای تمام بدن با سرعت بالاتر عمل می کنند و اجرای دقیق حرکات را تضمین می کنند.

این طراحی به تفکیک موثر نگرانی ها می رسد:

  • مدل‌های از قبل آموزش‌دیده‌شده اینترنتی، استدلال عقل سلیم را روی تصاویر و متن انجام می‌دهند تا یک طرح سطح بالا ایجاد کنند.
  • استراتژی دیداری-موتوری آموخته شده این طرح را اجرا می کند، رفتارهای سریع و واکنشی را انجام می دهد که تعیین دستی آنها دشوار است، مانند دستکاری کیسه قابل تغییر شکل در هر موقعیتی.
  • در عین حال، کنترل کننده تمام بدن وظیفه اطمینان از ایمنی و ثبات حرکات را بر عهده دارد، به عنوان مثال حفظ تعادل ربات.

کوری لینچ با توجه به پیشرفت بزرگ شکل 01 ابراز تاسف کرد:

همین چند سال پیش، فکر می‌کردم که داشتن یک مکالمه کامل با یک ربات انسان‌نما که قادر به برنامه‌ریزی و اجرای مستقل رفتارهای آموخته شده است، دهه‌ها در آینده خواهد بود. واضح است که بسیاری از چیزها به طرز چشمگیری تغییر کرده است.

آیا این می تواند لحظه GPT ربات های انسان نما باشد؟

باید گفت که سرعت توسعه شکل 01 مانند پا گذاشتن روی پدال گاز و مسابقه دادن تمام مسیر است.

در ژانویه امسال، شکل 01 بر مهارت درست کردن قهوه تسلط یافت. این دستاورد به دلیل معرفی یک شبکه عصبی انتها به انتها بود که به ربات این امکان را می داد تا به طور مستقل، با 10 ساعت آموزش، اشتباهات را یاد بگیرد و تصحیح کند.

یک ماه بعد، شکل 01 مهارت جدید بلند کردن جعبه‌ها و تحویل آن‌ها به تسمه نقاله را آموخت، البته تنها با سرعت 16.7 درصد سرعت انسان.

در طی این فرآیند، سرعت تجاری سازی Figure AI متوقف نشده است. این شرکت قراردادی تجاری با شرکت ساخت BMW برای ادغام فناوری هوش مصنوعی و روباتیک در خط تولید خودرو امضا کرده و در کارخانه BMW مستقر شده است.

سپس، تنها دو هفته پیش، فیگور از تکمیل دور مالی 675 میلیون دلاری سری B خبر داد که ارزش شرکت به 2.6 میلیارد دلار افزایش یافت.

سرمایه گذاران تقریبا نیمی از سیلیکون ولی را پوشش می دهند – مایکروسافت، OpenAI Venture Fund، NVIDIA، Jeff Bezos، Parkway Venture Capital، Intel Capital و Align Ventures و غیره.

در آن زمان OpenAI و Figure همچنین اعلام کردند که به طور مشترک نسل بعدی مدل هوش مصنوعی ربات انسان نما را توسعه خواهند داد.

اکنون، از شکل 01، به نظر می رسد که بتوانیم پیش نویسی از زندگی آینده را مشاهده کنیم.

در واقع قبل از مدل های بزرگ، ربات ها تجهیزات تخصصی بودند، اکنون با قابلیت های کلی مدل های بزرگ، روبات های عمومی شروع به ظهور کرده اند، اکنون نه تنها به ChatGPT نیاز داریم، بلکه به WorkGPT نیز نیاز داریم.

این تحولات به طور غیرمستقیم یک مسیر کاملاً قابل مشاهده را تأیید می کند: پس از اینکه مدل بزرگ هوش مصنوعی ریشه دوانید، در نهایت وارد دنیای واقعی خواهد شد و هوش تجسم یافته بهترین مسیر است.

جنسن هوانگ، بنیانگذار انویدیا، که در خط مقدم هوش مصنوعی فعال بوده است، زمانی گفت: "هوش تجسم یافته موج بعدی هوش مصنوعی را رهبری خواهد کرد."

ادغام مدل بزرگ OpenAI در شکل 01 نیز یک طرح استراتژیک عمدی است.

مدل‌های بزرگ هوش مصنوعی بالغ مانند مغزهای مصنوعی عمل می‌کنند، شبکه عصبی پیچیده مغز انسان را شبیه‌سازی می‌کنند، عملکردهای شناختی مانند درک زبان، تشخیص بصری و استدلال موقعیتی را درک می‌کنند و مشکلات شناختی و تصمیم‌گیری سطح بالاتر را برای روبات‌ها حل می‌کنند.

در همان زمان، حسگرها، محرک‌ها و واحدهای محاسباتی مختلف در بدنه ربات ادغام می‌شوند تا درک و تعامل با محیط را درک کنند. به عنوان مثال، سیستم های بینایی می توانند تصاویر و فیلم ها را ضبط کنند و حسگرهای لمسی می توانند شکل و بافت اشیاء را حس کنند.

برت ادکاک، بنیانگذار Figure AI، قبلاً در مصاحبه ای اظهار داشت که در 1-2 سال آینده، Figure AI بر توسعه محصولات برجسته تمرکز خواهد کرد و انتظار دارد نتایج تحقیق و توسعه ربات های انسان نما را در یک یا دو سال آینده به عموم مردم نشان دهد. سیستم های هوش مصنوعی، کنترل سطح پایین و غیره را پوشش می دهد و در نهایت روباتی ظاهر می شود که می تواند استعدادهای خود را در زندگی روزمره نشان دهد.

او همچنین فاش کرد که از نظر هزینه، یک ربات انسان نما حدود 1000 قطعه و وزن حدود 150 پوند (68 کیلوگرم) دارد، در حالی که یک ماشین الکتریکی ممکن است حدود 10000 قطعه داشته باشد و وزن آن بین 4000 تا 5000 پوند (1800-2250 کیلوگرم) باشد. بنابراین، در درازمدت، بسته به هزینه محرک‌ها، اجزای موتور، سنسورها و هزینه‌های محاسباتی، انتظار می‌رود هزینه روبات‌های انسان‌نما کمتر از خودروهای الکتریکی ارزان‌تر باشد.

متخصص ربات، اریک جانگ، زمانی بینش خود را مطرح کرد: "اگرچه بسیاری از محققان هوش مصنوعی معتقدند که دهه ها طول می کشد تا روبات های جهانی محبوب شوند، فراموش نکنید که ChatGPT تقریبا یک شبه متولد شد."

یک سال پیش در چنین روزی، OpenAI GPT-4 را منتشر کرد و قدرت مدل های بزرگ را به دنیا ثابت کرد.

امروز، یک سال بعد، ما منتظر GPT-5 نبودیم، اما از شکل 01 نیز استقبال کردیم. آیا این لحظه GPT-4 برای روبات های انسان نما خواهد بود؟

# خوش آمدید به دنبال حساب عمومی رسمی ویچت aifaner: aifaner (شناسه WeChat: ifanr) در اسرع وقت مطالب هیجان انگیزتری در اختیار شما قرار خواهد گرفت.

Ai Faner | لینک اصلی · مشاهده نظرات · Sina Weibo