گوگل «سطل AI Family Bucket» را برای مقابله با GPT-4o منتشر کرد! یک به‌روزرسانی بزرگ نادر برای موتور جستجو، 121 جمله “AI” برای از بین بردن اضطراب

پس از اینکه OpenAI دیشب ChatGPT-4o را منتشر کرد، فشار بر Google I/O وارد شد، گویی گوگل نمی‌تواند از شر عنوان "وانگ فنگ در هوش مصنوعی" خلاص شود.

از سوی دیگر، گوگل 121 بار به هوش مصنوعی اشاره کرد و در یک کنفرانس مطبوعاتی نزدیک به 2 ساعته بیش از ده محصول جدید و ارتقاء آن را روانه بازار کرد قدرت شلیک، اما شگفتی های زیادی وجود ندارد.

اجازه دهید ابتدا نکات مهم این کنفرانس را به طور خلاصه برای تحلیل عملکردی بیشتر بخوانید.

نکات کلیدی نشست خبری:

  • هوش مصنوعی جستجوی گوگل: بررسی های اجمالی هوش مصنوعی، نسخه پیشرفته عملکرد خلاصه جستجوی هوش مصنوعی، و قابلیت های استدلال چند مرحله ای.
  • جمینی مدل های بزرگ: جمینی 1.5 فلش (1 میلیون زمینه)؛
  • مدل بزرگ Gemma: مدل های بزرگ چند وجهی منبع باز منتشر شده Pali Gemma و Gemma2.
  • هوش مصنوعی در Google Workspace: از قابلیت‌های Gemini و فرم پانل جانبی برای ترکیب مجموعه‌ای از محصولات Google استفاده کنید.
  • اپلیکیشن Gemini: نسخه موبایل اپلیکیشن Gemini به زودی از مکالمات تصویری با هوش مصنوعی پشتیبانی می کند و در هفته های اخیر عرضه خواهد شد.
  • Project Astra: جدیدترین پروژه هوش مصنوعی چند وجهی، از جمله هوش مصنوعی Generative برای تصاویر، موسیقی و ویدیوهایی مانند Imagen3، Music AI Sandbox و Veo.

با انجام جستجو، از Search King برای انفجار استفاده کنید

جستجوی گوگل یکی از بزرگترین حوزه های سرمایه گذاری و نوآوری گوگل است و محصول پایه گذار آن است.

25 سال پیش، گوگل جستجو را راه اندازی کرد و امشب گوگل دوباره مرزهای جستجو را جابجا می کند.

به زبان ساده، با جستجوی Google AIGC، می توانید کارهای بیشتری انجام دهید:

هر چیزی که به آن فکر می کنید، هر کاری که باید انجام دهید، فقط بپرسید (آن را) و جستجوی Google آن را پیدا خواهد کرد.

تمام تحولات جستجوی گوگل بر اساس مدل جمینی سفارشی شده برای آن است.

گوگل در کنفرانس مطبوعاتی معرفی کرد که جستجوی "متمایز" گوگل سه مزیت منحصر به فرد اصلی دارد:

  • اطلاعات بلادرنگ گوگل شامل بیش از یک تریلیون حقایق در مورد افراد، مکان ها و چیزها است
  • محصولی با رتبه برتر و یکی از بهترین خدمات آنلاین
  • قدرت جوزا

ترکیب این سه مورد، قابلیت های جدید گوگل را در جستجو باز می کند.

اولین عملکرد جدید، بررسی هوش مصنوعی است.

گوگل می گوید تا پایان سال جاری، بیش از یک میلیارد نفر از ویژگی بررسی هوش مصنوعی در جستجوی گوگل استفاده خواهند کرد و گوگل ادعا می کند که این یکی از بزرگترین به روز رسانی های موتور جستجوی خود در ۲۵ سال اخیر خواهد بود.

استدلال چند مرحله ای یکی دیگر از ویژگی های مهم در جستجوی گوگل است.

از طریق استدلال چند مرحله ای جدید، ساختن برخی برنامه های زندگی، کار و سفر در آینده برای ما بسیار ساده خواهد شد.

به عنوان مثال، می‌توانید از نوار جستجو برای یافتن «بهترین استودیوی یوگا در نزدیکی» استفاده کنید و سپس تمام اطلاعات مهم در مورد استودیوهای یوگای اطراف مانند امتیازات ارزیابی، توصیه‌های دوره، مسافت‌ها و غیره در بلوک‌ها طبقه‌بندی شده و به وضوح در قسمت نمایش داده می‌شوند. نتایج جستجو.

با تکیه بر پایگاه داده عظیم خود گوگل، هوش مصنوعی می تواند در طول فرآیند جستجو از جدیدترین و جامع ترین اطلاعات با کیفیت بالا استفاده کند، بنابراین دقت و اعتبار نتایج جستجو تضمین شده است.

در حال حاضر، گوگل بیش از 250 میلیون مکان در سراسر جهان را شامل می شود که به صورت بلادرنگ به روز می شوند و شامل اطلاعات مهمی مانند رتبه بندی، نظرات و ساعات کاری هستند.

برنامه ریزی در جستجو به روز رسانی دیگری است که بار شما را کاهش می دهد.

فرض کنید در حال تغییر ساختار وعده های غذایی و برنامه ریزی خود از ابتدا هستید و نمی خواهید ماکارونی و پنیر را برای صبحانه، ناهار و شام بخورید.

به سادگی نیازهای خود را در کادر جستجو قرار دهید، و جستجوی Google یک دستور هفتگی جدید را به شما ارائه می دهد که مطابق با نیاز شما است و به طور منطقی مرتب شده است.

علاوه بر این، می‌توانید شرایط و جزئیات را در هر زمان تغییر دهید و نتایج جستجو بر اساس آخرین درخواست‌ها به‌روز به‌روز می‌شوند.

اگر عملکردهای فوق را در محصولات شرکت های دیگر دیده یا حتی از آن استفاده کرده ایم، Ask with Video قطعا شگفتی هایی برای شما به همراه خواهد داشت.

اشیاء زیادی در زندگی وجود دارد که همگی با نام های انحصاری خود هستند، هنگامی که برخی از تجهیزات مشکلات جزئی دارند، روش های تعمیر مربوطه نیز وجود دارد. اما در بسیاری از موارد فقط متخصصان می توانند بگویند و فقط آنها می توانند "داروی مناسب را تجویز کنند."

اکنون از طریق جستجوی Google Ask with Video می توان همه را متخصص نامید که معادل دایره المعارف تلفن همراه شماست.

بخش‌های ضبط دیگر کار نمی‌کنند و نمی‌دانم از کجا شروع کنم شاتر دوربین ناگهان از کار می‌افتد. برای خدمات پس از فروش، اما اکنون می توانید از لنز یک دستگاه Google برای گرفتن عکس از مشکل استفاده کنید و جستجوی Google می تواند به شما کمک کند تا مشکلی را که با آن مواجه می شوید، و راه حل هایی برای رفع برخی از ایرادات جزئی پیدا کنید در محل ارائه شود.

در نمایش بلادرنگ در کنفرانس مطبوعاتی، هوش مصنوعی تمام مراحل تعمیر را یک به یک فهرست کرد.

این تابع از هوش مصنوعی برای تجزیه فریم به فریم ویدیو استفاده می‌کند، اطلاعات کلیدی هر فریم را به پنجره تماس طولانی Gemini وارد می‌کند تا یک به یک تجزیه و تحلیل کند، و مقالات مرتبط، انجمن‌ها، ویدیوها و غیره را در اینترنت بررسی می‌کند تا بینش پیدا کند. تحقق Ask با پیشنهادات هوشمند Video.

در مقایسه با ورودی متن سنتی، بزرگترین مزیت ویدئو این است که فرآیند تعامل بین ما و هوش مصنوعی بصری تر می شود، استفاده از کلمات مبهم مانند "اینجا" و "این" نیز می تواند باعث شود مدل بزرگ بداند که به چه چیزی اشاره می کنیم.

گوگل اعلام کرد که این آخرین ویژگی‌های هوش مصنوعی در چند هفته آینده در عملکرد آزمایشگاهی راه‌اندازی می‌شوند، که همچنین به این معنی است که جستجوی گوگل قدرتمندتر چندان دور از فرود نیست.

در نسخه‌های بعدی، حتی می‌تواند پاسخ‌هایی را بر اساس زیرنویس‌های خودکار ویدیوها در صفحه پیدا کند.

تصاویر، آهنگ ها و فیلم ها با هدف OpenAI

اگر GPT-4o در دو روز گذشته هوش مصنوعی بود که بار دیگر شوک کوچکی به جهان وارد کرد، پس پروژه Astra که امشب به طور رسمی توسط گوگل معرفی شد، ادامه این شوک است.

Project Astra نمونه اولیه GoogleMind است – یک دستیار هوش مصنوعی عمومی.

مشابه GPT-4o، کاربران می‌توانند مکالمات بی‌درنگ با هوش مصنوعی و چت تصویری از طریق آن داشته باشند.

نمایش در کنفرانس مطبوعاتی می تواند این ویژگی جدید را به خوبی نشان دهد در ویدئوی نمایشی، کارکنان لنز تلفن همراه را به سمت اشیاء اطراف خود نشانه رفته و سوالاتی را از Project Astra پرسیدند و توانست با تقریباً صفر تاخیر پاسخ دهد. .

به عنوان مثال، Project Astra می تواند تشخیص دهد که نیمه بالایی اسپیکر یک توییتر است و به راحتی می تواند عملکرد خاص آن را از روی کد نمایش داده شده بر روی صفحه کامپیوتر تشخیص دهد.

گوگل می گوید:

پروژه جدید ما بر ساخت یک دستیار هوش مصنوعی آینده نگر متمرکز است که در واقع می تواند در زندگی روزمره کمک کند.

بر اساس عملکرد قوی‌تر هوش مصنوعی، گوگل سه عملکرد عملی دیگر را نیز در زمینه‌های «تصاویر»، «موسیقی» و «ویدئو» اعلام کرد که منعکس کننده «حس آینده» فناوری پیشرفته است.

Imagen 3 جدیدترین مدل تولید تصویر است که توسط گوگل منتشر شده است.

می تواند کلمات سریع ما را بهتر درک کند و از آنها برای ایجاد تصاویر واقعی تر استفاده کند.

تصویر تولید شده از "گرگ" که در کنفرانس مطبوعاتی نمایش داده شد این است که ایمیجن 3 به طور دقیق 8 اطلاعات دقیق را در یک روایت استخراج کرده و همه آنها در تصویر منعکس شده است.

پیدا کردن این که تصاویر تولید شده نه تنها از نظر جزئیات دقیق هستند، بلکه بسیار واقعی نیز هستند، دشوار نیست.

Imagen 3 همچنین می تواند برخی از خلاقیت های انتزاعی تری مانند تصاویر خلاقانه ایجاد شده بر اساس اعلان های "رنگ رنگین کمان"، "نور پر" و "پس زمینه سیاه" را مدیریت کند.

مثل اینکه دقیقا میدونه چی میخوای

این سخنگو حتی در کنفرانس مطبوعاتی به شوخی نشان داد که "می توانید از آن برای شمردن ریش روی صورت دیگران استفاده کنید."

گوگل همچنین پیشرفت های جدیدی در تولید موسیقی داشته است.

Music AI Sandbox آخرین مدل از نسل موسیقی است که گوگل نیز از Marc Rebillet دعوت کرده تا آن را در سایت I/O به اشتراک بگذارد.

بر اساس یک موزیک نمایشی کوتاه که توسط هنرمند ایجاد شده است، Music AI Sandbox را می توان بر این اساس گسترش داد و همچنین می تواند یک قطعه موسیقی دوم را بر اساس دستورات ورودی کاربر، مانند سبک و نوع موسیقی و غیره ایجاد کند. .

گوگل گفت که آنها و یوتیوب Sandbox هوش مصنوعی موسیقی را ساخته اند:

این مجموعه ای از ابزارهای موسیقی حرفه ای هوش مصنوعی است که می تواند قطعات ساز جدید را از ابتدا ایجاد کند، سبک ها را بین آهنگ ها تبدیل کند و غیره به ما در طراحی و آزمایش آنها کمک کند.

مدل کاربردی دیگری به نام Veo بر روی تولید ویدئو تمرکز دارد.

کاربران فقط باید متن، تصویر یا پیام های ویدیویی مربوطه را وارد کنند و Veo می تواند ویدیوهای با کیفیت 1080p تا 60 ثانیه ایجاد کند.

جزئیات را در دستورالعمل ها در سبک های مختلف بصری و سینمایی به تصویر می کشد.

برای مثال، می‌توانیم چیزها، منظره یا عکس‌های هوایی تایم‌لپس را در دستورات وارد کنیم و از سایر دستورات برای ویرایش بیشتر ویدیو استفاده کنیم.

برای مدت طولانی، هوش مصنوعی نسل ویدیویی "فقط از نظر تئوری ایجاد شده است." در واقع، در میان آنها، بزرگترین آستانه برای "قابلیت استفاده" وجود دارد: زمان تولید ویدیو فقط چند ثانیه است. فقط می تواند به طور مکرر در یک یا دو حرکت بپرد.

به همین دلیل است که سورا هنگام انتشار، بحث‌های زیادی را برانگیخت.

علاوه بر Project Astra، گوگل یک Gemini قابل تنظیم – Gems را نیز در اختیار ما قرار می دهد.

گوگل گفت که می تواند وظایف خود را با حفظ ویژگی های مشخص شده انجام دهد و به یک دستیار شخصی برای هزاران نفر تبدیل شود. آموزگاران امتیاز و غیره همگی یک مشکل هستند.

جمینی دیوانه متون طولانی است و خانواده جمینی یک عضو جدید اضافه کرده است

پروژه جمینی از زمان نمایش خود توجه زیادی را به خود جلب کرده است. در ابتدا بحث‌هایی وجود داشت، اما بعداً برای احیای شهرت خود به قدرت خود تکیه کرد و اکنون بیش از پیش به بلوغ می‌رسد.

به گفته پیچای، در حال حاضر بیش از 1.5 میلیون توسعه دهنده از مدل Gemini استفاده می کنند و تعداد کاربران به 2 میلیارد نفر رسیده است. محصولات برای کاربران نیز فرصت های جدیدی را برای سازندگان، توسعه دهندگان و استارت آپ ها ایجاد می کند.

آخرین نسخه Gemini 1.5 Pro در حال حاضر از 1 میلیون حجم متن رمز پشتیبانی می کند و در اواخر امسال گفته می شود که این تعداد به 2 میلیون خواهد رسید که قادر به پردازش 2 ساعت ویدیو، 22 ساعت صدا، بیش از 60000 خط کد یا بیشتر است. بیش از 1.4 میلیون کلمه به طور همزمان.

علاوه بر این، کنفرانس Gemini Advanced مبتنی بر Gemini 1.5 Pro را نیز معرفی کرد که گفته می‌شود می‌تواند «چندین سند بزرگ، در مجموع تا 1500 صفحه، یا خلاصه کردن 100 ایمیل» را مدیریت کند و همچنین از 35 زبان و زبان پشتیبانی می‌کند. بیش از 150 کشور/منطقه

باید گفت که از نظر حجم متن، Gemini در واقع بسیار بزرگ است، "گامی بزرگ به سوی هدف تبدیل هر ورودی به هر خروجی."

ایمنی همیشه در اولویت قرار دارد

از همان روزهای اولیه هوش مصنوعی، بحث‌های مداومی در مورد چگونگی شناسایی محتوای تولید شده توسط هوش مصنوعی وجود داشته است. اقدام متقابل گوگل اضافه کردن واترمارک های نامرئی به تصاویر و صداهای تولید شده با هوش مصنوعی از طریق SynthID است تا تشخیص آنها آسان تر شود.

در آینده، گوگل این حوزه را به متن و ویدئو گسترش خواهد داد و در چند ماه آینده، با به‌روزرسانی جعبه ابزار هوش مصنوعی و متن‌های متن باز SynthID، به توسعه‌دهندگان بیشتری کمک می‌کند تا هوش مصنوعی را آسان‌تر و مسئولانه‌تر بسازند.

پس از اینکه Gemini در آن ادغام شد، زمانی که فعالیت مشکوکی در حین مکالمه شناسایی شود، هشداری صادر می کند، مانند اینکه از شما خواسته می شود شماره امنیت اجتماعی و اطلاعات بانکی خود را ارائه دهید .

ویژگی دسترسی TalkBack نیز از طریق Gemini Nano بهبود می‌یابد، توضیحات تصویر واضح‌تر و غنی‌تر خواهد بود و به کاربرانی که بینایی ضعیف‌تری دارند کمک می‌کند تا از طریق بازخورد صوتی بهتر با تلفن‌های خود کار کنند، که نشان‌دهنده مراقبت انسانی مداوم Google است.

در مورد عملکرد امشب گوگل، ارزیابی جیم فن، مدیر تحقیقات NVIDIA بسیار مناسب بود.

مدل جدید منتشر شده گوگل به نظر می رسد ورودی چند وجهی باشد، اما خروجی چند وجهی Imagen3 و Music AI Sandbox هنوز به عنوان اجزای مستقل از Gemini جدا نیستند. ادغام بومی همه ورودی/خروجی های مدال آینده اجتناب ناپذیری است.

می تواند کارهایی مانند "استفاده از صدای رباتیک تر" "ویرایش این تصویر" "ایجاد کمیک استریپ های ثابت" را انجام دهد.

و بدون از دست دادن اطلاعات در مرزهای مدال، مانند احساسات و صداهای پس زمینه، مدل جدید قابلیت های متنی جدیدی را باز می کند و کاربران می توانند مدل را با چند مثال آموزش دهند و معانی مختلف را به روش های جدید ترکیب کنند.

GPT-4o بی نقص نیست، اما برای تفسیر استعاره LLM-به عنوان-سیستم عامل آندره، فرم فاکتور را به درستی دریافت می کند:

ما به این مدل نیاز داریم که به صورت بومی از هر تعداد پسوند فایل پشتیبانی کند.

گوگل یک کار را به درستی انجام می دهد: آنها در نهایت تلاش جدی برای ادغام هوش مصنوعی در کادر جستجو انجام می دهند.

لزومی ندارد که Gemini بهترین باشد، اما می تواند پرکاربردترین باشد.

*وانگ منگ نیز در این مقاله مشارکت داشت

# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo