57 درصد اینترنت ممکن است در حال حاضر لجن هوش مصنوعی باشد

یک حباب کلمه cgi
Google Deepmind / Pexels

این فقط شما نیستید – نتایج جستجو واقعا بدتر می شوند. محققان خدمات وب آمازون (AWS) مطالعه‌ای انجام داده‌اند که نشان می‌دهد 57 درصد از محتوای موجود در اینترنت امروزی یا با هوش مصنوعی تولید می‌شود یا با استفاده از الگوریتم هوش مصنوعی ترجمه شده است.

این مطالعه با عنوان « میزان تکان‌دهنده وب ترجمه ماشینی است: بینش‌هایی از موازی‌سازی چند راهه »، استدلال می‌کند که ترجمه ماشینی کم‌هزینه (MT)، که یک قطعه معین از محتوا را می‌گیرد و آن را به چندین زبان بازگردانی می‌کند، مقصر اصلی «ترجمه‌های موازی چند طرفه تولید شده توسط ماشین نه تنها بر کل محتوای ترجمه شده در وب در زبان‌های منابع پایین‌تر که MT در دسترس است، تسلط دارند. این همچنین بخش بزرگی از کل محتوای وب در آن زبان‌ها را تشکیل می‌دهد.» محققان در این مطالعه نوشتند.

آن‌ها همچنین شواهدی مبنی بر تعصب انتخاب در محتوایی که ماشینی به چندین زبان ترجمه می‌شود در مقایسه با محتوای منتشر شده در یک زبان پیدا کردند. محققان نوشتند: «این محتوا کوتاه‌تر، قابل پیش‌بینی‌تر است و توزیع موضوعی متفاوتی در مقایسه با محتوای ترجمه شده به یک زبان دارد».

علاوه بر این، افزایش میزان محتوای تولید شده توسط هوش مصنوعی در اینترنت همراه با افزایش اتکا به ابزارهای هوش مصنوعی برای ویرایش و دستکاری آن محتوا می‌تواند منجر به پدیده‌ای به نام فروپاشی مدل شود و در حال حاضر کیفیت نتایج جستجو را در سراسر وب کاهش می‌دهد. با توجه به اینکه مدل‌های هوش مصنوعی مرزی مانند ChatGPT ، Gemini و Claude به حجم عظیمی از داده‌های آموزشی تکیه می‌کنند که تنها با پاک کردن وب عمومی (چه حق نسخه‌برداری را نقض می‌کند یا خیر)، می‌توان آن‌ها را به دست آورد، داشتن وب عمومی پر از هوش مصنوعی تولید شده، و محتوا اغلب نادرست است و می تواند عملکرد آنها را به شدت کاهش دهد.

دکتر ایلیا شومیلوف از دانشگاه آکسفورد به Windows Central گفت: «تعجب آور است که فروپاشی مدل با چه سرعتی شروع می شود و چقدر می تواند گریزان باشد. «در ابتدا، داده‌های اقلیت را تحت تأثیر قرار می‌دهد – داده‌هایی که به‌خوبی نمایش داده می‌شوند. سپس بر تنوع خروجی ها تأثیر می گذارد و واریانس کاهش می یابد. گاهی اوقات، شما بهبود کوچکی را برای داده های اکثریت مشاهده می کنید که کاهش عملکرد در داده های اقلیت را پنهان می کند. فروپاشی مدل می تواند عواقب جدی داشته باشد.»

محققان این پیامدها را با درخواست از زبان شناسان حرفه ای نشان دادند که 10000 جمله انگلیسی به طور تصادفی انتخاب شده از یکی از 20 دسته را طبقه بندی کردند. محققان مشاهده کردند که "تغییر چشمگیری در توزیع موضوعات هنگام مقایسه داده های موازی دو طرفه به 8+ طرفه (یعنی تعداد ترجمه های زبان) با افزایش موضوعات "مکالمه و نظر" از 22.5٪ به 40.1٪" از موارد منتشر شده. .

این به یک سوگیری انتخاب در نوع داده‌هایی اشاره می‌کند که به چندین زبان ترجمه می‌شوند، که «به طور قابل ملاحظه‌ای بیشتر احتمال دارد» از موضوع «مکالمه و نظر» باشد.

علاوه بر این، محققان دریافتند که "ترجمه های موازی بسیار چند طرفه به طور قابل توجهی کیفیت پایین تری دارند (6.2 امتیاز ارزیابی کیفیت دنباله دار بدتر) از ترجمه های موازی دو طرفه." هنگامی که محققان 100 جمله از جمله های موازی بسیار چند وجهی (آنهایی که به بیش از هشت زبان ترجمه شده اند) را مورد بررسی قرار دادند، دریافتند که "اکثریت قریب به اتفاق" از مزارع محتوایی با مقالاتی "که ما آنها را به عنوان کیفیت پایین توصیف می کنیم، که به تخصص کمی نیاز دارند یا اصلا نیاز ندارند" آمده است. ، یا تلاش برای ایجاد را پیش ببرند."

این مطمئناً به توضیح اینکه چرا سم آلتمن، مدیر عامل OpenAI همچنان مشتاق است درباره اینکه چگونه ساخت ابزارهایی مانند ChatGPT بدون دسترسی رایگان به آثار دارای حق چاپ «غیرممکن» است، کمک می کند.