این فقط شما نیستید – نتایج جستجو واقعا بدتر می شوند. محققان خدمات وب آمازون (AWS) مطالعهای انجام دادهاند که نشان میدهد 57 درصد از محتوای موجود در اینترنت امروزی یا با هوش مصنوعی تولید میشود یا با استفاده از الگوریتم هوش مصنوعی ترجمه شده است.
این مطالعه با عنوان « میزان تکاندهنده وب ترجمه ماشینی است: بینشهایی از موازیسازی چند راهه »، استدلال میکند که ترجمه ماشینی کمهزینه (MT)، که یک قطعه معین از محتوا را میگیرد و آن را به چندین زبان بازگردانی میکند، مقصر اصلی «ترجمههای موازی چند طرفه تولید شده توسط ماشین نه تنها بر کل محتوای ترجمه شده در وب در زبانهای منابع پایینتر که MT در دسترس است، تسلط دارند. این همچنین بخش بزرگی از کل محتوای وب در آن زبانها را تشکیل میدهد.» محققان در این مطالعه نوشتند.
آنها همچنین شواهدی مبنی بر تعصب انتخاب در محتوایی که ماشینی به چندین زبان ترجمه میشود در مقایسه با محتوای منتشر شده در یک زبان پیدا کردند. محققان نوشتند: «این محتوا کوتاهتر، قابل پیشبینیتر است و توزیع موضوعی متفاوتی در مقایسه با محتوای ترجمه شده به یک زبان دارد».
علاوه بر این، افزایش میزان محتوای تولید شده توسط هوش مصنوعی در اینترنت همراه با افزایش اتکا به ابزارهای هوش مصنوعی برای ویرایش و دستکاری آن محتوا میتواند منجر به پدیدهای به نام فروپاشی مدل شود و در حال حاضر کیفیت نتایج جستجو را در سراسر وب کاهش میدهد. با توجه به اینکه مدلهای هوش مصنوعی مرزی مانند ChatGPT ، Gemini و Claude به حجم عظیمی از دادههای آموزشی تکیه میکنند که تنها با پاک کردن وب عمومی (چه حق نسخهبرداری را نقض میکند یا خیر)، میتوان آنها را به دست آورد، داشتن وب عمومی پر از هوش مصنوعی تولید شده، و محتوا اغلب نادرست است و می تواند عملکرد آنها را به شدت کاهش دهد.
دکتر ایلیا شومیلوف از دانشگاه آکسفورد به Windows Central گفت: «تعجب آور است که فروپاشی مدل با چه سرعتی شروع می شود و چقدر می تواند گریزان باشد. «در ابتدا، دادههای اقلیت را تحت تأثیر قرار میدهد – دادههایی که بهخوبی نمایش داده میشوند. سپس بر تنوع خروجی ها تأثیر می گذارد و واریانس کاهش می یابد. گاهی اوقات، شما بهبود کوچکی را برای داده های اکثریت مشاهده می کنید که کاهش عملکرد در داده های اقلیت را پنهان می کند. فروپاشی مدل می تواند عواقب جدی داشته باشد.»
محققان این پیامدها را با درخواست از زبان شناسان حرفه ای نشان دادند که 10000 جمله انگلیسی به طور تصادفی انتخاب شده از یکی از 20 دسته را طبقه بندی کردند. محققان مشاهده کردند که "تغییر چشمگیری در توزیع موضوعات هنگام مقایسه داده های موازی دو طرفه به 8+ طرفه (یعنی تعداد ترجمه های زبان) با افزایش موضوعات "مکالمه و نظر" از 22.5٪ به 40.1٪" از موارد منتشر شده. .
این به یک سوگیری انتخاب در نوع دادههایی اشاره میکند که به چندین زبان ترجمه میشوند، که «به طور قابل ملاحظهای بیشتر احتمال دارد» از موضوع «مکالمه و نظر» باشد.
علاوه بر این، محققان دریافتند که "ترجمه های موازی بسیار چند طرفه به طور قابل توجهی کیفیت پایین تری دارند (6.2 امتیاز ارزیابی کیفیت دنباله دار بدتر) از ترجمه های موازی دو طرفه." هنگامی که محققان 100 جمله از جمله های موازی بسیار چند وجهی (آنهایی که به بیش از هشت زبان ترجمه شده اند) را مورد بررسی قرار دادند، دریافتند که "اکثریت قریب به اتفاق" از مزارع محتوایی با مقالاتی "که ما آنها را به عنوان کیفیت پایین توصیف می کنیم، که به تخصص کمی نیاز دارند یا اصلا نیاز ندارند" آمده است. ، یا تلاش برای ایجاد را پیش ببرند."
این مطمئناً به توضیح اینکه چرا سم آلتمن، مدیر عامل OpenAI همچنان مشتاق است درباره اینکه چگونه ساخت ابزارهایی مانند ChatGPT بدون دسترسی رایگان به آثار دارای حق چاپ «غیرممکن» است، کمک می کند.