پس از اینکه ChatGPT بتواند به زبان انسان صحبت کند، آلودگی هوش مصنوعی اینترنت حتی جدی تر خواهد شد

چیزی که انسان ها بیشتر از همه از آن می ترسند اتفاق افتاده است.

من به طور تصادفی چند مقاله خبری را در اینترنت می خوانم، اما نمی توانم بگویم که آنها توسط هوش مصنوعی ساخته شده اند یا انسان، وقتی در اوقات فراغت خود بازی می کنم، نمی توانم تشخیص دهم که هم تیمی هایم انسان های هوش مصنوعی هستند یا افراد واقعی.

در اتاق پخش زنده، سلبریتی های دیجیتال به تنهایی پای مرغ را مکیدند و صحنه ای را ایجاد کردند که از دستیاران واقعی که فریاد می زدند جدا شد…

به گزارش رسانه های خارجی 404، پروژه Wordfreq که در ابتدا برای ردیابی و تحلیل محبوبیت و فراوانی استفاده از کلمات و واژگان مختلف در چندین زبان مورد استفاده قرار می گرفت، اکنون به آخرین قربانی تبدیل شده است.

جایی که خورشید می تابد، همیشه سایه ای در کمین است و واضح است که Wordfreq نه اولین قربانی است و نه آخرین قربانی.

به عبارت دیگر، ممکن است این خود انسان ها باشند که در نهایت هزینه آن را می پردازند.

GPT زبان را آلوده می کند و انسان ها باید هزینه آن را بپردازند

هوش مصنوعی مولد داده‌ها را آلوده کرده است و فکر نمی‌کنم کسی اطلاعات موثقی در مورد استفاده از زبان انسان پس از سال 2021 داشته باشد.

این فریاد از دل رابین اسپیر، بنیانگذار پروژه Wordfreq، اندکی عجز و رنجش را آشکار می کند.

برای کشف دلیل این امر، باید با منشا Wordfreq شروع کنیم.

Wordfreq با تجزیه و تحلیل محتوای ویکی‌پدیا، زیرنویس‌های فیلم و تلویزیون، گزارش‌های خبری و وب‌سایت‌هایی مانند Reddit، تلاش می‌کند تا تکامل بیش از ۴۰ زبان را ردیابی کند و سپس تغییر عادات زبانی را با تغییر فرهنگ عامیانه و پاپ مطالعه کند.

Wordfreq گنجینه ای برای زبان شناسان، نویسندگان و مترجمان است. اما اکنون، یک بیانیه عظیم در آدرس GitHub "این پروژه دیگر به روز نخواهد شد" متاسفانه ناقوس مرگ این پروژه را به صدا درآورده است.

در گذشته، جمع‌آوری داده‌های عمومی از وب، رگ حیاتی منبع داده پروژه بود، اما ظهور هوش مصنوعی مولد، متن هوش مصنوعی را محبوب کرده است.

Spear یک مثال معمولی ارائه کرد در گذشته، مردم به ندرت از کلمه "delve" استفاده می کردند تجزیه و تحلیل دقیق عادات زبانی انسان

اگر این به اندازه کافی شهودی نیست، تکثیر کلیشه‌هایی مانند «خلاصه» و «خلاصه کردن» برجسته‌ترین هشدارها هستند.

این روند به تدریج در حال نفوذ به نویسندگی دانشگاهی و حتی آفرینش ادبی است.

گزارشی از دانشگاه استنفورد اشاره کرد که ChatGPT تنها در پنج ماه به یک "مصنوع نوشتاری" برای بسیاری از کارشناسان و محققان تبدیل شده است. از جمله در رشته علوم کامپیوتر تقریباً هر شش چکیده و هر هفت مقدمه توسط ایشان نوشته می شود.

آنچه در ادامه می‌آید «هجوم گسترده» به سبک نوشتاری انسان توسط هوش مصنوعی مولد است.

نتایج تحقیقات گنگ مینگ منگ، دانشجوی دکترا در مؤسسه مطالعات پیشرفته بین‌المللی ایتالیا، مانند یک آینه است که ترجیحات کلمات ChatGPT را بیشتر منعکس می‌کند و تأثیر آن را در نوشتن مقاله دانشگاهی کاملاً تأیید می‌کند.

پس از تجزیه و تحلیل چکیده های بیش از یک میلیون مقاله در arXiv، گنگ مینگ منگ دریافت که فراوانی کلمات مقالات پس از محبوبیت ChatGPT به طور قابل توجهی تغییر کرده است. در این میان، فراوانی استفاده از کلماتی مانند «معنی دار» افزایش چشمگیری داشته، در حالی که فراوانی استفاده از واژه هایی مانند «است» و «هستند» حدود 10 درصد کاهش یافته است.

در بیشتر موارد، هوش مصنوعی مولد می‌تواند یک فرد با امتیاز خلاقیت 60 را به نمره 70 یا بالاتر تبدیل کند، اما در خلق متن، اگرچه خلاقیت شخصی و کیفیت نوشتن بهبود یافته است، خلاقیت جمعی را به‌طور نامرئی کاهش داده است .

دو نفر از دانشگاهیان دانشگاه UCL و دانشگاه اکستر مطالعه‌ای را در Science منتشر کردند که در آن 500 شرکت‌کننده به استفاده از هوش مصنوعی برای نوشتن حدود 8 خط داستان در مورد موضوعات تصادفی و تجزیه و تحلیل مخاطبان هدف گماشته شدند.

نتایج نشان داد که داستان‌ها با الهام از هوش مصنوعی «خلاقانه‌تر» شدند، اما داستان‌های تولید شده توسط این هوش مصنوعی‌ها نیز به طرز شگفت‌آوری شبیه به یکدیگر بودند.

بنابراین، وقتی متن هوش مصنوعی مولد مانند یک آلاینده فراگیر، برای Wordfreq و انسان به اینترنت سرازیر می‌شود، فواید آن بسیار بیشتر از مضرات آن است.

جنگ ضد خزنده آغاز می شود، Wordfreq رنج می برد

خاتمه پروژه Wordfreq را می توان قربانی گرفتار شدن در جنگ خزنده غول پیکر دانست.

توسعه هوش مصنوعی از پشتیبانی الگوریتم ها، قدرت محاسباتی و داده جدایی ناپذیر است. اگرچه هنوز بین متن تولید شده توسط هوش مصنوعی و زبان واقعی انسان فاصله وجود دارد، اما از نظر دستور زبان و منطق، روز به روز شایسته تر می شود.

در زیر این آب آرام، جنگ خاموش بین خزیدن هوش مصنوعی و ضد خزیدن در حال شکل گیری است.

در محیط فعلی افکار عمومی، به نظر می رسد خزیدن داده های صفحه وب به یک تابو علیه جهان تبدیل شده است .

زمانی که هوش مصنوعی مولد هنوز محبوب نبود، Wordfreq یک دوره ماه عسل را نیز سپری کرد.

در گذشته، به طور کلی، تا زمانی که قوانین فایل robots.txt وب سایت رعایت می شد، خزیدن داده های عمومی منطقی به نظر می رسید. این یک توافق ضمنی بین وب سایت و خزنده است که برای راهنمایی به خزنده استفاده می شود که کدام محتوا را می توان خزید و کدام محتوا را نمی توان.

وقتی یک وب‌سایت یک توافق‌نامه محدودیت robots.txt تنظیم می‌کند، مانند قرار دادن یک علامت عدم تجاوز است. اگر خزنده قرارداد robots.txt را نقض کند یا از روشی استفاده کند که از فناوری ضد خزنده وب سایت برای به دست آوردن داده ها عبور کند، ممکن است رقابت ناعادلانه یا نقض حق نسخه برداری و سایر اعمال غیرقانونی باشد.

با این حال، با افزایش تقاضای مدل برای داده‌های با کیفیت بالا، نبرد بین خزیدن و ضد خزیدن شدیدتر می‌شود.

با نگاهی به گذشته، اختلافات بر سر داده های خزنده غول پیکر و ضد خزنده مولد هوش مصنوعی زیاد است. برجسته ترین آنها به طور طبیعی OpenAI و Google هستند.

سال گذشته، OpenAI ابزار خزنده وب GPTBot را راه اندازی کرد و ادعا کرد که برای خزیدن داده های صفحه وب برای آموزش مدل های هوش مصنوعی استفاده می شود. اما بدیهی است که هیچ رسانه ای نمی خواهد مخفیانه توسط خزنده ها برداشت شود.

رسانه‌هایی که از اهمیت داده‌ها و حق چاپ آگاه هستند، از منطق تجاری یعنی واگذاری پول در یک دست و داده‌ها از سوی دیگر پیروی می‌کنند.

مطالعه انجام شده توسط موسسه رویترز نشان می دهد که تا پایان سال 2023، تقریباً نیمی از وب سایت های خبری محبوب در 10 کشور در سراسر جهان، خزنده OpenAI (خزنده) را مسدود کرده اند، و نزدیک به یک چهارم وب سایت ها نیز Google را مسدود کرده اند خزنده نیز همین عمل را انجام می دهد.

همه باید با ماجرای بعدی آشنا باشند که رسانه های سنتی هر چند روز یک بار از OpenAI شکایت کردند و بدون استثناء یک دعوای حق چاپ بود. در این سال بود که OpenAI پر از دعوا با ناشران اخبار همکاری کرد.

با این حال، استراتژی های قبلی مانند دیوارهای بلند و هزینه های داده نیز Wordfreq را قربانی این «کمبود داده» کرد.

اسپیر اشاره می کند که از زمانی که توییتر و ردیت (سایتی که در Wordfreq گنجانده شده است) شروع به شارژ برای API های خود کرده اند، این کار خراش دادن وب را دشوارتر کرده است.

اسپیر نوشت: «اطلاعاتی که قبلا رایگان بود گران شده است. من نمی‌خواهم در هیچ کاری که می‌تواند با هوش مصنوعی مولد اشتباه گرفته شود یا از هوش مصنوعی مولد استفاده کند، شرکت کنم.»

حتی اگر بتوانید پول را با داده مبادله کنید، داده ها در نهایت تمام می شوند.

شرکت تحقیقاتی Epoch AI پیش‌بینی می‌کند که داده‌های متنی باکیفیت موجود در اینترنت ممکن است تا سال 2028 تمام شود. این پدیده در صنعت "دیوار داده" نامیده می‌شود و ممکن است به بزرگترین مانع برای کند کردن توسعه هوش مصنوعی تبدیل شود.

در نتیجه، بسیاری از تولیدکنندگان مدل های بزرگ توجه خود را به داده های مصنوعی معطوف کردند و بر استفاده از هوش مصنوعی برای آموزش هوش مصنوعی تمرکز کردند.

استفاده از هوش مصنوعی برای آموزش هوش مصنوعی ممکن است هر چه بیشتر آن را تمرین کنید، آن را "احمقانه" کند.

شهود من این است که متن در اینترنت مزخرف است و آموزش روی این داده ها اتلاف قدرت محاسباتی است.

زمانی که Llama 3.1-405B بسیاری از مدل‌های منبع باز بزرگ را با قدرت چرخش جدول خود در بر گرفت، توماس اسکیالوم، محقق هوش مصنوعی متا که سری Llama را رهبری می‌کند، در مصاحبه‌ای اظهارات فوق را بیان کرد.

به گفته وی، روند آموزش Llama 3 به هیچ پاسخ نوشته شده توسط انسان متکی نیست، بلکه کاملاً بر اساس داده های مصنوعی تولید شده توسط Llama 2 است.

اظهارات Scialom ممکن است بیش از حد خام باشد، اما حقیقتی در آن وجود دارد.

جریان ثابتی از داده ها هر روز در اینترنت در حال ظهور است، اما آموزش هوش مصنوعی همیشه یک سوال چند گزینه ای بوده است، اگر داده ها پر از خطا و نویز باشد، مدل به طور طبیعی این "نقص" و دقت پیش بینی را یاد خواهد گرفت. و طبقه بندی را می توان تصور کرد و دانست.

علاوه بر این، داده‌های با کیفیت پایین اغلب مملو از سوگیری هستند و نمی‌توانند به طور واقعی توزیع کلی داده را نشان دهند و باعث می‌شوند مدل پاسخ‌های مغرضانه تولید کند. آزولای مدیرکل یونسکو نیز هشدار داد:

ابزارهای جدید هوش مصنوعی این قدرت را دارند که ناآگاهانه دیدگاه میلیون‌ها نفر را تغییر دهند، بنابراین حتی حداقل تعصب جنسیتی در محتوای تولید شده می‌تواند نابرابری در دنیای واقعی را به میزان قابل توجهی تشدید کند.

با این حال، داده های مصنوعی ممکن است نوشدارویی برای حل مشکل «دیوار داده» نباشد.

اخیراً محققان آکسفورد و کمبریج دریافته‌اند که وقتی یک مدل از مجموعه داده‌های تولید شده توسط هوش مصنوعی استفاده می‌کند، کیفیت خروجی به تدریج کاهش می‌یابد و در نهایت محتوای بی‌معنی تولید می‌کند که معمولاً به عنوان فروپاشی مدل شناخته می‌شود.

ایلیا شومیلف، رهبر پژوهش، از تشبیه گرفتن عکس برای توصیف این فرآیند استفاده کرد:

اگر یک عکس بگیرید، آن را اسکن کنید، آن را چاپ کنید، از آن عکس بگیرید و سپس این روند را به مرور تکرار کنید، کل فرآیند اساساً توسط "نویز" غرق می شود. در پایان یک مربع تیره خواهید داشت.

زمانی که صفحات وب هرزنامه‌ای که توسط هوش مصنوعی تولید می‌شوند، بیشتر و بیشتر به اینترنت سرازیر می‌شوند، مواد خام برای آموزش مدل‌های هوش مصنوعی نیز آلوده می‌شوند.

به عنوان مثال، Stack Overflow، یک انجمن پرسش و پاسخ برای برنامه نویسان، عمیقاً تحت تأثیر هوش مصنوعی قرار گرفته است.

هنگامی که ChatGPT برای اولین بار محبوب شد، Stack Overflow یک "ممنوعیت موقت" را اعلام کرد. این مقام در بیانیه شکایت کرد.

از این گذشته، تعداد کاربران حرفه ای محدود است و نمی توان تمام پاسخ ها را تک تک تایید کرد و میزان خطای ChatGPT آشکار است. وقتی هوش مصنوعی محیط جامعه را آلوده می‌کند، انسان‌هایی که در آن زمان کاری ندارند فقط می‌توانند آن را ممنوع کنند.

در زمینه تصاویر، مدل‌های هوش مصنوعی تمایل دارند رایج‌ترین داده‌ها را بازتولید کنند و پس از تکرارهای زیاد، ممکن است در نهایت حتی چیز اصلی را فراموش کنند.

همه این‌ها به یک چرخه معیوب اشاره می‌کنند: هوش مصنوعی اطلاعاتی با کیفیت پایین یا حتی اشتباه تولید می‌کند که با داده‌های انسانی مخلوط می‌شود.

و اگر انسان‌ها متوجه شوند که ردپای داده‌های گذشته به غذای خود تبدیل خواهد شد، شاید در مورد هر کلمه‌ای که در اینترنت به جا می‌گذاریم محتاط‌تر باشیم.

# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).

Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo