چیزی که انسان ها بیشتر از همه از آن می ترسند اتفاق افتاده است.
من به طور تصادفی چند مقاله خبری را در اینترنت می خوانم، اما نمی توانم بگویم که آنها توسط هوش مصنوعی ساخته شده اند یا انسان، وقتی در اوقات فراغت خود بازی می کنم، نمی توانم تشخیص دهم که هم تیمی هایم انسان های هوش مصنوعی هستند یا افراد واقعی.
در اتاق پخش زنده، سلبریتی های دیجیتال به تنهایی پای مرغ را مکیدند و صحنه ای را ایجاد کردند که از دستیاران واقعی که فریاد می زدند جدا شد…
به گزارش رسانه های خارجی 404، پروژه Wordfreq که در ابتدا برای ردیابی و تحلیل محبوبیت و فراوانی استفاده از کلمات و واژگان مختلف در چندین زبان مورد استفاده قرار می گرفت، اکنون به آخرین قربانی تبدیل شده است.
جایی که خورشید می تابد، همیشه سایه ای در کمین است و واضح است که Wordfreq نه اولین قربانی است و نه آخرین قربانی.
به عبارت دیگر، ممکن است این خود انسان ها باشند که در نهایت هزینه آن را می پردازند.
GPT زبان را آلوده می کند و انسان ها باید هزینه آن را بپردازند
هوش مصنوعی مولد دادهها را آلوده کرده است و فکر نمیکنم کسی اطلاعات موثقی در مورد استفاده از زبان انسان پس از سال 2021 داشته باشد.
این فریاد از دل رابین اسپیر، بنیانگذار پروژه Wordfreq، اندکی عجز و رنجش را آشکار می کند.
برای کشف دلیل این امر، باید با منشا Wordfreq شروع کنیم.
Wordfreq با تجزیه و تحلیل محتوای ویکیپدیا، زیرنویسهای فیلم و تلویزیون، گزارشهای خبری و وبسایتهایی مانند Reddit، تلاش میکند تا تکامل بیش از ۴۰ زبان را ردیابی کند و سپس تغییر عادات زبانی را با تغییر فرهنگ عامیانه و پاپ مطالعه کند.
Wordfreq گنجینه ای برای زبان شناسان، نویسندگان و مترجمان است. اما اکنون، یک بیانیه عظیم در آدرس GitHub "این پروژه دیگر به روز نخواهد شد" متاسفانه ناقوس مرگ این پروژه را به صدا درآورده است.
در گذشته، جمعآوری دادههای عمومی از وب، رگ حیاتی منبع داده پروژه بود، اما ظهور هوش مصنوعی مولد، متن هوش مصنوعی را محبوب کرده است.
Spear یک مثال معمولی ارائه کرد در گذشته، مردم به ندرت از کلمه "delve" استفاده می کردند تجزیه و تحلیل دقیق عادات زبانی انسان
اگر این به اندازه کافی شهودی نیست، تکثیر کلیشههایی مانند «خلاصه» و «خلاصه کردن» برجستهترین هشدارها هستند.
این روند به تدریج در حال نفوذ به نویسندگی دانشگاهی و حتی آفرینش ادبی است.
گزارشی از دانشگاه استنفورد اشاره کرد که ChatGPT تنها در پنج ماه به یک "مصنوع نوشتاری" برای بسیاری از کارشناسان و محققان تبدیل شده است. از جمله در رشته علوم کامپیوتر تقریباً هر شش چکیده و هر هفت مقدمه توسط ایشان نوشته می شود.
آنچه در ادامه میآید «هجوم گسترده» به سبک نوشتاری انسان توسط هوش مصنوعی مولد است.
نتایج تحقیقات گنگ مینگ منگ، دانشجوی دکترا در مؤسسه مطالعات پیشرفته بینالمللی ایتالیا، مانند یک آینه است که ترجیحات کلمات ChatGPT را بیشتر منعکس میکند و تأثیر آن را در نوشتن مقاله دانشگاهی کاملاً تأیید میکند.
پس از تجزیه و تحلیل چکیده های بیش از یک میلیون مقاله در arXiv، گنگ مینگ منگ دریافت که فراوانی کلمات مقالات پس از محبوبیت ChatGPT به طور قابل توجهی تغییر کرده است. در این میان، فراوانی استفاده از کلماتی مانند «معنی دار» افزایش چشمگیری داشته، در حالی که فراوانی استفاده از واژه هایی مانند «است» و «هستند» حدود 10 درصد کاهش یافته است.
در بیشتر موارد، هوش مصنوعی مولد میتواند یک فرد با امتیاز خلاقیت 60 را به نمره 70 یا بالاتر تبدیل کند، اما در خلق متن، اگرچه خلاقیت شخصی و کیفیت نوشتن بهبود یافته است، خلاقیت جمعی را بهطور نامرئی کاهش داده است .
دو نفر از دانشگاهیان دانشگاه UCL و دانشگاه اکستر مطالعهای را در Science منتشر کردند که در آن 500 شرکتکننده به استفاده از هوش مصنوعی برای نوشتن حدود 8 خط داستان در مورد موضوعات تصادفی و تجزیه و تحلیل مخاطبان هدف گماشته شدند.
نتایج نشان داد که داستانها با الهام از هوش مصنوعی «خلاقانهتر» شدند، اما داستانهای تولید شده توسط این هوش مصنوعیها نیز به طرز شگفتآوری شبیه به یکدیگر بودند.
بنابراین، وقتی متن هوش مصنوعی مولد مانند یک آلاینده فراگیر، برای Wordfreq و انسان به اینترنت سرازیر میشود، فواید آن بسیار بیشتر از مضرات آن است.
جنگ ضد خزنده آغاز می شود، Wordfreq رنج می برد
خاتمه پروژه Wordfreq را می توان قربانی گرفتار شدن در جنگ خزنده غول پیکر دانست.
توسعه هوش مصنوعی از پشتیبانی الگوریتم ها، قدرت محاسباتی و داده جدایی ناپذیر است. اگرچه هنوز بین متن تولید شده توسط هوش مصنوعی و زبان واقعی انسان فاصله وجود دارد، اما از نظر دستور زبان و منطق، روز به روز شایسته تر می شود.
در زیر این آب آرام، جنگ خاموش بین خزیدن هوش مصنوعی و ضد خزیدن در حال شکل گیری است.
در محیط فعلی افکار عمومی، به نظر می رسد خزیدن داده های صفحه وب به یک تابو علیه جهان تبدیل شده است .
زمانی که هوش مصنوعی مولد هنوز محبوب نبود، Wordfreq یک دوره ماه عسل را نیز سپری کرد.
در گذشته، به طور کلی، تا زمانی که قوانین فایل robots.txt وب سایت رعایت می شد، خزیدن داده های عمومی منطقی به نظر می رسید. این یک توافق ضمنی بین وب سایت و خزنده است که برای راهنمایی به خزنده استفاده می شود که کدام محتوا را می توان خزید و کدام محتوا را نمی توان.
وقتی یک وبسایت یک توافقنامه محدودیت robots.txt تنظیم میکند، مانند قرار دادن یک علامت عدم تجاوز است. اگر خزنده قرارداد robots.txt را نقض کند یا از روشی استفاده کند که از فناوری ضد خزنده وب سایت برای به دست آوردن داده ها عبور کند، ممکن است رقابت ناعادلانه یا نقض حق نسخه برداری و سایر اعمال غیرقانونی باشد.
با این حال، با افزایش تقاضای مدل برای دادههای با کیفیت بالا، نبرد بین خزیدن و ضد خزیدن شدیدتر میشود.
با نگاهی به گذشته، اختلافات بر سر داده های خزنده غول پیکر و ضد خزنده مولد هوش مصنوعی زیاد است. برجسته ترین آنها به طور طبیعی OpenAI و Google هستند.
سال گذشته، OpenAI ابزار خزنده وب GPTBot را راه اندازی کرد و ادعا کرد که برای خزیدن داده های صفحه وب برای آموزش مدل های هوش مصنوعی استفاده می شود. اما بدیهی است که هیچ رسانه ای نمی خواهد مخفیانه توسط خزنده ها برداشت شود.
رسانههایی که از اهمیت دادهها و حق چاپ آگاه هستند، از منطق تجاری یعنی واگذاری پول در یک دست و دادهها از سوی دیگر پیروی میکنند.
مطالعه انجام شده توسط موسسه رویترز نشان می دهد که تا پایان سال 2023، تقریباً نیمی از وب سایت های خبری محبوب در 10 کشور در سراسر جهان، خزنده OpenAI (خزنده) را مسدود کرده اند، و نزدیک به یک چهارم وب سایت ها نیز Google را مسدود کرده اند خزنده نیز همین عمل را انجام می دهد.
همه باید با ماجرای بعدی آشنا باشند که رسانه های سنتی هر چند روز یک بار از OpenAI شکایت کردند و بدون استثناء یک دعوای حق چاپ بود. در این سال بود که OpenAI پر از دعوا با ناشران اخبار همکاری کرد.
با این حال، استراتژی های قبلی مانند دیوارهای بلند و هزینه های داده نیز Wordfreq را قربانی این «کمبود داده» کرد.
اسپیر اشاره می کند که از زمانی که توییتر و ردیت (سایتی که در Wordfreq گنجانده شده است) شروع به شارژ برای API های خود کرده اند، این کار خراش دادن وب را دشوارتر کرده است.
اسپیر نوشت: «اطلاعاتی که قبلا رایگان بود گران شده است. من نمیخواهم در هیچ کاری که میتواند با هوش مصنوعی مولد اشتباه گرفته شود یا از هوش مصنوعی مولد استفاده کند، شرکت کنم.»
حتی اگر بتوانید پول را با داده مبادله کنید، داده ها در نهایت تمام می شوند.
شرکت تحقیقاتی Epoch AI پیشبینی میکند که دادههای متنی باکیفیت موجود در اینترنت ممکن است تا سال 2028 تمام شود. این پدیده در صنعت "دیوار داده" نامیده میشود و ممکن است به بزرگترین مانع برای کند کردن توسعه هوش مصنوعی تبدیل شود.
در نتیجه، بسیاری از تولیدکنندگان مدل های بزرگ توجه خود را به داده های مصنوعی معطوف کردند و بر استفاده از هوش مصنوعی برای آموزش هوش مصنوعی تمرکز کردند.
استفاده از هوش مصنوعی برای آموزش هوش مصنوعی ممکن است هر چه بیشتر آن را تمرین کنید، آن را "احمقانه" کند.
شهود من این است که متن در اینترنت مزخرف است و آموزش روی این داده ها اتلاف قدرت محاسباتی است.
زمانی که Llama 3.1-405B بسیاری از مدلهای منبع باز بزرگ را با قدرت چرخش جدول خود در بر گرفت، توماس اسکیالوم، محقق هوش مصنوعی متا که سری Llama را رهبری میکند، در مصاحبهای اظهارات فوق را بیان کرد.
به گفته وی، روند آموزش Llama 3 به هیچ پاسخ نوشته شده توسط انسان متکی نیست، بلکه کاملاً بر اساس داده های مصنوعی تولید شده توسط Llama 2 است.
اظهارات Scialom ممکن است بیش از حد خام باشد، اما حقیقتی در آن وجود دارد.
جریان ثابتی از داده ها هر روز در اینترنت در حال ظهور است، اما آموزش هوش مصنوعی همیشه یک سوال چند گزینه ای بوده است، اگر داده ها پر از خطا و نویز باشد، مدل به طور طبیعی این "نقص" و دقت پیش بینی را یاد خواهد گرفت. و طبقه بندی را می توان تصور کرد و دانست.
علاوه بر این، دادههای با کیفیت پایین اغلب مملو از سوگیری هستند و نمیتوانند به طور واقعی توزیع کلی داده را نشان دهند و باعث میشوند مدل پاسخهای مغرضانه تولید کند. آزولای مدیرکل یونسکو نیز هشدار داد:
ابزارهای جدید هوش مصنوعی این قدرت را دارند که ناآگاهانه دیدگاه میلیونها نفر را تغییر دهند، بنابراین حتی حداقل تعصب جنسیتی در محتوای تولید شده میتواند نابرابری در دنیای واقعی را به میزان قابل توجهی تشدید کند.
با این حال، داده های مصنوعی ممکن است نوشدارویی برای حل مشکل «دیوار داده» نباشد.
اخیراً محققان آکسفورد و کمبریج دریافتهاند که وقتی یک مدل از مجموعه دادههای تولید شده توسط هوش مصنوعی استفاده میکند، کیفیت خروجی به تدریج کاهش مییابد و در نهایت محتوای بیمعنی تولید میکند که معمولاً به عنوان فروپاشی مدل شناخته میشود.
ایلیا شومیلف، رهبر پژوهش، از تشبیه گرفتن عکس برای توصیف این فرآیند استفاده کرد:
اگر یک عکس بگیرید، آن را اسکن کنید، آن را چاپ کنید، از آن عکس بگیرید و سپس این روند را به مرور تکرار کنید، کل فرآیند اساساً توسط "نویز" غرق می شود. در پایان یک مربع تیره خواهید داشت.
زمانی که صفحات وب هرزنامهای که توسط هوش مصنوعی تولید میشوند، بیشتر و بیشتر به اینترنت سرازیر میشوند، مواد خام برای آموزش مدلهای هوش مصنوعی نیز آلوده میشوند.
به عنوان مثال، Stack Overflow، یک انجمن پرسش و پاسخ برای برنامه نویسان، عمیقاً تحت تأثیر هوش مصنوعی قرار گرفته است.
هنگامی که ChatGPT برای اولین بار محبوب شد، Stack Overflow یک "ممنوعیت موقت" را اعلام کرد. این مقام در بیانیه شکایت کرد.
از این گذشته، تعداد کاربران حرفه ای محدود است و نمی توان تمام پاسخ ها را تک تک تایید کرد و میزان خطای ChatGPT آشکار است. وقتی هوش مصنوعی محیط جامعه را آلوده میکند، انسانهایی که در آن زمان کاری ندارند فقط میتوانند آن را ممنوع کنند.
در زمینه تصاویر، مدلهای هوش مصنوعی تمایل دارند رایجترین دادهها را بازتولید کنند و پس از تکرارهای زیاد، ممکن است در نهایت حتی چیز اصلی را فراموش کنند.
همه اینها به یک چرخه معیوب اشاره میکنند: هوش مصنوعی اطلاعاتی با کیفیت پایین یا حتی اشتباه تولید میکند که با دادههای انسانی مخلوط میشود.
و اگر انسانها متوجه شوند که ردپای دادههای گذشته به غذای خود تبدیل خواهد شد، شاید در مورد هر کلمهای که در اینترنت به جا میگذاریم محتاطتر باشیم.
# خوش آمدید به دنبال حساب عمومی رسمی وی چت Aifaner: Aifaner (شناسه WeChat: ifanr در اسرع وقت در اختیار شما قرار خواهد گرفت).
Ai Faner |. لینک اصلی · مشاهده نظرات · Sina Weibo