57% از محتوای اینترنت را هوش مصنوعی تولید کرده است
پژوهش جدیدی که توسط محققان خدمات وب آمازون (AWS) انجام شده نشان میدهد ۵۷ درصد از محتوای فعلی اینترنت توسط هوش مصنوعی یا ترجمه ماشینی تولید شده است. محققان میگویند که یکی از بزرگترین قربانیان این موضوع، خود مدلهای هوش مصنوعی هستند که از دادههای موجود در اینترنت برای آموزش استفاده میکنند.
به گزارش Forbes، پژوهش انجام شده توسط محققان Amazon Web Service (AWS) نشان میدهد که بیش از نیم از محتوای اینترنت توسط انسانها تولید نشده است. در این بین سیستمهای ترجمه خودکار ماشینی که یک مطلب را از زبان مرجع (عمدتاً انگلیسی) به چند زبان دیگر ترجمه میکنند، یکی از مقصران اصلی این موضوع است:
ترجمههای ماشینی نه تنها بیشتر محتوای ترجمه شده در زبانهای کم طرفدارتر را تشکیل میدهد، بلکه در بسیاری مواقع سهم زیادی در تمام محتوای موجود در این زبانها را به خود اختصاص میدهد.
محققان همچنین میگویند که در انتخاب محتوا برای ترجمههای خودکار نیز سوگیری وجود دارد به گونهای که اغلب مطالب ترجمه شده به این روش کوتاه و قابل پیشبینی هستند و علاوهبر این، توزیع موضوعات انتخاب شده برای ترجمه ماشینی نیز با مطالب ترجمه شده توسط انسانها تفاوت اساسی دارد.
فروپاشی مدلهای هوش مصنوعی
نکته جالبتر آنکه با افزایش روزافزون محتوای تولید شده توسط هوش مصنوعی مولد و همچنین استفاده از هوش مصنوعی برای ویرایش و تغییر مطالب تولید شده توسط انسانها، میتواند به پدیدهای به نام فروپاشی مدل یا Model Collapse منجر شود. این موضوع همین حالا هم کاهش کیفیت خروجی مدلهای هوش مصنوعی را در پی داشته است.
فروپاشی مدل پدیدهی عجیبی است که طی آن آموزش مدلهای هوش مصنوعی روی دادههای تولید شده توسط هوش مصنوعی، به کاهش کیفیت یا حتی غیر قابل استفاده شدن خروجیهای تولید شده توسط مدلهای هوش مصنوعی مولد میانجامد.
این پدیده میتواند پر شدن اینترنت از محتوای هوش مصنوعی را به چالشی جدی برای مدلهای زبانی معروف مثل ChatGPT، Gemini و Claude تبدیل کند. چراکه این مدلها برای آموزش به حجم عظیم مطالب موجود در اینترنت متکی هستند و پر شدن فضای وب از محتوای غیر اصیل، میتواند به سرعت عملکرد مدلهای زبانی را مختل کند.
علامتگذاری محتوای تولید شده توسط هوش مصنوعی
پیش از این تلاشهایی برای آسانتر کردن محتوای تولید شد توسط هوش مصنوعی انجام گرفته بود که هدف اصلی آن حفاظت از مالکیت فکری و جلوگیری از استفادهی نا به جا این تولیدات هوش مصنوعی بوده است. نتایج این پژوهش میتواند دلیل تازهای برای مشخص کردن محتوای هوش مصنوعی در سطح وب باشد تا از بازیافت این اطلاعات برای آموزش مدلهای هوش مصنوعی جلوگیری شود.
در همین رابطه بخوانید:
– با این روش «مشق»های نوشته شده با ChatGPT قابل تشخیصاند؛ اما OpenAI علاقهای به انتشار آن ندارد
– حفاظت از مالکیت فکری در دنیای هوش مصنوعی: استارتاپ جدید منشا دادههای AI را آشکار میکند
نتایج پژوهش AWS را میتوانید در این لینک بخوانید.
نظر شما درباره این مشکل جدید چیست؟ آیا راه حلی برای جلوگیری از پر شدن اینترنت توسط محتوای کم کیفیت هوش مصنوعی سراغ دارید؟
منبع: https://www.shahrsakhtafzar.com/fa/news/52491-most-of-internete-content-is-ai-generated