قیمت خرید فروش | فروشگاه دی نت
0 محصولات نمایش سبد خرید

هیچ محصولی در سبد خرید نیست.

57% از محتوای اینترنت را هوش مصنوعی تولید کرده است

ترجمه ماشینی دارای سوگیری است

پژوهش جدیدی که توسط محققان خدمات وب آمازون (AWS) انجام شده نشان می‌دهد ۵۷ درصد از محتوای فعلی اینترنت توسط هوش مصنوعی یا ترجمه ماشینی تولید شده است. محققان می‌گویند که یکی از بزرگ‌ترین قربانیان این موضوع، خود مدل‌های هوش مصنوعی هستند که از داده‌های موجود در اینترنت برای آموزش استفاده می‌کنند.

به گزارش Forbes، پژوهش انجام شده توسط محققان Amazon Web Service (AWS) نشان می‌دهد که بیش از نیم از محتوای اینترنت توسط انسان‌ها تولید نشده است. در این بین سیستم‌های ترجمه خودکار ماشینی که یک مطلب را از زبان مرجع (عمدتاً انگلیسی) به چند زبان دیگر ترجمه می‌کنند، یکی از مقصران اصلی این موضوع است:

ترجمه‌های ماشینی نه تنها بیشتر محتوای ترجمه شده در زبان‌های کم طرفدارتر را تشکیل می‌دهد، بلکه در بسیاری مواقع سهم زیادی در تمام محتوای موجود در این زبان‌ها را به خود اختصاص می‌دهد.

محققان همچنین می‌گویند که در انتخاب محتوا برای ترجمه‌های خودکار نیز سوگیری وجود دارد به گونه‌ای که اغلب مطالب ترجمه شده به این روش کوتاه و قابل پیش‌بینی هستند و علاوه‌بر این، توزیع موضوعات انتخاب شده برای ترجمه ماشینی نیز با مطالب ترجمه شده توسط انسان‌ها تفاوت اساسی دارد.

ترجمه ماشینی دارای سوگیری است

فروپاشی مدل‌های هوش مصنوعی

نکته جالب‌‌تر آنکه با افزایش روزافزون محتوای تولید شده توسط هوش مصنوعی مولد و همچنین استفاده از هوش مصنوعی برای ویرایش و تغییر مطالب تولید شده توسط انسان‌ها، می‌تواند به پدیده‌ای به نام فروپاشی مدل یا Model Collapse منجر شود. این موضوع همین حالا هم کاهش کیفیت خروجی مدل‌های هوش مصنوعی را در پی داشته است.

فروپاشی مدل یا model collapse

فروپاشی مدل پدیده‌ی عجیبی است که طی آن آموزش مدل‌های هوش مصنوعی روی داده‌های تولید شده توسط هوش مصنوعی، به کاهش کیفیت یا حتی غیر قابل استفاده شدن خروجی‌های تولید شده توسط مدل‌های هوش مصنوعی مولد می‌انجامد.

این پدیده می‌تواند پر شدن اینترنت از محتوای هوش مصنوعی را به چالشی جدی برای مدل‌های زبانی معروف مثل ChatGPT، Gemini و Claude تبدیل کند. چراکه این مدل‌ها برای آموزش به حجم عظیم مطالب موجود در اینترنت متکی هستند و پر شدن فضای وب از محتوای غیر اصیل، می‌تواند به سرعت عملکرد مدل‌های زبانی را مختل کند.

علامت‌گذاری محتوای تولید شده توسط هوش مصنوعی

پیش از این تلاش‌هایی برای آسان‌تر کردن محتوای تولید شد توسط هوش مصنوعی انجام گرفته بود که هدف اصلی‌ آن حفاظت از مالکیت فکری و جلوگیری از استفاده‌ی نا به جا این تولیدات هوش مصنوعی بوده است. نتایج این پژوهش می‌تواند دلیل تازه‌ای برای مشخص کردن محتوای هوش مصنوعی در سطح وب باشد تا از بازیافت این اطلاعات برای آموزش مدل‌های هوش مصنوعی جلوگیری شود.

در همین رابطه بخوانید:

– با این روش «مشق»های نوشته شده با ChatGPT قابل تشخیص‌اند؛ اما OpenAI علاقه‌ای به انتشار آن ندارد

– حفاظت از مالکیت فکری در دنیای هوش مصنوعی: استارتاپ جدید منشا داده‌های AI را آشکار می‌کند

نتایج پژوهش AWS را می‌توانید در این لینک بخوانید.

نظر شما درباره این مشکل جدید چیست؟ آیا راه حلی برای جلوگیری از پر شدن اینترنت توسط محتوای کم کیفیت هوش مصنوعی سراغ دارید؟

منبع: https://www.shahrsakhtafzar.com/fa/news/52491-most-of-internete-content-is-ai-generated

0