
گوگل تایید کرد: محتوای تولید شده توسط هوش مصنوعی باید توسط انسان بازبینی شود!
گری ایلیس (Gary Illyes) از گوگل تایید کرده است که استفاده از محتوای تولید شده با هوش مصنوعی تا زمانی که کیفیت بالایی داشته باشد، مشکلی ندارد. او اظهار داشت که عبارت «ایجاد شده توسط انسان» توصیف دقیقی برای سیاست محتوایی آنها در قبال هوش مصنوعی نیست و عبارت دقیقتر «نظارت شده توسط انسان» است.
این پرسشها توسط کنیچی سوزوکی در مصاحبهای اختصاصی با ایلیس مطرح شد.
مدلهای هوش مصنوعی برای AI Overviews و AI Mode
کنیچی درباره مدلهای هوش مصنوعی مورد استفاده در AI Overviews (نمای کلی هوش مصنوعی) و AI Mode (حالت هوش مصنوعی) پرسید و ایلیس پاسخ داد که آنها مدلهای سفارشیسازی شده Gemini هستند.
ایلیس پاسخ داد:
«همانطور که اشاره کردید، مدلی که ما برای AIO (برای AI Overviews) و برای حالت هوش مصنوعی استفاده میکنیم، یک مدل سفارشی Gemini است و این ممکن است به این معنا باشد که به طور متفاوتی آموزش دیده است. من جزئیات دقیق نحوه آموزش آن را نمیدانم، اما قطعاً یک مدل سفارشی است.»
سپس کنیچی پرسید که آیا AI Overviews (AIO) و AI Mode از ایندکسهای جداگانهای برای «پایهگذاری» (Grounding) استفاده میکنند.
پایهگذاری فرآیندی است که در آن یک مدل زبان بزرگ (LLM) پاسخهای خود را به یک پایگاه داده یا یک ایندکس جستجو متصل میکند تا پاسخها قابل اعتمادتر، واقعیتر و مبتنی بر حقایق قابل تایید باشند و به کاهش توهمات (Hallucinations) کمک کند. در زمینه AIO و AI Mode، پایهگذاری عموماً با دادههای مبتنی بر وب از ایندکس گوگل انجام میشود.
سوزوکی پرسید:
«بنابراین، آیا این بدان معناست که AI Overviews و AI Mode از ایندکسهای جداگانهای برای پایهگذاری استفاده میکنند؟»
گری ایلیس از گوگل پاسخ داد:
«تا جایی که من میدانم، Gemini، AI Overview و AI Mode همگی از جستجوی گوگل برای پایهگذاری استفاده میکنند. اساساً آنها چندین کوئری به جستجوی گوگل ارسال میکنند و سپس جستجوی گوگل نتایج مربوط به آن کوئریهای خاص را برمیگرداند.»
کنیچی در تلاش بود تا پاسخی در مورد خزندهی Google Extended دریافت کند و پاسخ ایلیس توضیح این بود که خزندهی Google Extended چه زمانی وارد عمل میشود.
«پس آیا این بدان معناست که دادههای آموزشی مورد استفاده AIO و AI Mode توسط گوگل معمولی جمعآوری میشوند و نه Google Extended؟»
و ایلیس پاسخ داد:
«باید به یاد داشته باشید که وقتی پایهگذاری اتفاق میافتد، هیچ هوش مصنوعی درگیر نیست. بنابراین اساساً این فرآیند تولید محتوا است که تحت تأثیر Google Extended قرار میگیرد. اما اگر شما Google Extended را غیرفعال کنید، Gemini دیگر برای سایت شما پایهگذاری نخواهد کرد.»
محتوای هوش مصنوعی در مدلهای زبان بزرگ (LLMs) و ایندکس جستجو
سوال بعدی که ایلیس به آن پاسخ داد این بود که آیا محتوای هوش مصنوعی منتشر شده به صورت آنلاین، مدلهای زبان بزرگ را آلوده میکند. ایلیس گفت که این یک مشکل برای ایندکس جستجو نیست، اما ممکن است برای LLMها یک مسئله باشد.
سوال کنیچی:
«با توجه به اینکه محتوای بیشتری توسط هوش مصنوعی ایجاد میشود و LLMها از آن محتوا یاد میگیرند، نظر شما در مورد این روند و معایب بالقوه آن چیست؟»
ایلیس پاسخ داد:
«من نگران ایندکس جستجو نیستم، اما فرآیند آموزش مدل قطعاً باید راهی برای حذف محتوایی که توسط هوش مصنوعی تولید شده، پیدا کند. در غیر این صورت، شما در یک حلقه آموزشی قرار میگیرید که واقعاً برای آموزش خوب نیست. مطمئن نیستم که این در حال حاضر چقدر مشکلساز است، یا شاید به دلیل نحوه انتخاب اسنادی است که ما بر اساس آنها آموزش میدهیم.»
کیفیت محتوا و محتوای تولید شده با هوش مصنوعی
سوزوکی سپس با سوالی در مورد کیفیت محتوا و هوش مصنوعی بحث را ادامه داد.
او پرسید:
«بنابراین برای شما مهم نیست که محتوا چگونه ایجاد میشود… تا زمانی که کیفیت آن بالا باشد؟»
ایلیس تایید کرد که یکی از ملاحظات اصلی برای دادههای آموزشی LLM، کیفیت محتوا است، صرف نظر از اینکه چگونه تولید شده است. او به طور خاص به صحت واقعی محتوا به عنوان یک عامل مهم اشاره کرد. عامل دیگری که او ذکر کرد این است که شباهت محتوا مشکلساز است و گفت محتوای «بسیار» مشابه نباید در ایندکس جستجو وجود داشته باشد.
او همچنین گفت که گوگل اساساً اهمیتی نمیدهد که محتوا چگونه ایجاد شده است، اما با چند تبصره:
«مطمئناً، اما اگر بتوانید کیفیت و صحت محتوا را حفظ کنید و اطمینان حاصل کنید که کیفیت بالایی دارد، آنگاه از نظر فنی واقعاً مهم نیست.
مشکل زمانی به وجود میآید که محتوا یا بسیار شبیه به چیزی باشد که قبلاً ایجاد شده است، که امیدواریم به هر حال آن را برای آموزش در ایندکس خود نداشته باشیم.
و مشکل دوم زمانی است که شما بر روی دادههای نادرست آموزش میبینید و این احتمالاً خطرناکترین مورد است زیرا در این صورت شروع به وارد کردن سوگیریها و دادههای خلاف واقع در مدلهای خود میکنید.
تا زمانی که کیفیت محتوا بالا باشد، که امروزه معمولاً مستلزم بازبینی محتوای تولید شده توسط انسان است، برای آموزش مدل مشکلی ندارد.»
محتوای تولید شده با هوش مصنوعی و بازبینی شده توسط انسان
ایلیس پاسخ خود را با تمرکز بر محتوای تولید شده با هوش مصنوعی که توسط یک انسان بازبینی میشود، ادامه داد. او بر بازبینی انسانی نه به عنوان چیزی که ناشران باید در محتوای خود به آن اشاره کنند، بلکه به عنوان کاری که ناشران باید قبل از انتشار محتوا انجام دهند، تاکید میکند.
تکرار میشود، «بازبینی شده توسط انسان» به معنای افزودن عبارتی در صفحه وب مبنی بر بازبینی محتوا توسط انسان نیست؛ این یک سیگنال قابل اعتماد نیست و این چیزی نیست که او پیشنهاد کرده است.
این چیزی است که ایلیس گفت:
«فکر نمیکنم به این زودیها راهنمایی خود را در مورد اینکه آیا نیاز به بازبینی آن دارید یا نه، تغییر دهیم.
بنابراین اساساً وقتی میگوییم انسانی است، فکر میکنم کلمه ایجاد شده توسط انسان اشتباه است. اساساً باید بگوییم نظارت شده توسط انسان. یعنی کسی بر محتوای خود نظارت ویراستاری داشته و تایید کرده که واقعاً صحیح و دقیق است.»
نکات کلیدی
سیاست گوگل، همانطور که توسط گری ایلیس به طور خلاصه بیان شد، این است که محتوای تولید شده توسط هوش مصنوعی برای جستجو و آموزش مدل در صورتی که از نظر واقعی دقیق، اصلی و توسط انسان بازبینی شده باشد، مشکلی ندارد. این بدان معناست که ناشران باید نظارت ویراستاری را برای تایید صحت واقعی محتوا و اطمینان از اینکه «بسیار» شبیه به محتوای موجود نیست، اعمال کنند.
منبع:+
فایل ویدیو :



