Дослідження The New York Times вказало на критичну проблему у ШІ-відповідях: алгоритм Gemini 3 видає неправдиву інформацію у 9% випадків. Попри технологічне оновлення, система продовжує генерувати мільйони фейків щодня.
Про це пише РБК-Україна з посиланням на дослідження.
Для оцінки точності в експерименті використали бенчмарк SimpleQA від OpenAI - перелік із 4000 запитань із верифікованими відповідями. Дослідження показало, що точність зросла з 85% у Gemini 2.5 до 91% у Gemini 3. Проте, якщо екстраполювати цей відсоток помилок на всі пошукові запити, Google видає десятки мільйонів некоректних відповідей на день.
Звіт наводить приклади провалів алгоритму:
Техгігант різко розкритикував результати аналізу. Речник Google Нед Адріанс заявив: "У цьому дослідженні є серйозні дірки. Воно не відображає те, що люди насправді шукають у Google".
У компанії вважають, що сам тест SimpleQA містить некоректну інформацію.
Також з'ясувалося, що техногігант використовує різні моделі залежно від запиту користувача. Щоб результати завантажувалися швидше, система найчастіше використовує модель Gemini Flash, яка є дешевшою та швидшою, проте менш точною за Gemini 3.1 Pro.
Ключова проблема, на думку Google, полягає у тому, що AI Overviews заохочує людей приймати короткі резюме замість перевірки першоджерел за "синіми посиланнями". Сама ж компанія додає дисклеймер: "ШІ може припускатися помилок, тому перевіряйте відповіді".
Розробники уточнили, що переглянути налаштування конфіденційності та пошуку у своєму браузері можна у меню "Налаштування".