Обережно, підробка! Як розпізнати голос, створений за допомогою штучного інтелекту
В останні роки технології штучного інтелекту дозволили клонувати чужий голос "людини", яка може говорити все, що завгодно. Це одночасно захоплююче, смішно та страшно.
Як розпізнати мову, згенеровану штучним інтелектом, розповідає РБК-Україна (проект Styler) з посиланням на провідний у світі сайт з технологій та життєвих порад Lifehacker.
Технологія штучного голосового інтелекту може бути використана на благо: наприклад, функція Personal Voice від Apple дозволяє створити версію вашого власного голосу, яку можна використовувати для перетворення тексту в мову, призначену для людей, які втрачають здатність говорити самостійно.
Звісно, є й інший бік медалі: потенційна можливість поширення дезінформації. Коли сучасні технології дозволяють занадто легко змусити будь-кого говорити що завгодно, як можна довіряти тому, що ви слухаєте онлайн?
Як працюють генератори голосу на основі штучного інтелекту
Як і інші моделі ШІ, такі як текстові та візуальні моделі, генератори голосового ШІ засновані на моделях, навчених на величезних наборах даних. У цьому випадку моделі навчаються на зразках мовлення інших людей.
Наприклад, модель Whisper від OpenAI була навчена на 680 000 годин даних. Саме так вона вчиться не лише відтворювати самі слова, а й інші елементи мови, такі як тон та темп.
З розвитком технологій стає все важче відразу розпізнати підробку. Але є деякі помітні чудасії та недоліки, які притаманні більшості голосових ШІ, що робить їх виявлення вирішальним для визначення того, чи є запис реальним або підробленим.
Прислухайтеся до дивної вимови та темпу
Моделі ШІ досить добре імітують звучання людського голосу, настільки, що іноді важко відрізнити. Однак вони все ще зазнають труднощів із відтворенням того, як ми говоримо.
Якщо сумніваєтеся, уважно прислухайтеся до інтонацій у "голосі" того, хто говорить: ШІ-бот може час від часу неправильно вимовляти слово так, як це не роблять більшість людей. Так, люди часто неправильно вимовляють слова, але слідкуйте за помилками, які можуть більше видавати штучний інтелект.
Темп промови також може бути порушений. Хоча ШІ стає кращим в імітації нормального темпу мови, він також робить дивні паузи між словами або проскакує через інші неприродним чином.
Модель ШІ може пропустити пробіл між двома пропозиціями, що відразу видасть її (навіть людина, яка не може зупинитися, не звучить так роботизовано).
З іншого боку, може знадобитися занадто багато часу, щоб перейти до наступного слова або пропозиції. Хоча ШІ стає краще в імітації природних пауз і дихання (деякі програми тепер вставляють "вдихи" перед промовою), ви також почуєте дивні паузи між словами, ніби бот думає, що так кажуть люди.
Мінімум емоцій та варіацій у голосі
Крім того, голосові ШІ часто звучать дещо плоско. Не те щоб багато хто не став переконливим, але якщо прислухатися, то можна помітити меншу варіативність тону, ніж можна очікувати від більшості людей.
Забавно, що ці моделі можуть так точно відтворювати звук чийогось голосу, але часто промахуються, коли справа доходить до імітації ритмів та емоцій того, хто говорить.
Знову ж таки, тут все швидко розвивається. Такі компанії, як OpenAI, навчають свої моделі бути більш виразними та реактивними у своїх голосових виходах.
Розширений голосовий режим GPT-4o, ймовірно, є найближчим, чого досягла компанія у створенні всебічно переконливого голосового ШІ, особливо здатного вести реальні "розмови".
Знаменитість чи політик каже щось безглузде чи провокаційне
Виявлення голосових ШІ - це не просто виявлення недоліків у вихідних даних, особливо коли йдеться про записи "знаменитостей".
Коли йдеться про штучно створену мову людей, які мають владу та вплив, ці записи, швидше за все, будуть одним із двох типів: дурними чи провокаційними.
Можливо, хтось в Інтернеті хоче зробити відео, на якому знаменитість каже щось смішне, чи поганий актор хоче переконати вас, що політик сказав щось, що вас розлютило.
Наприклад, більшість людей, які зіткнулися з відео, на якому Трамп, Байден та Обама разом грають у відеоігри, насправді не повірять, що це реально: це очевидний жарт.
Але неважко уявити, як хтось намагається втрутитися у вибори, створюючи фальшивий запис політичного кандидата, відтворюючи його на відео та завантажуючи на TikTok чи Instagram.
Частина рішення тут полягає в тому, щоб подивитися на джерело аудіозапису: хто його опублікував? Це було якесь авторитетне медіа чи просто якийсь випадковий обліковий запис у Instagram?
Якщо цей запис є реальним, кілька медіа, ймовірно, швидко підхоплять його. Якщо впливова людина ділиться чимось, що відповідає її точці зору, не надаючи належного джерела, зробіть паузу і замисліться.
Ви можете спробувати детектор голосового ШІ (але врахуйте обмеження)
Існують інструменти, які рекламують себе як "детектори голосового ШІ", здатні визначити, був аудіозапис згенерований з використанням машинного навчання чи ні.
PlayHT має такий детектор, а ElevenLabs має той, який спеціально призначений для пошуку аудіо, згенерованого за допомогою власних інструментів компанії.
Однак, як і у випадку з усіма детекторами медіа ШІ, до цих інструментів слід ставитись з обережністю. Детектори аудіо штучного інтелекту використовують його для пошуку ознак генеративного аудіоконтента, таких як відсутність частот, відсутність дихання та роботизований тембр.
Але ці моделі ШІ будуть ефективні тільки при ідентифікації того, що вони знають: якщо вони зіткнуться з аудіо зі змінними, на яких вони не були навчені, наприклад, з низькою якістю звуку або надмірним шумом фону, це може збити їх з пантелику.
Нагадаємо, що Instagram дозволить користувачам створювати версії себе за допомогою штучного інтелекту.
А ще ми писали про те, які міфи та помилки про штучний інтелект існують і чому в них не треба вірити.