Виявляння вмісту, створеного штучним інтелектом
Програмне забезпечення для виявлення штучного інтелекту має на меті визначити, чи був певний контент (текст, зображення, відео чи аудіо) створений за допомогою штучного інтелекту (ШІ). Однак надійність такого програмного забезпечення є предметом дискусій[1], і існують занепокоєння щодо можливого неправильного застосування освітянами програмного забезпечення для виявлення ШІ. Проблеми з точністюЧисленні інструменти виявлення ШІ продемонстрували власну ненадійність у питанні точного та всебічного виявлення тексту, згенерованого ШІ. У дослідженні, проведеному Вебером-Вульфом та ін. і опублікованому в 2023 році, дослідники оцінили 14 інструментів виявлення, включаючи Turnitin і GPT Zero, і виявили, що «всі вони показали точність нижче 80 % і лише 5 — понад 70 %»[2]. Виявлення текстуДля тексту це зазвичай робиться, для запобігання ймовірному плагіату, часто шляхом виявлення повторів слів як ознак того, що текст створено штучним інтелектом (включаючи галюцинації штучного інтелекту). Вони часто використовуються вчителями, які виставляють оцінки своїм учням. Після випуску ChatGPT та подібного програмного забезпечення для створення тексту за допомогою ШІ багато навчальних закладів випустили політику щодо використання ШІ студентами[3]. Програмне забезпечення для визначення тексту створеного ШІ також використовується тими, хто оцінює кандидатів на роботу, а також онлайн пошуковими системами[4]. Поточні детектори часом можуть бути ненадійними і неправильно позначати роботу, створену людиною, як створену ШІ[5][6][7], а в інших випадках не виявляти роботу, створену штучним інтелектом[8]. У MIT Technology Review повідомили, що технологія «мала труднощі з виявленням тексту, згенерованого ChatGPT, щоб був дещо змінений людьми та заплутаний інструментом перефразування»[9]. Програмне забезпечення для виявлення тексту штучним інтелектом також проявило дискримінацію стосовно людей, для яких англійська мова не є рідною[4]. Двоє студентів Каліфорнійського університету в Девісі були направлені до Управління студентської успішності і судових справ університету (OSSJA) після того, як їхні професори відсканували їхні есе з позитивними результатами; перший із детектором штучного інтелекту під назвою GPTZero, а другий — із інтеграцією детектора штучного інтелекту в Turnitin. Однак після висвітлення в ЗМІ[10] та ретельного розслідування зі студентів було знято будь-які звинувачення[11][12]. У квітні 2023 року Кембриджський університет та інші члени Расельської групи університетів у Сполученому Королівстві відмовилися від інструменту виявлення тексту Turnitin AI, висловивши занепокоєння щодо його ненадійності[13]. Через шість місяців Техаський університет в Остіні відмовився від цієї системи[14]. У травні 2023 року професор Східно-Техаського університету A&M щоб виявити чи написаний контент його студентів за допомогою штучного інтелекту, що ChatGPT назвав правдою. У зв'язку з цим він погрожував завалити клас, незважаючи на те, що ChatGPT не здатен виявляти тексти, написані ШІ[15]. Це не завадило жодному з студентів отримати диплом, і всі студенти, окрім одного (який зізнався у використанні програми), були позбавлені звинувачень у використанні ChatGPT у своєму контенті[16]. У статті Томаса Жермена, опублікованій на Gizmodo в червні 2024 року, повідомлялося про втрату роботи серед авторів-фрілансерів і журналістів через те, що програмне забезпечення для виявлення створеного ШІ тексту помилково класифікувало їхню роботу як створену ШІ[17]. Для підвищення надійності розпізнавання тексту штучним інтелектом дослідники вивчають методи цифрового нанесення водяних знаків. У статті 2023 року під назвою «Водяний знак для великих мовних моделей»[18] представлено метод вбудовування непомітних водяних знаків у текст, згенерований великими мовними моделями (LLM). Цей підхід до нанесення водяних знаків дозволяє з високим рівнем точності позначати контент як згенерований ШІ, навіть якщо текст дещо перефразований або змінений. Метод розроблений таким чином, щоб бути малопомітним і складним для виявлення випадковими читачами, тим самим зберігаючи читабельність, але водночас забезпечуючи помітний сигнал для тих, хто використовує спеціалізовані інструменти. Однак, незважаючи на свою багатообіцяючу перспективу, водяні знаки стикаються з проблемами, пов'язаними з тим, щоб залишатися стійкими в умовах конкурентних перетворень і забезпечувати сумісність між різними LLM. Протидія виявлянню текстівІснує програмне забезпечення, призначене для обходу виявлення ШІ-тексту[19]. У дослідженні, опублікованому в серпні 2023 року, проаналізовано 20 тез із статей, опублікованих у журналі Eye, які пізніше були перефразовані за допомогою GPT-4.0. Тези, перефразовані штучним інтелектом, перевірялися на наявність плагіату за допомогою QueText і вмісту, створеного штучним інтелектом, за допомогою Originality. AI. Потім тексти повторно обробили за допомогою змагального програмного забезпечення під назвою Undetectable.ai, для зниження показників виявлення ШІ. Дослідження показало, що інструмент виявлення AI Originality. ідентифікував текст, згенерований GPT-4 із середньою точністю 91,3 %. Однак після повторної обробки Undetectable.ai середня точність виявлення Originality.ai впала до 27,8 %[20][21]. Деякі експерти також вважають, що такі методи, як цифрові водяні знаки, неефективні, оскільки їх можна видалити або додати, аби викликати помилкові спрацьовування[22]. Стаття «Водяний знак для великих мовних моделей» за авторством Кірхенбауера та ін.[18] також розглядає потенційну вразливість методів водяних знаків. Автори описують низку тактик зловмисників, включаючи атаки вставленням, видаленням та підміною тексту, які можуть бути використані для обходу виявлення водяних знаків. Ці атаки різняться за складністю: від простого перефразування до більш витончених підходів, що включають токенізацію та зміну гомогліфів. Дослідження висвітлює проблему збереження стійкості водяних знаків до зловмисників, які можуть використовувати автоматизовані інструменти перефразування або навіть специфічні заміни мовних моделей, для повторного змінювання фрагментів тексту, зберігаючи при цьому семантичну схожість. Експериментальні результати показують, що хоча такі атаки можуть знизити стійкість водяних знаків, вони також призводять до погіршення якості тексту та збільшення обчислювальних ресурсів. Виявлення багатомовного текстуОдним із недоліків більшості програм для виявлення штучного інтелекту є їх нездатність ідентифікувати згенерований ШІ текст будь-якою мовою. Великі мовні моделі (LLM), такі як ChatGPT, Claude і Gemini, здатні писати різними мовами, але традиційні інструменти виявлення тексту штучного інтелекту переважно навчені англійській та деяким іншим широко поширеним мовам, таким як французька та іспанська. Менше рішень для виявлення штучного інтелекту можуть виявляти текст, згенерований штучним інтелектом, такими мовами, як фарсі, арабська чи гінді[джерело?]. Виявлення зображеннь, відео та аудіоІснують кілька програм для виявлення зображень, згенерованих ШІ (наприклад зображення згенеровані Midjourney або DALL-E). Вони не зовсім надійні[23][24]. Інші стверджують, що здатні ідентифікувати відео та аудіо дипфейки, але й ця технологія ще не є повністю надійною[25]. Попри дебати щодо ефективності водяних знаків, Google DeepMind активно розробляє програмне забезпечення виявлення під назвою SynthID, що працює шляхом додавання невидимого для людського ока цифрового водяного знаку в пікселі зображення[26][27]. Див. також
Примітки
|
Portal di Ensiklopedia Dunia