Інтелектуальний аналіз текстуІнтелектуальний аналіз тексту (ІАТ, англ. text mining) — напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.[1] Завдання інтелектуального аналізу текстуКлючовими завданнями ІАТ є: категоризація текстів, пошук інформації, обробка змін у колекціях текстів, а також розробка засобів представлення інформації для користувача[2]. Категоризація документів полягає у зіставленні документів з колекції з однією або декількома групами (класами, кластерами) схожих між собою текстів (наприклад, по темі або стилем). Категоризація може відбуватися як за участю людини, так і без неї. У першому випадку (класифікація документів), система ІАТ повинна віднести тексти до вже визначених (зручних для неї) класів. Для цього необхідно провести кероване навчання, для чого користувач повинен надати системі ІАТ як перелік класів, так і зразки документів, що належать цим класам. Другий випадок категоризації називається кластеризацією документів. При цьому система ІАТ повинна сама визначити множину кластерів, за якими можуть бути розподілені тексти, — в машинному навчанні відповідне завдання називається некерованим навчанням. У цьому випадку користувач повинен повідомити системі ІАТ кількість кластерів, на яке йому хотілося б розбити оброблювану колекцію (передбачається, що в алгоритм програми вже закладена процедура вибору ознак). Текстова аналітикаТермін текстова аналітика описує набір методів лінгвістики, статистики та машинного навчання, які моделюють і структурують інформаційний зміст текстових джерел для бізнес-аналітики (англ. Business intelligence), розвідувального аналізу даних, дослідження, або розслідування.[3] Цей термін приблизно є синонімом інтелектуального аналізу тексту; насправді, у 2004 році Ронен Фельдман змінив термін 2000 року «інтелектуального аналізу тексту»[4] для опису «текстової аналітики».[5] В даний час термін текстової аналітики частіше застосовується в бізнес-середовищі, тоді як «інтелектуальний аналіз тексту», починаючи з 1980-х років, використовується в деяких з найбільш ранніх областей застосування[6], а саме в дослідженнях у галузі природничих наук та державної розвідки. Термін «текстова аналітика» також описує застосування текстової аналітики для вирішення бізнес-проблем, незалежно чи в поєднанні з запитом і аналізом впорядкованих, числових даних. Загально відомо, що 80 % інформації, що стосується бізнесу, походить з неструктурованої форми, в першу чергу, з тексту.[7] Ці методи й процеси виявляють і представляють знання — факти, ділові правила[en] і стосунки — які в іншому випадку закодовані в текстовій формі та не піддаються автоматизованій обробці. Процес текстової аналітикиПідзадачі, що становлять більшу частину аналізу тексту, зазвичай охоплюють:
ЗастосуванняТехнологія інтелектуального аналізу тексту в даний час широко застосовується до широкого кола урядових, дослідницьких та бізнес-потреб. Всі три групи можуть використовувати інтелектуальний аналіз тексту для управління документами та пошуку документів, що стосуються їх повсякденної діяльності. Професіонали з правових питань можуть використовувати інтелектуальний аналіз тексту для електронного відкриття[en]. Уряди і військові групи використовують інтелектуальний аналіз тексту для цілей національної безпеки та розвідки. Наукові дослідники об'єднують підходи інтелектуального аналізу тексту в зусиллях для організації великих наборів текстових даних (тобто, розв'язання проблеми неструктурованих даних), для визначення ідей, переданих через текст (наприклад, аналіз тональності тексту у соціальних мережах[11][12][13]) і підтримувати наукові відкриття в галузі природничих наук та в галузібіоінформатики. У бізнесі інтелектуальний аналіз тексту використовується для підтримки конкурентної розвідки та автоматичного розміщення оголошень серед багатьох інших заходів. БезпекаБагато програмних пакетів інтелектуального аналізу тексту використовуються в системах безпеки[en], особливо для моніторингу та аналізу текстових джерел в Інтернеті, таких як інтернет-новини, блоги, тощо.[14] Інтелектуальний аналіз тексту також присутній у вивченні шифрування/дешифрування тексту. БіомедицинаБуло описано діапазон застосування інтелектуального аналізу тексту в біомедичній літературі[15], який містить в собі обчислювальні підходи для допомоги в дослідженнях з приєднання білків (англ. protein docking),[16] взаємодій білків,[17][18] та асоціацій білкових хвороб (англ. protein-disease associations)[19]. Крім того, за наявності великих наборів даних пацієнтів у клінічній сфері, наборів даних демографічної інформації в популяційних дослідженнях та в звітах про побічні ефекти, інтелектуальний аналіз тексту може полегшити проведення клінічних досліджень та якість лікування. Алгоритми інтелектуального аналізу тексту можуть полегшити стратифікацію та індексацію конкретних клінічних подій у великих текстових наборах даних пацієнтів з симптомами, побічними ефектами та супутніми захворюваннями з електронних медичних записів, звітів про події та звітів з конкретних діагностичних тестів.[20] Одним з онлайн застосування інтелектуального аналізу текстів у біомедичній літературі є PubGene[en], загальнодоступна пошукова система, яка поєднує в собі біомедичний інтелектуальний аналіз тексту з візуалізацією мережі.[21][22] GoPubMed — це пошукова система на основі знань для біомедичних текстів. Методи інтелектуального аналізу тексту також дозволяють витягувати невідомі знання з неструктурованих документів у клінічній сфері.[23] Програмне забезпеченняМетоди та програмне забезпечення для інтелектуального аналізу тексту досліджується та розробляється відомими компаніями, серед яких IBM та Microsoft, з метою подальшої автоматизації процесу аналізу, а також різними фірмами, що працюють у сфері пошуку та індексації в цілому, як спосіб поліпшення своїх результатів. У державному секторі великі зусилля були спрямовані на створення програмного забезпечення щодо відстеження та моніторингу терористичної діяльності[en].[24] Засоби масової інформаціїІнтелектуальний аналіз тексту використовується великими медіа-компаніями, такими як Tribune Company[en], для уточнення інформації та надання читачам більшого досвіду пошуку, що, у свою чергу, збільшує «липучість» сайту та дохід. Крім того, в серверній частині редактори отримують можливість використовувати, пов'язувати та поширювати новини через властивості, значно збільшуючи можливості для монетизації вмісту. Бізнес і маркетингІнтелектуальний аналіз тексту починають використовувати в маркетингу, зокрема, в аналітичному управлінні відносинами з клієнтами.[25] Coussement і Van den Poel (2008)[26][27] застосовують його для поліпшення моделей прогностичної аналітики[en] для збивання клієнтів.[26] Інтелектуальний аналіз тексту також застосовується в прогнозі дохідності акцій.[28] Аналіз тональності текстуАналіз тональності тексту може включати аналіз огляду фільмів для оцінки того, наскільки сприятливим є огляд фільму.[29] Такий аналіз може потребувати маркованого набору даних, або маркування впливу слів. Для WordNet[30] і ConceptNet[en][31] були створені ресурси для оцінки афективності слів та концепцій, відповідно. Текст також використовується для виявлення емоцій у відповідній області афективних обчислень.[32] Текстові підходи до афективних обчислень використовувалися на кількох корпусах, таких як оцінки студентів, дитячі розповіді та новини. Аналіз наукової літературиПитання інтелектуального аналізу тексту має важливе значення для видавців, які мають великі бази даних інформації, які потребують індексації для пошуку. Особливо це стосується наукових дисциплін, у яких високоспецифічна інформація часто міститься в письмовому тексті. Таким чином, були вжиті ініціативи, такі як пропозиція Nature для відкритого інтерфейсу інтелектуального аналізу тексту (англ. Open Text Mining Interface (OTMI)) та Національний інститут охорони здоров'я в США Document Type Definition (DTD), які забезпечують семантичні сигнали машинам для відповіді на конкретні запити, що містяться в тексті без видалення перешкоди для публічного доступу. Академічні установи також взяли участь в ініціативі з інтелектуального аналізу тексту:
Методи аналізу наукової літературиОбчислювальні методи розроблені для пошуку інформації в науковій літературі. Опубліковані підходи включають методи пошуку,[36] визначення новизни[37] і уточнення омонімів[38] серед технічних звітів. Цифрові гуманітарні науки та обчислювальна соціологіяАвтоматичний аналіз великих текстових корпусів створив можливість для вчених проаналізувати мільйони документів на різних мовах з дуже обмеженим ручним втручанням. Основними технологіями, що надаються, є розбір, машинний переклад, категоризація тем і машинне навчання. ![]() Автоматичний синтаксичний аналіз текстових корпусів дозволив у величезному масштабі витягти суб'єкти та їхні реляційні мережі, перетворивши текстові дані в мережеві дані. Отримані мережі, які можуть містити тисячі вузлів, потім аналізуються за допомогою інструментів з теорії мереж для визначення ключових суб'єктів, ключових спільнот, або сторін, а також загальних властивостей, таких як надійність чи структурна стійкість мережі в цілому, або центральність окремих вузлів.[40] Це автоматизує підхід, впроваджений кількісним описовим аналізом,[41] за допомогою якого об'єкти-дієслово-об'єктні трійні ідентифікуються з парами суб'єктів, пов'язаних дією, або парами, утвореними суб'єктом-об'єктом.[39] Контент-аналіз вже давно є традиційною частиною соціальних наук та медіа-досліджень. Автоматизація контент-аналізу дозволила революції «великих даних» відбутися в цій галузі, з дослідженнями в соціальних медіа і зміст газет, які включають мільйони новин. Ґендерна упередженість, легкочитність, подібність змісту, переваги читача і навіть настрій були проаналізовані на основі методів інтелектуального аналізу тексту над мільйонами документів.[42][43][44][45][46] Аналіз легкочитності, гендерної упередженості та зміщення теми був продемонстрований у Flaounas et al[47] в якому показують, як різні теми мають різні гендерні упередження та рівні легкочитності; Також було продемонстровано можливість виявлення моделей настрою у великій кількості населення шляхом аналізу вмісту Twitter.[48][49] Програмне забезпеченняКомп'ютерні програми для інтелектуального аналізу тексту доступні у багатьох комерційних та відкритих компаніях та джерелах. Див. Список програмного забезпечення для інтелектуального аналізу тексту[en]. Закон про інтелектуальну власністьСитуація в ЄвропіЧерез відсутність гнучкості в європейському законодавстві про авторські права і бази даних, інтелектуальний аналіз авторських робіт (добування даних) без дозволу власника авторських прав є незаконним. У Великій Британії у 2014 році за рекомендацією огляду Hargreaves уряд змінив закон про авторське право[50], щоб дозволити інтелектуальний аналіз тексту, як обмеження і виняток[en]. Це була лише друга країна у світі після Японії[en], яка у 2009 році запровадила інтелектуальний аналіз, як виняток. Однак, через обмеження Директиви про авторське право, виняток Великої Британії дозволяє інтелектуальний аналіз контенту лише для некомерційних цілей. Закон Великої Британії про авторське право не дозволяє перекрити це положення договірними умовами. Європейська комісія сприяла обговоренню зацікавлених сторін щодо інтелектуального аналізу тексту та даних у 2013 році під назвою «Ліцензії для Європи»[51]. Той факт, що акцент на розв'язанні цього юридичного питання полягав у видачі ліцензій, а не на обмеженнях та винятках із закону про авторське право, призвело до того, що представники університетів, дослідників, бібліотек, груп громадянського суспільства та видавців з відкритим доступом залишили діалог із зацікавленими сторонами у травні 2013 року.[52] Ситуація в СШАНа відміну від Європи, через гнучкість американського закону про авторське право і, зокрема, сумлінного використання, інтелектуальний аналіз тексту в Америці, як і в інших країнах із сумлінним використанням, таких як Ізраїль, Тайвань і Південна Корея, вважається законним. Оскільки інтелектуальний аналіз тексту є перетворювальним — це означає, що він не витісняє оригінальну роботу, а вважається законним при сумлінному використанні. Наприклад, як частина дозволу книг в Google[en], головний суддя у справі постановив, що проект оцифрування книг з авторськими правами в Google був законним, частково через перетворення, яке показує проект оцифрування — одним із варіантів інтелектуального аналізу тексту та даних.[53] ВпливДо недавнього часу вебсайти найчастіше використовували текстовий пошук, який знаходить лише документи, що містять конкретні визначені користувачем слова, або фрази. Тепер завдяки використанню семантичної павутини, інтелектуальний аналіз тексту може знайти вміст, заснований на сенсі та контексті (а не просто на конкретному слові). Крім того, програмне забезпечення інтелектуального аналізу тексту можна використовувати для створення великих досьє інформації про конкретних людей та події. Наприклад, великі набори даних на основі отриманих даних зі звітів новин, можуть бути побудовані для полегшення аналізу соціальних мереж, або контррозвідки. Фактично, програмне забезпечення інтелектуального аналізу тексту можна використовувати в якості, подібної до аналітичної розвідки, або дослідницької бібліотеки, хоча і з більш обмеженим аналізом. Інтелектуальний аналіз тексту також використовується в деяких фільтрах спаму для електронної пошти, як спосіб визначення характеристик повідомлень, які, ймовірно, будуть рекламою, або іншим небажаним матеріалом. Інтелектуальний аналіз тексту відіграє важливу роль у визначенні настроїв фінансового ринку[en]. МайбутнєЗростає інтерес до багатомовного інтелектуального аналізу даних: здатність отримувати інформацію між мовами та групувати подібні об'єкти з різних мовних джерел відповідно до їхнього значення. Протягом десятиліть відома проблема використання великої частини «неструктурованої» інформації, яка утворюється на підприємствах.[54] Її визнано ще в самому ранньому визначенні бізнес-аналітики (англ. Business intelligence), в жовтні 1958 р. в статті Ганса Пітера Луна[en] «Система бізнес-аналітики» в журналі IBM, яка описує систему, що буде:
Проте, оскільки інформаційні системи управління розвивалися з 1960-х років, і коли з'явилася бізнес-аналітика в 80-х і 90-х роках як категорія програмного забезпечення та сфера практичного застосування, акцент робився на числові дані, що зберігаються в реляційних базах даних. Це не дивно: текст у «неструктурованих» документах важко обробляти. Виникнення текстової аналітики в її нинішній формі випливає з перефокусування досліджень наприкінці 1990-х років від розробки алгоритмів до застосування, як описав професор Марті А. Херст у статті «Розпізнавання текстових даних»:[55]
У заяві Херста 1999 року говориться про необхідність якісного опису стану технології та практики аналізу текстів. Примітки
Джерела
|
Portal di Ensiklopedia Dunia