Латентно семантичний аналіз

Лате́нтно-семанти́чний ана́ліз (ЛСА) — метод обробки інформації природною мовою, зокрема, дистрибутивної семантики, що дозволяє аналізувати взаємозв'язок між набором документів і термінами, які в них зустрічаються, шляхом створення набору понять. ЛСА припускає, що слова, близькі за значенням, зустрічатимуться в подібних фрагментах тексту (дистрибутивна гіпотеза). З великої частини тексту створюється матриця, що вміщує кількість слів на параграф (рядки містять унікальні слова, а стовпці — текст кожного параграфа). При аналізі множини документів як вихідну інформацію ЛСА застосовує терм-документну матрицю, елементи якої свідчать про частоту використання кожного терміна в документах (TF-IDF).

За допомогою математичного методу, що називається сингулярним розкладом матриці, кількість рядків терм-документної матриці зменшують, зберігаючи при цьому структуру подібності у стовпцях. Потім слова порівнюють за допомогою обчислення косинуса кута між двома векторами (скалярний добуток векторів, поділений на добуток їх модулів), що утворено будь-якими двома рядками. Значення, близькі до 1, є дуже схожими словами, тоді як значення, близькі до 0, представляють дуже різнорідні слова.

ЛСА запатентували^[1] 1988 року Scott Deerwester^[en], Susan Dumais^[en], Джордж Фурнас, Richard Harshman^[en], Thomas Landauer^[en], Karen Lochbaum і Lynn Streeter. В контексті застосування в інформаційному пошуку, його часом називають латентно-семантичним індексуванням (англ. Latent Semantic Indexing (LSI)).^[2]

Див. також

Примітки

↑ US Patent 4,839,853 [Архівовано 2 грудня 2017 у Wayback Machine.] (англ.), термін дії патенту сплив
↑ The Latent Semantic Indexing home page. Архів оригіналу за 9 березня 2021. Процитовано 13 грудня 2016. (англ.)

Джерела

Latent Semantic Analysis [Архівовано 10 квітня 2010 у Wayback Machine.]

Це незавершена стаття зі штучного інтелекту.
Ви можете допомогти проєкту, виправивши або дописавши її.

п о р Штучний інтелект
Філософія	Тест Тюрінга • Китайська кімната • Етика ШІ
Напрямки	Агентний підхід • Адаптивне керування • Інженерія знань • Модель життєздатної системи • Машинне навчання • Нейронні мережі • Нечітка логіка • Обробка природної мови • Розпізнавання образів • Ройовий інтелект • Еволюційні алгоритми • Експертна система • Сильний штучний інтелект •
Застосування	Голосове керування • Задача класифікації • Класифікація документів • Кластеризація документів • Кластерний аналіз • Локальний пошук • Машинний переклад • Оптичне розпізнавання символів • Розпізнавання мовлення • Розпізнавання рукописного введення • Комп’ютерні ігри
Дослідники	Джон Маккарті • Аллен Ньюелл • Герберт Саймон • Алан Тюрінг • Клод Шеннон • Артур Семюель • Норберт Вінер • Марвін Мінскі • Едвард Фейгенбаум • Вудро Вілсон Бледсоу • Террі Виноград • Френк Розенблат • Чарлз Беббідж • Ноам Чомскі • Джуда Перл • Сеймур Пейперт • Джозеф Вейценбаум • Патрік Вінстон • Дональд Мікі^[en] • Алан Банді^[en] • В. М. Глушков
Організації	Асоціація з розвитку штучного інтелекту • OpenAI • Інститут Аллена з питань штучного інтелекту^[en] • Міжнародна об'єднана конференція зі штучного інтелекту • Європейська конференція з питань штучного інтелекту • Європейське товариство нейронних мереж^[en] • Інститут інформатики і штучного інтелекту ДонНТУ • Machine Intelligence Research Institute • Artificial Intelligence Applications Institute^[en]

п о р Обробка природної мови
Загальні терміни	Розуміння природної мови Корпус текстів Корпус мовлення Стоп-слова Торба слів AI-повнота N-грама (Біграма, Триграма)
Аналіз тексту	Сегментація тексту^[en] Розмічування частин мови Поверхнево-синтаксичний аналіз Обробка складних слів^[en] Видобування колокацій^[en] Стемінг Лематизація Розпізнавання іменованих сутностей Розв'язання кореферентності Аналіз тональності тексту Виокремлення концептів^[en] Синтаксичний аналіз Вирішення лексичної багатозначності^[en] Навчання онтологій^[en] Видобування термінології Видобування інформації Визначення регістру^[en]
Автоматизоване реферування	Багатодокументне реферування^[en] Видобування речень^[en] Спрощення тексту
Машинний переклад	Автоматизований переклад На основі прикладів На основі правил^[en] На основі словника^[en] На основі трансформації^[en] Нейронний Гібридний^[en] Інтерлінгвіальний^[en] Статистичний
Автоматична ідентифікація і збір даних	Розпізнавання мовлення Синтез мовлення Оптичне розпізнавання символів Генерація природної мови
Тематичне моделювання	Розміщення патінко^[en] Приховане розміщення Діріхле^[en] Латентно-семантичний аналіз
Автоматизоване рецензування^[en]	Автоматизоване оцінювання творів (в освіті)^[en] Конкордансер Система перевірки граматики^[en] Система перевірки орфографії Предиктивне введення тексту Вгадування синтаксису^[en]
Інтерфейс користувача природною мовою^[en]	Автоматизований онлайн-помічник Чат-бот Інтерактивна література Питально-відповідна система Голосовий інтерфейс користувача
Програмне забезпечення	Natural Language Toolkit SpaCy

п о р Основні сфери інформатики
Примітка: Цей шаблон приблизно дотримується ACM Computing Classification System 2012 року.
Апаратне забезпечення	Друкована плата Периферія Мікросхема Надвелика інтегральна схема Споживання енергії Автоматизація проєктування електроніки
Організація комп'ютерних систем	Архітектура комп'ютера Конфігурація комп'ютера Вбудована система Система реального часу Безвідмовність
Мережі	Мережева архітектура Мережевий протокол Мережеві складові Мережевий диспетчер^[en] Оцінка продуктивності мережі^[en] Мережева служба
Організація програмного забезпечення	Інтерпретатор Підпрограмне забезпечення Віртуальна машина Операційна система Якість програмного забезпечення
Системи запису та розробки програмного забезпечення	Парадигма програмування Мова програмування Компілятор Предметно-орієнтована мова програмування Мова моделювання Програмний каркас Інтегроване середовище розробки Керування конфігурацією Бібліотека програм Репозиторій програмного забезпечення
Розробка програмного забезпечення	Процес розробки Аналіз вимог Проєктування Побудова^[en] Розгортання Супровід Команда програмістів^[en] Модель відкритого програмного забезпечення
Теорія алгоритмів	Модель обчислення Формальна мова Теорія автоматів Теорія складності обчислень Логіка Семантика
Алгоритми	Алгоритміка Аналіз алгоритмів Ефективність алгоритму Увипадковлений алгоритм Обчислювальна геометрія
Математика обчислювальної техніки	Дискретна математика Теорія ймовірності Статистика Математичне програмне забезпечення^[en] Теорія інформації Математичний аналіз Чисельні методи
Інформаційні системи	Система керування базами даних Системи зберігання інформації Корпоративна інформаційна система Соціальні інформаційні системи^[en] Геоінформаційна система Система підтримки рішень Система керування процесами Мультимедійна інформаційна система^[en] Добування даних Електронна бібліотека Комп'ютерна платформа Цифровий маркетинг Всесвітнє павутиння Інформаційний пошук
Безпека	Криптографія Формальні методи Послуга безпеки Система виявлення вторгнень Апаратна безпека^[en] Безпека мережі Інформаційна безпека Безпечність застосунків
Людино-машинна взаємодія	Проєктування взаємодії Соціальні інформаційні технології^[en] Повсюдний комп'ютинг Візуалізація Доступність^[en]
Паралелізм	Конкурентні обчислення Паралельні обчислення Розподілені обчислення Багатонитевість Багатопроцесорність
Штучний інтелект	Обробка природної мови Представлення знань Комп'ютерний зір Автоматизоване планування та диспетчеризація Методологія пошуку Методи керування Філософія штучного інтелекту Розподілений штучний інтелект^[en]
Машинне навчання	Кероване навчання Некероване навчання Навчання з підкріпленням Багатозадачне навчання^[en] Алгоритми машинного навчання^[en] Перехресне затверджування
Графіка	Анімація Рендеринг Ретушування зображень Графічний процесор Змішана реальність Віртуальна реальність Стиснення зображень Об'ємне моделювання
Прикладні обчислення	Електронна комерція Програмне забезпечення рівня підприємства^[en] Обчислювальна математика Обчислювальна фізика Обчислювальна хімія Обчислювальна біологія Обчислювальні суспільні науки^[en] Обчислювальна інженерія^[en] Медична інформатика Цифрове мистецтво Електронне видавництво Кібервійна Електронне голосування Відеогра Обробка текстів Дослідження операцій Освітні технології Електронний документообіг

Латентно-семантичний аналіз

Див. також

Примітки

Джерела

Portal di Ensiklopedia Dunia