Латентно-семантический анализ (ЛСА) (англ.Latent semantic analysis, LSA) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы (тематики), присущие всем документам и терминам.
Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов[3]. Затем этот метод был довольно успешно использован для представления баз знаний[4] и построения когнитивных моделей[5].
Анимация процесса обнаружения тематик в матрице «документы-слова». Каждый столбец матрицы соответствует документу, каждая строка — слову. Ячейки матрицы содержат веса слов в документах (например, значения TF-IDF), более тёмные оттенки соответствуют более высокому весу. Алгоритм LSA группирует как документы, которые используют похожие слова, так и слова, которые встречаются в похожем наборе документов. Полученные кластеры в матрице используются для обнаружения латентных (скрытых) компонентов в исходных данных, соответствующих определённым тематикам.[8]
ЛСА можно сравнить с простым видом нейросети, состоящей из трех слоев: первый слой содержит множество слов (термов), второй — некое множество документов, соответствующих определённым ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.
В качестве исходной информации ЛСА использует матрицу термы-на-документы, описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах (TF-IDF).
Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям (SVD — Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.
Говоря более формально, согласно теореме о сингулярном разложении[9], любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:
,
где матрицы и — ортогональные, а — диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы .
Буква Т в выражении означает транспонирование матрицы.
Такое разложение обладает замечательной особенностью: если в матрице оставить только наибольших сингулярных значений, а в матрицах и — только соответствующие этим значениям столбцы, то произведение получившихся матриц , и будет наилучшим приближением исходной матрицы к матрице ранга :
,
Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы использовалась матрица термы-на-документы, то матрица , содержащая только первых линейно независимых компонент , отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.
Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов.
Как правило, выбор зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами.
Применение
Существуют три основных разновидности решения задачи методом ЛСА:
сравнение двух термов между собой;
сравнение двух документов между собой;
сравнение терма и документа.
Достоинства и недостатки ЛСА
Достоинства метода:
метод является наилучшим для выявления латентных зависимостей внутри множества документов;
метод может быть применен как с обучением, так и без обучения (например, для кластеризации);
используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц;
Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объёма входных данных (например, при SVD-преобразовании). Как показано в[3], скорость вычисления соответствует порядку , где — сумма количества документов и термов , — размерность пространства факторов.
↑Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.
↑Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.