Терм-документная матрицаТерм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответствуют терминам. Существуют различные схемы для определения значения каждого элемента матрицы. Одной из таких является схема TF-IDF. Они полезны в области обработки естественного языка, особенно в методах латентно-семантического анализа. Общая концепцияПри создании базы данных терминов, используемых в наборе документов, матрица терминов формируется как матрица инцидентности, строки которой соответствуют документам, а элементы строк - наличию соответствующих терминов в этих документах. Например, если есть два коротких документа:
то соответствующая матрица терминов будет иметь вид:
который показывает, какие термины содержатся в тех или иных документах, и сколько раз они встречаются. Такой подход аналогичен использованию матрицы инцидентности при анализе предложений, образующих корпус слов[1]. Примечания
|
Portal di Ensiklopedia Dunia