Лексична насиченістьЛексична насиченість (словникова різноманітність, лексична щільність) – відношення кількості різних слів до загальної кількості слів у тексті, використовується як одна величина, що характеризує текст. ОбчисленняАлгоритм знаходження лексичної насиченості тексту складається з наступних кроків:
Поправка набору слівПід час обчислення лексичної насиченості виникає питання вибору належності невідомих слів (тих, які відсутні в словнику) до того чи іншого набору. Існує чотири підходи до вирішення цього питання:
Розглянемо ці методи на прикладах.
Отже, доцільно використовувати метод видалення невідомих слів на стадії перетворення у словникові форми. Незважаючи на те, що текст з вірними невідомими словами - найпоширеніший випадок, у ньому обраний метод хоч і не є найкращим, але все ж має досить невелике відхилення від результату ручного розподілу. Окремою проблемою є визначення належності для іншомовних слів. Якщо їх кількість незначна, у порівнянні з об'ємом тексту, можна віднести такі слова до невідомих. Оцінка лексичної насиченостіЩоб отримати об'єктивне враження про лексичну насиченість тексту, необхідно обчислене відношення привести до значення на певній шкалі. Наприклад, перетворити у проценти. Однак в цьому випадку постане серйозна проблема нелінійного зменшення такого значення зі збільшенням кількості слів. Якщо взяти реальний текст довжиною десять слів, то його лексична насиченість буде в межах 80%-100%. Якщо кількість слів 1000, то лексична насиченість вже падає до 50%. З точки 200 тисяч слів (у вхідному тексті) кількість різних слів фактично перестане збільшуватись. Одним зі способів вирішити цю проблему є визначення пікових значень лексичної насиченості на реальних текстах довжиною у 100, 500, 1000, 2000, 5000 і т.д. слів (що більше значень, то краще) та взяти відповідні пікові значення в певному околі за 100%. Зміна лексичної насиченостіВирішення такої задачі базується на виділенні окремих груп певної кількості слів. ![]() Тут – слово із тексту; – обчислене значення насиченості для j-ї групи слів довжиною n, . Фактично, відбувається просування блоку, що відповідає за початок та кінець тексту для обчислення насиченості, на одне слово для кожної нової точки графіка (масиву значень). Тому число точок на результуючому графіку становитиме D = N – n + 1. Алгоритм обчислення зміни насиченості:
Для зручності інтерпретації результатів аналізу тексту фахівцями варто відображати графік залежності лексичної насиченості блоку від позиції у тексті. Проаналізувавши декілька творів при різних значеннях n, було визначено, що аналіз графічного результату варто проводити, коли n=500. При значно більших чи значно менших значеннях графік згладжується, адже різниця в насиченості стає мінімальною (при великих значеннях n вона завжди низька, а при малих значеннях n – завжди висока). Джерела
|
Portal di Ensiklopedia Dunia