Коэффициент лексического разнообразияКоэффициент лексического разнообразия (КЛР, индекс лексического разнообразия, англ. lexical diversity, LD) — количественная характеристика текста, отражающая степень богатства словаря при построении текста заданной длины. В основе показателя лежит соотношение числа отдельных лексических единиц (лемм, англ. types) и количества их употреблений в тексте (текстоформ, англ. tokens). Вычисляется по формуле
где
Лексически богатый текст обладает высоким коэффициентом лексического разнообразия, то есть на единицу объёма текста приходится максимальное количество уникальных единиц, лексически бедный текст обнаруживает тенденцию к повторению одних и тех же лексем, за счет чего его лексическое разнообразие снижается. При вычислении КЛР должно приниматься во внимание следующее ограничение: в то время как количество текстоформ потенциально бесконечно и может только увеличиваться по мере расширения массива анализируемых текстовых данных, количество лексем все-таки конечно. Поэтому вычислять КЛР рационально только для текстов ограниченного объёма. В вычислительной лингвистике предложено несколько вариантов решения этой проблемы[1]. Близким к КЛР является коэффициент лексической плотности текста (англ. lexical density), выражающий отношение самостоятельных частей речи в тексте к общему количеству слов. Более лексически плотными, таким образом, будут тексты, в которых используется меньше служебной лексики. Можно вычислять коэффициенты лексической плотности как для самостоятельных частей речи в целом, так и отдельно для существительных, прилагательных, глаголов, наречий. TTRTTR (англ. type/token ratio) — самый простой и самый критикуемый способ вычисления коэффициента лексического разнообразия, не принимающий во внимание влияние эффекта длины текста. TTR предположительно был введен в научный обиход в 1957 году в работе специалиста по лингводидактике М. Темплина[2]. Например, TTR в английском выражении I have to buy some milk, because I have no milk («Мне надо купить молока, так как у меня нет молока») низок и составляет 0,73 (на 11 словоупотреблений приходится только 8 лексем, 8/11), а, например, во фразе I’ve run out of milk, so I need to buy some («У меня кончилось молоко, мне надо его купить») TTR уже выше (TTR = 10/11 = 0,91). TTR можно вычислять, по-разному интерпретируя понятие type: под ним может подразумеваться VocDМетод VocD (англ. vocabulary diversity) предложен в работах Д. Малверна и его коллег[3] и представляет собой усовершенствованную версию TTR, сглаживающую эффекты длины текста. В основе метода лежит метод случайного отбора из текста фрагментов длиной от 35 до 50 текстоформ и вычисления для них TTR с последующим усреднением получившихся графиков. ИспользованиеКоэффициент лексического разнообразия оказывается важным измеряемым параметром в исследованиях по стилистике, дискурс-анализу, переводоведению (при сравнении оригинальных и переводных текстов), лингвистике детской речи. Примечания
Литература
Ссылки |
Portal di Ensiklopedia Dunia