Энтропия языкаЭнтропия языка — статистическая функция текста на определённом языке либо самого языка, определяющая количество информации на единицу текста. ОпределениеУсловная энтропия текста, если известны вероятности появления одной буквы после последовательности из предыдущих букв определяется по формуле: где — число букв в алфавите языка, — -ая последовательность из букв, предшествующая букве , — совместная вероятность появления последовательности и , — условная вероятность появления буквы после последовательности [1]. По определению принимают[1]: Для :
где — безусловная вероятность появления буквы . Согласно Клоду Шеннону, энтропия текста равна: Примеры энтропий различных языковДля английского текста без учетов пробелов и знаков пунктуации () значения равны[1]:
Для русского текста без буквы «ё» ()[2]:
Шеннон предложил следующий способ для оценки . Он предлагал людям угадывать букву при условии, что им известны предыдущие букв текста. Далее подсчитывалась вероятность, с которой эта буква была угадана и с какой попытки. В результате Шенноном было определено, что для английского текста при величина составляет от 0.6—1.3 бит/буква[3], что может быть принято за энтропию английского текста[4]. Также с помощью экспериментальных оценок установлено, что энтропия русского языка с учетом вероятностных связей между элементами равна 1.4 бит/буква для разговорной речи, 1.19 бит/буква для литературного текста, 0.83 бит/буква для делового текста. Энтропия французского языка с учетом вероятностных связей между элементами равна 1.5, 1.38, 1.22 бит/буква соответственно[5]. Примечания
Литература
|
Portal di Ensiklopedia Dunia