Энтропия языка

Энтропия языка — статистическая функция текста на определённом языке либо самого языка, определяющая количество информации на единицу текста.

Определение

Условная энтропия текста, если известны вероятности появления одной буквы после последовательности из предыдущих букв определяется по формуле:

где — число букв в алфавите языка, -ая последовательность из букв, предшествующая букве , — совместная вероятность появления последовательности и , — условная вероятность появления буквы после последовательности [1].

По определению принимают[1]:

Для :

,

где — безусловная вероятность появления буквы .

Согласно Клоду Шеннону, энтропия текста равна:

Примеры энтропий различных языков

Для английского текста без учетов пробелов и знаков пунктуации () значения равны[1]:

, , ,

Для русского текста без буквы «ё» ()[2]:

, , ,

Шеннон предложил следующий способ для оценки . Он предлагал людям угадывать букву при условии, что им известны предыдущие букв текста. Далее подсчитывалась вероятность, с которой эта буква была угадана и с какой попытки. В результате Шенноном было определено, что для английского текста при величина составляет от 0.6—1.3 бит/буква[3], что может быть принято за энтропию английского текста[4].

Также с помощью экспериментальных оценок установлено, что энтропия русского языка с учетом вероятностных связей между элементами равна 1.4 бит/буква для разговорной речи, 1.19 бит/буква для литературного текста, 0.83 бит/буква для делового текста. Энтропия французского языка с учетом вероятностных связей между элементами равна 1.5, 1.38, 1.22 бит/буква соответственно[5].

Примечания

Литература

  • Шнайер Б. Глава 11. Математические основы. Теория информации. // Прикладная криптография. Протоколы, алгоритмы, исходные тексты на языке Си = Applied Cryptography. Protocols, Algorithms and Source Code in C. — М.: Триумф, 2002. — С. 269. — 816 с. — 3000 экз. — ISBN 5-89392-055-4.
  • C. E. Shannon. Prediction and entropy of printed English (англ.) // Bell Systems Technical Journal. — 1951. — Vol. 30. — P. 50—64. Архивировано 5 февраля 2007 года.
  • Cover, T., King, R. A convergent gambling estimate of the entropy of English // Information Theory, IEEE Transactions on. — 1978. — Т. 24, вып. 4. — С. 413—421. — ISSN 0018-9448.
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya