Избыточность информации

Теория информации

Избыточность информации — термин из теории информации, характеризующий степень неодинаковости распределения вероятностей различных элементов алфавита, а также степень взаимной зависимости элементов алфавита, проявляющиеся в уменьшении его энтропии по сравнению с максимальным значением[1].

Определение

Если алфавит имеет вероятностное распределение, отличное от равномерного, то его энтропия , рассчитанная с учетом вероятностных связей между его элементами, отлична от максимально возможного значения, равного , называемого абсолютной энтропией, где — основание алфавита (число различных элементов алфавита)[1].

Избыточность алфавита (избыточность языка, избыточность сообщения) определяется по формуле[2][3]:

В случае марковского источника -го порядка, когда условная вероятность появления текущего символа сообщения зависит только от предыдущих символов сообщения, то есть при наличия вероятностных связей между символами сообщения (что имеет место в текстовом сообщении), энтропия источника определяется по формуле[1][4]:

где — вероятность -го состояния источника, которое определяется символами сообщения, предшествующих текущему символу , — число состояний, — условная вероятность выбора источником символа в -ом состоянии, -ая последовательность из символов, предшествующая символу , — совместная вероятность появления последовательности и .

Для английского текста, состоящего из 26 букв, . Клодом Шенноном было уcтановлено, что энтропия английского текста при равна 0.6—1.3 бит/символ[5], то есть избыточность английского текста составляет 0.72—0.87.

Уменьшение избыточности

Избыточность можно уменьшить с помощью сжатия источника. В случае, когда источник не имеет избыточности (), то есть вероятности всех символов одинаковы, оптимальным кодированием является равномерное кодирование, при котором каждый символ источника кодируется одинаковым числом битов, равным . В случае, когда источник имеет избыточность, и равномерное кодирование не является оптимальным, так как требует битов для кодирования каждого символа источника. Однако избыточность может быть уменьшена полностью или частично, если при кодировании представлять наиболее вероятные символы короткими последовательностями битов, а менее вероятные — более длинными. В этом случае среднее количество битов, приходящихся на один символ, окажется меньшей, чем в случае равномерного кодирования[6].

В результате устранения избыточности источник (файл) будет занимать меньший размер, и его символы могут быть переданы по каналу связи более быстро. Однако устранение избыточности имеет следующий недостаток. Последовательности неравномерного кода, лишенные или практически лишенные избыточности, оказываются весьма «хрупкими» при наличии шумов. Эта хрупкость заключается в том, что достаточно исказить один из символов кодовой последовательности, чтобы сделать невозможным правильное декодирование не только символа источника, а который входит кодовый символ, но и ряда последующих символов источника[7].

Основная теорема кодирования канала без шума гласит, что символы источника с основанием алфавита , имеющее энтропию , можно так закодировать посредством кодовых символов с основанием алфавита , что среднее число кодовых символов на один символ источника удовлетворяет неравенству[8]:

где — сколь угодно мало.

Это неравенство выполняется в случае, когда символы источника объединяются в группы по символов, и производится кодирование этих групп кодовыми символами, причём величина стремится к бесконечности[9][10].

Таким образом, среднее число кодовых символов на один символ источника не может быть сделано меньше, чем . В противном случае, символы источника нельзя достоверно восстановить. Теоретически возможен код, у которого стремиться к .

Если кодирование производится двоичными кодовыми символами , то это означает, что при кодировании без потерь среднее число битов, приходящихся на символ источника, может быть сделано очень близким к энтропии источника, которая и является средним количеством информации (битов), приходящееся на символ источника.

При использовании кодирования избыточность источника после кодирования вычисляется по формуле[11]:

где — энтропия кодовых символов , — максимальное значение энтропии кодовых символов, , где — основание кодового алфавита (число различных символов кода).

Энтропия источника при однозначном декодировании связана с энтропией кодовых символов по формуле:

.

Таким образом, формула для избыточности источника после кодирования примет вид[11]:

Следовательно, использование кода, у которого , почти полностью устраняет избыточность без потери информации. В этом случае , то есть кодовые символы должны быть практически равновероятными и независимыми друг от друга[11].

Сжатие без потерь может быть реализовано с помощью кодирования Хаффмана, кодирования Лемпеля — Зива — Велча или арифметического кодирования.

Таким образом, кодирование источника позволяет уменьшить число кодовых символов, приходящихся на один символ источника. Эту задачу выполняет кодер источника, однако его использование уменьшает точность декодирования при наличии шумов. В то же время в системах передачи информации часто после кодера источника ставится кодер канала, который добавляет к символам на выходе кодера источника (информационным символам) дополнительные (избыточные) символы, которые не несут информации. В результате, избыточность увеличивается, но она позволяет передавать информацию по каналу связи при наличии шумов более точно. Такое кодирование, вносящее избыточность, называется помехоустойчивым кодированием. В пользу использования совокупности кодера источника и кодера канала можно привести следующие доводы:

  • Избыточность источника далеко не всегда соответствует свойствам канала и не может быть полностью использована для повышения точности декодирования, так как всегда можно выбрать наиболее согласованный с каналом помехоустойчивый код.
  • Часть используемых помехоустойчивых кодов позволяет производить обнаружение и исправление ошибочно принятых последовательностей с помощью относительно простых правил в процессе декодирования, в то время как избыточность источника часто обусловлена весьма сложными зависимостями между его символами (например, в текстовом файле) и позволяет обнаружить ошибки после декодирования символов за счет догадок.
  • Когда непосредственным получателем сообщений является не человек, а машина, избыточность источника весьма трудно использовать для повышения точности приёма. При этом сознательно внесённая кодером канала избыточность, согласованная со свойствами канала, позволяет повысить точность передачи информации[12].

См. также

Примечания

  1. 1 2 3 Варгаузин В. А., Цикин И. А. Методы повышения энергетической и спектральной эффективности цифровой радиосвязи, 2013. — С. 18.
  2. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 27.
  3. Варгаузин В. А., Цикин И. А. Методы повышения энергетической и спектральной эффективности цифровой радиосвязи, 2013. — С. 19.
  4. C. E. Shannon. Prediction and Entropy of Printed English, 1951. — P. 51.
  5. Angelo Vulpiani, Roberto Livi. The Kolmogorov Legacy in Physics, 2003. — P. 98.
  6. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 70.
  7. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 80.
  8. Фано Р. М. Передача информации. Статистическая теория связи, 1965. — С. 93—94.
  9. Фано Р. М. Передача информации. Статистическая теория связи, 1965. — С. 94.
  10. Шеннон К. Работы по теории информации и кибернетике, 1963. — С. 272.
  11. 1 2 3 Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 71.
  12. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 88—89.
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya