Избыточность информацииИзбыточность информации — термин из теории информации, характеризующий степень неодинаковости распределения вероятностей различных элементов алфавита, а также степень взаимной зависимости элементов алфавита, проявляющиеся в уменьшении его энтропии по сравнению с максимальным значением[1]. ОпределениеЕсли алфавит имеет вероятностное распределение, отличное от равномерного, то его энтропия , рассчитанная с учетом вероятностных связей между его элементами, отлична от максимально возможного значения, равного , называемого абсолютной энтропией, где — основание алфавита (число различных элементов алфавита)[1]. Избыточность алфавита (избыточность языка, избыточность сообщения) определяется по формуле[2][3]: В случае марковского источника -го порядка, когда условная вероятность появления текущего символа сообщения зависит только от предыдущих символов сообщения, то есть при наличия вероятностных связей между символами сообщения (что имеет место в текстовом сообщении), энтропия источника определяется по формуле[1][4]: где — вероятность -го состояния источника, которое определяется символами сообщения, предшествующих текущему символу , — число состояний, — условная вероятность выбора источником символа в -ом состоянии, — -ая последовательность из символов, предшествующая символу , — совместная вероятность появления последовательности и . Для английского текста, состоящего из 26 букв, . Клодом Шенноном было уcтановлено, что энтропия английского текста при равна 0.6—1.3 бит/символ[5], то есть избыточность английского текста составляет 0.72—0.87. Уменьшение избыточностиИзбыточность можно уменьшить с помощью сжатия источника. В случае, когда источник не имеет избыточности (), то есть вероятности всех символов одинаковы, оптимальным кодированием является равномерное кодирование, при котором каждый символ источника кодируется одинаковым числом битов, равным . В случае, когда источник имеет избыточность, и равномерное кодирование не является оптимальным, так как требует битов для кодирования каждого символа источника. Однако избыточность может быть уменьшена полностью или частично, если при кодировании представлять наиболее вероятные символы короткими последовательностями битов, а менее вероятные — более длинными. В этом случае среднее количество битов, приходящихся на один символ, окажется меньшей, чем в случае равномерного кодирования[6]. В результате устранения избыточности источник (файл) будет занимать меньший размер, и его символы могут быть переданы по каналу связи более быстро. Однако устранение избыточности имеет следующий недостаток. Последовательности неравномерного кода, лишенные или практически лишенные избыточности, оказываются весьма «хрупкими» при наличии шумов. Эта хрупкость заключается в том, что достаточно исказить один из символов кодовой последовательности, чтобы сделать невозможным правильное декодирование не только символа источника, а который входит кодовый символ, но и ряда последующих символов источника[7]. Основная теорема кодирования канала без шума гласит, что символы источника с основанием алфавита , имеющее энтропию , можно так закодировать посредством кодовых символов с основанием алфавита , что среднее число кодовых символов на один символ источника удовлетворяет неравенству[8]: где — сколь угодно мало. Это неравенство выполняется в случае, когда символы источника объединяются в группы по символов, и производится кодирование этих групп кодовыми символами, причём величина стремится к бесконечности[9][10]. Таким образом, среднее число кодовых символов на один символ источника не может быть сделано меньше, чем . В противном случае, символы источника нельзя достоверно восстановить. Теоретически возможен код, у которого стремиться к . Если кодирование производится двоичными кодовыми символами , то это означает, что при кодировании без потерь среднее число битов, приходящихся на символ источника, может быть сделано очень близким к энтропии источника, которая и является средним количеством информации (битов), приходящееся на символ источника. При использовании кодирования избыточность источника после кодирования вычисляется по формуле[11]: где — энтропия кодовых символов , — максимальное значение энтропии кодовых символов, , где — основание кодового алфавита (число различных символов кода). Энтропия источника при однозначном декодировании связана с энтропией кодовых символов по формуле:
Таким образом, формула для избыточности источника после кодирования примет вид[11]: Следовательно, использование кода, у которого , почти полностью устраняет избыточность без потери информации. В этом случае , то есть кодовые символы должны быть практически равновероятными и независимыми друг от друга[11]. Сжатие без потерь может быть реализовано с помощью кодирования Хаффмана, кодирования Лемпеля — Зива — Велча или арифметического кодирования. Таким образом, кодирование источника позволяет уменьшить число кодовых символов, приходящихся на один символ источника. Эту задачу выполняет кодер источника, однако его использование уменьшает точность декодирования при наличии шумов. В то же время в системах передачи информации часто после кодера источника ставится кодер канала, который добавляет к символам на выходе кодера источника (информационным символам) дополнительные (избыточные) символы, которые не несут информации. В результате, избыточность увеличивается, но она позволяет передавать информацию по каналу связи при наличии шумов более точно. Такое кодирование, вносящее избыточность, называется помехоустойчивым кодированием. В пользу использования совокупности кодера источника и кодера канала можно привести следующие доводы:
См. такжеПримечания
|
Portal di Ensiklopedia Dunia