Взаимная информация — количество информации, содержащееся в -ом значении одной случайной величины (-ой точке одного дискретного пространства) относительно -го значения другой случайной величины (-ой точке другого дискретного пространства)[1][2]. Это позволяет интерпретировать взаимную информацию как меру статистической связи между значениями двух случайных величин[2].
Средняя взаимная информация или взаимная энтропия[3] — математическое ожидание взаимной информации[4][5]. Представляет собой статистическую функцию двух случайных величин, описывающая среднее количество информации одной случайной величины, содержащейся в другой случайной величине (среднее количество информации об одной случайной величине, получаемое при определении значения другой случайной величины)[6].
При передачи информации по каналу связи средняя взаимная информация представляет собой среднее количество информации, полученной о переданном сообщении после его получения[7].
Количество информации, содержащееся в -ом значении случайной величины (событии ) относительно -го значения случайной величины (события ) называется взаимной информацией между событиями и и определяется по формуле[1][8]:
где — вероятность события , — вероятность события , — вероятность события при условии выполнения события , — вероятность события при условии выполнения события .
Использование в выражении в качестве разделителя запятой означает, что эту величину следует отличать от собственной информации, содержащейся в произведении (паре) значений и [9].
Основание логарифма определяет величину единицы измерения информации. Наиболее часто используется основание 2 и единицей информации является бит. Также в качестве основания логарифма используются e, 3, 10[1].
Взаимная информация между событиями и может быть выражена в виде[9]:
где
— количество собственной информации, содержащейся в ,
— количество собственной информации, содержащейся в ,
— условная собственная информация, содержащаяся в , при условии выполнения события ,
— условная собственная информация, содержащаяся в , при условии выполнения события [10].
На основании такой записи взаимная информация может быть интерпретирована как разность между количеством информации, требуемой для идентификации до и после того как становится известным . Она же равна разности между количеством информации, требуемой для идентификации до и после того как становится известным [9].
Взаимная информация является симметричной функцией случайных величин:
Для независимых значений и взаимная информация равна нулю:
Взаимная информация может принимать как положительные, так и отрицательные значения. Если условная вероятность больше безусловной, то взаимная информация положительна, если наоборот, то отрицательна[2].
Взаимная информация является симметричной функцией случайных величин:
Взаимная информация неотрицательна и не превосходит энтропию аргументов:
Для независимых случайных величин взаимная информация равна нулю:
Когда одна случайная величина (например, ) является детерминированной функцией другой случайной величины (), взаимная информация равна энтропии[16]:
Условная взаимная информация
Условная взаимная информация — статистическая функция, описывающая количество информации, содержащееся в одном значении случайной величины относительно значения другой случайной величины, при условии заданного значения третьей случайной величины[2]:
Средняя условная взаимная информация — статистическая функция трёх случайных величин, описывающая количество информации, содержащееся в одной случайной величине относительно другой, при условии заданной третьей случайной величины[17]:
Среднюю условную взаимную информацию можно представить в виде[17]:
Передача информации
Пусть передаче подлежит сообщение , состоящее из последовательности символов . На приемном конце после демодуляции получается сообщение , состоящее из последовательности символов . На приёмном конце переданные символы заранее неизвестны, известны только вероятности их передачи.
— среднее время, затрачиваемое на передачу одного символа,
— средняя взаимная информация,
— производительность источника сообщений, — энтропия источника сообщений, являющаяся степенью неопределенности передачи того или иного символа[18].
Величина
называется ненадежностью, отнесённой к единице времени, является условной энтропией и называется ненадежностью, то есть средним количеством информации, теряемой при передаче информации и являющейся мерой неопределённости принятого символа[18][19].
Отличие скорости от скорости при равномерном кодировании символов сообщения состоит в том, что является действительной скоростью передачи информации, а — скоростью создания информации (технической скоростью передачи информации (битов)), где — длительность бита[19].
В случае, когда в канале связи отсутствует шум, выходные символы являются детерминированной функцией входных символов . Поэтому после получения символов , неопределенность в знании значений символов полностью пропадёт (символы будут известны абсолютно точно). Поэтому ненадежность станет равной нулю. Следовательно, средняя взаимная информация между переданными и полученными символами станет равной энтропии источника сообщений и скорость передачи информации будет максимальна.
В случае, когда в канале связи присутствует шум, выходные символы канала не являются детерминированной функцией входных символов канала . Поэтому после получения символов , возникнет неопределенность в знании значений символов (символы не будут известны абсолютно точно). Поэтому ненадежность станет больше нуля. Следовательно, средняя взаимная информация между переданными и полученными символами уменьшится по сравнению со случаем отсутствия шума. При слишком большом шуме выходные символы станут статистически независимыми от входных символов , то есть неопределенность в знании значений символов будет совпадать с энтропией источника сообщений , то есть взаимная информация между переданными и принятыми символами станет равной нулю, и скорость передачи информации тоже станет равной нулю. В двоичном канале (входные символы канала являются битами), когда вероятность ошибочного приёма символов равна , скорость передачи информации равна нулю, так как примерно половина символов окажутся принятыми неправильно, то есть никакой действительной передачи информации не будет происходить, при этом скорость создания информации останется неизменной[19].