Вероятностный классификаторВероятностный классификатор — классификатор, который способен предсказывать, если на входе заданы наблюдения, распределение вероятностей над множеством классов, а не только вывод наиболее подходящего класса, к которому наблюдения принадлежат. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе[1] или когда классификаторы собираются в ансамбли. Типы классификацииФормально, «обычный» классификатор — это некоторое правило или функция, которая назначает наблюдению x класс меток ŷ: Наблюдения берутся из некоторого множества X (например, множество всех документов, или множество всех изображений), в то время класс меток образует конечное множество Y, определённое до тренировки классификатора. Вероятностные классификаторы обобщают понятие классификаторов — вместо функций они являются условными вероятностями , что значит, что для данного классификатор назначает вероятности для всех (и сумма этих вероятностей равна единице). «Жёсткая» классификация может затем быть осуществлена с помощью правила принятия оптимальных решений[2]. то есть предсказанный класс — это класс с наибольшей вероятностью. Бинарные вероятностные классификаторы называются в статистике также биномиальными регрессионными[англ.] моделями. В эконометрике вероятностный классификатор в общем случае называется дискретным выбором. Некоторые классификационные модели, такие как наивный байесовский классификатор, логистическая регрессия и многослойные перцептроны (когда они тренируются с подходящими функциями потерь) естественным образом являются вероятностными. Другие модели, такие как методы опорных векторов, вероятностными не являются, но существуют методы, превращающие их в вероятностные классификаторы. Порождающая и условная тренировкиНекоторые модели, такие как модель логистической регрессии тренируются условно — они оптимизируют условную вероятность непосредственно на тренировочном наборе (минимизация эмпирического риска). Другие классификаторы, такие как наивный байесовский классификатор, являются тренированными порождающими[англ.] классификаторами — во время тренировки находятся условное по классам распределение и априорный класс , а условное распределение получают с помощью байесовского правила[3]. Калибрация вероятностиНе все модели классификации естественным образом вероятностны, а те, которые вероятностны по своей природе, в частности, наивные байесовские классификаторы, деревья решений и методы бустинга, дают искажённые распределения вероятностей[4]. В случае деревьев решений, когда Pr(y|x) является пропорцией тренировочных выборок с меткой y в листе, которым x заканчивается, это искажение распределения возникает ввиду того, что обучающие алгоритмы, такие как C4.5 или деревья классификации и регрессии (англ. Classification and regression trees, CART) в явном виде стремятся получить однородные листья (давая вероятности, близкие к нулю или единице, а потому сильное смещение), в то время как для оценки пропорции используется лишь несколько экземпляров (высокая дисперсия)[5]. ![]() Может быть определено масштабирование с помощью калибровочного графика (называемого также диаграммой надёжности). Калибровочный график показывает пропорцию элементов в каждом классе для дорожек предсказанной вероятности или показателя (такого как искривлённое распределение вероятностей или «расстояния до гиперплоскости» (со знаком) в методе опорных векторов). Отклонения о тождественной функции указывают на плохо калиброванный классификатор, для которого предсказанные вероятности или показатели не могут быть использованы в качестве вероятностей. В этом случае можно использовать метод превращения этих показателей в должным образом калиброванный[англ.] класс вероятностей. Для двоичного случая общим подходом является применение масштабирования по Платту[англ.], который обучает модель логистической регрессии по показателям[6]. Альтернативный метод с использованием изотонной регрессии[англ.][7] обычно лучше метода Платта, если доступен достаточно большой набор тренировлчных данных[4]. В мультиклассовом[англ.] случае можно использовать сведение к двоичным задачам с последующей одномерной калибровкой по алгоритму, как описано выше, а потом применением алгоритма попарного объединения Гесте и Тибширани[8]. Вычисление вероятностной классификацииОбычно используемые функции потерь для вероятностной классификации — логистическая функция потерь и показатель Бриера[англ.] между предсказанным и истинным распределением вероятностей. Первая из этих функций обычно используется для тренировки логистических моделей. Метод, используемый для назначения показателей парам предсказанных вероятностей и актуальных дискретных исходов, так что различные методы предсказания можно было бы сравнить, называется правилом подсчёта результатов[англ.]. Примечания
Литература
|
Portal di Ensiklopedia Dunia