Наївний баєсів класифікатор
Наївний баєсів класифікатор — ймовірнісний класифікатор, що використовує теорему Баєса для визначення ймовірності приналежності спостереження (елемента вибірки) до одного з класів при припущенні (наївному) незалежності змінних. Тобто, якщо на основі значень змінних можна однозначно визначити, до якого класу належить спостереження, баєсів класифікатор повідомить ймовірність приналежності до цього класу. У проміжних же випадках, коли спостереження може з різною ймовірністю належати до різних класів, результатом роботи класифікатора буде вектор, компоненти якого є ймовірностями приналежності до того чи іншого класу. Можна бачити, що ідеальний баєсів класифікатор в якомусь сенсі є оптимальним. Його результат не може бути поліпшений, тому що в усіх випадках, коли можлива однозначна відповідь, він її дасть — а в тих випадках, коли відповідь неоднозначна, результат кількісно характеризує міру цієї неоднозначності. Разом з тим, в оптимальності криється і основний недолік ідеального баєсового класифікатора: для його побудови потрібна вибірка, що містить всі можливі комбінації змінних — а розмір такої вибірки експоненціально зростає із зростанням числа змінних (див. «прокляття розмірності»). Для подолання описаної вище проблеми на практиці використовують наївний баєсів класифікатор — класифікатор, побудований на основі припущення про незалежність змінних, тобто припущення про те, що використання цього припущення дозволяє не вивчати взаємодію всіх можливих поєднань змінних, обмежившись лише впливом кожної змінної окремо на приналежність образу до одного з класів. Перевагою цього підходу є те, що вимоги до розміру вибірки скорочуються від експоненційних до лінійних. Недоліком — те, що модель є точною лише у випадку, коли виконується припущення про незалежність. В іншому випадку, щиро кажучи, обчислені ймовірності вже не є точними (і навіть більше того, їх сума може не дорівнювати одиниці, через що потрібно нормувати результат). Однак на практиці незначні відхилення від незалежності призводять лише до незначного зниження точності, і навіть у разі істотної залежності між змінними результат роботи класифікатора продовжує корелювати з істинною приналежністю образу до класів. При цьому переваги класифікатора (висока швидкість роботи, простота і масштабованість, помірні вимоги до пам'яті) часто переважують недоліки. Див. такожЛітература
|
Portal di Ensiklopedia Dunia