F-міра![]() В статистичнім аналізі бінарної класифікації, F-міра (англ. F-score, F-measure) — це одна з мір точності тесту. Її обчислюють через влучність та повноту тесту, де влучність є числом правильно визначених позитивних результатів, поділеним на число всіх позитивних результатів, включно з визначеними неправильно, а повнота є числом правильно визначених позитивних результатів, поділеним на число всіх зразків, які повинно було бути визначено як позитивні[1]. Міра F1 є середнім гармонійним цих влучності та повноти[2]. Загальніша міра Fβ застосовує додаткові ваги, оцінюючи або влучність, або повноту вище за іншу. Найвищим можливим значенням F-міри є 1, що вказує на ідеальні влучність та повноту, а найнижчим можливим значенням є 0, якщо або влучність, або повнота є нульовими. Міра F1 є також відомою як індекс Соренсена, та коефіцієнт подібності Дайса (англ. Dice similarity coefficient, DSC).[джерело?] ЕтимологіяВважають, що назву F-міри вона отримала на честь іншої F-функції з книги ван Рійсберґена, коли її було представлено та четвертій Конференції з розуміння повідомлень[en] (англ. Fourth Message Understanding Conference, MUC-4, 1992)[3]. Визначення
Традиційна F-міра, або збалансована F-оцінка (міра F1) є середнім гармонійним влучності та повноти:
FβЗагальнішою F-мірою, Fβ, що використовує додатний дійснозначний коефіцієнт β, де β обирають так, що повноту вважають у β разів важливішою за влучність, є
В термінах помилок першого і другого роду це стає:
Двома широко вживаними значеннями β є 2, яке надає повноті більшої ваги, ніж влучності, та 0,5, яке надає повноті меншої ваги, ніж влучності. F-міру було виведено таким чином, що Fβ «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності»[4]. Вона ґрунтується на мірі ефективності ван Рійсберґена[en]
Вони є взаємопов'язаними як Fβ = 1 − E, де α = 1/1 + β2. Діагностичне дослідженняВоно пов'язане з галуззю бінарної класифікації, де повноту часто називають «чутливістю».
ЗастосуванняF-міру часто використовують в галузі інформаційного пошуку для вимірювання продуктивності пошуку, класифікації документів, та класифікації запитів[en][5]. Ранні праці зосереджувалися переважно на мірі F1, але з поширенням великомасштабних пошукових рушіїв цілі продуктивності змінилися на акцентування більшої уваги або на влучності, або на повноті[6], тож Fβ помітно у широкому вжитку. F-міру також використовують у машиннім навчанні[7]. Проте, F-міри не беруть до уваги істинно негативних, тож для оцінювання продуктивності бінарного класифікатора можуть віддавати перевагу коефіцієнтові кореляції Меттьюза[en] чи каппі Коена[en][8]. F-міра знайшла широкий вжиток в літературі з обробки природних мов[9], наприклад, при оцінюванні розпізнавання іменованих сутностей та поділу на слова[en]. КритикаДевід Генд[en] та інші критикують широке використання міри F1, оскільки вона надає однакової важливості влучності та повноті. На практиці, різні типи помилкової класифікації призводять до різних втрат. Іншими словами, відносна важливість влучності та повноти є одним із аспектів задачі[10]. Згідно Давіде Чікко та Джузеппе Журмана, міра F1 є менш правдивою та інформативною для класифікації бінарного оцінювання, ніж коефіцієнт кореляції Меттьюза[en] (ККМ, англ. Matthews correlation coefficient, MCC)[11]. Девід Пауерс вказав, що F1 ігнорує істинно негативні, й відтак є оманливою для незбалансованих класів, тоді як міри каппа та кореляції є симетричними, й оцінюють обидва напрямки передбачуваності — класифікатор, що передбачує істинний клас, та істинний клас, що передбачує передбачення класифікатора, пропонуючи окремі багатокласові міри поінформованості[en] та маркованості[en] для цих двох напрямків, зазначаючи, що їхнє середнє геометричне є кореляцією[12]. Відмінність від індексу Фаулкса — МеттьюзаВ той час як F-міра є середнім гармонійним повноти та влучності, індекс Фаулкса — Меттьюза[en] є їхнім середнім геометричним[13]. Розширення до багатокласової класифікаціїF-міру також використовують для оцінювання задач із понад двома класами (багатокласова класифікація[en]). В цій постановці остаточну міру отримують мікроусереднюванням (з упередженням за частотою класів) або макроусереднюванням (беручи всі класи однаково важливими). Для макроусереднювання застосовувачі використовувати дві різні формули: F-міру (арифметичних) середніх влучності та повноти по всіх класах, та арифметичне середнє F-мір по всіх класах, серед яких крайня виявляє бажаніші властивості[14]. Див. також
Примітки
|
Portal di Ensiklopedia Dunia