Проблема множинних порівняньУ статистиці проблема множинних порівнянь або багаторазового тестування виникає, коли дослідник одночасно порівнює декілька груп за допомогою статистичного тесту. Чим більше груп порівнюються між собою, тим вірогіднішими стають помилкові висновки статистичного тесту, а саме помилка першого типу[1]. Для розв'язання цієї проблеми було розроблено кілька статистичних методів, які базуються на зниженні порогу значущості (α). Таким чином, знижуючи кількість хибно відхилених нульових гіпотез. ІсторіяУ 1930-х роках Карло Еміліо Бонферроні розробив один з перших методів корекції для множинних порівнянь, відомий як метод Бонферроні.[2] Проблема множинних порівнянь привернула підвищену увагу в 1950-х роках роботами таких статистиків, як Тьюкі та Шеффе. Протягом наступних десятиліть було розроблено багато методів для розв'язання цієї проблеми. У 1996 році в Тель-Авіві відбулася перша міжнародна конференція з методів множинного порівняння.[3] ВизначенняПід час проведення будь-якого статистичного тесту існує імовірність помилкового відкидання нульової гіпотези яка насправді є правдивою. Величина цієї імовірності () обирається дослідником заздалегідь, до проведення самого тесту, і визначається як рівень помилки першого роду. Найчастіше рівень альфа дорівнює 5 %. Тобто якщо дослідник проведе 100 тестів ми можемо очікувати що у 5 із них буде помилково відхилена нульова гіпотеза, за умови що вона є насправді вірною. Такі результати називаються хибно позитивними. Тому у випадках, коли ми маємо багато груп або параметрів які ми хочемо попарно порівняти, 5 % результатів виявляться хибно позитивними. І чим більше попарних порівнянь, тим більша кількість результатів проведених тестів будуть помилковими. Тобто тест виявить значиму відмінність між двома групами коли її насправді не існує. Неспроможність компенсувати множинні порівняння може мати серйозні наслідки в реальному світі, як показано на наведених нижче прикладах.
В обох прикладах зі збільшенням кількості порівнянь росте імовірність того, що порівнювані групи відрізнятимуться принаймні за одним атрибутом. Росте імовірність того, що лише через велику кількість попарних порівнянь, якась пара буде статистично значимо відрізнятись. У цьому полягає суть помилки першого типу. Тому якщо інші дослідники будуть тестувати таку саму гіпотезу вони можуть і не отримати значимі результати на своїх даних. Тому такі дослідження є нереплікативними, якщо лише не була введена корекція для множинних порівнянь. Проблема множинних порівнянь спостерігається також під час розрахунку довірчих інтервалів. Один 95 % довірчий інтервал містить справжнє істинне значення невідомого параметра в 95 % випадків. Тобто, якщо ми розрахуємо 100 довірчих інтервалів, то 5 із них не міститимуть невідомий параметр. ПрикладПри порівнянні двох груп, із параметром , імовірність правильного прийняття вірної нульової гіпотези дорівнює (. Порівнюючи три групи, ця імовірність дорівнює ()()(. Відповідно, імовірність хибного відхилення нульової гіпотези () вже дорівнює . Цей процес називається інфляцією альфа, тобто, збільшення імовірності неправильного відхилення нульової гіпотези яка насправді є вірною. Таблиця нижче ілюструє як параметр альфа залежить від кількості порівнянь.
Методи усунення проблемиНайбільш консервативним методом є поправка Бонферроні згідно з якою, імовірність помилки першого типу, яка має величину , діляться на кількість попарних порівнянь : , що також веде до зниження сили тесту. Наприклад, якщо ми маємо чотири групи які ми хочемо порівняти між собою, і параметр , то ми матимемо попарних порівнянь груп одна з одною. Таким чином, p-значення, отримане при порівнянні кожної із шести пар, порівнюватиметься із і для того, щоб відхилити нульову гіпотезу р-значення має бути меншим за 0.0083. Дещо менш консервативну поправку дає метод Холма–Бонферроні, який забезпечує більшу силу тесту, ніж проста корекція Бонферроні. Згідно з цим методом найнижче отримане р-значення () порівнюється із найнижчим та вищі р-значення () порівнюються із менш жорсткими критеріями:[4] . Масштабне багаторазове тестуванняТрадиційні методи множинних порівнянь, розглянуті вище, використовуються у дисперсійному аналізі, для коригування порівнянь невеликої кількості груп. Для широкомасштабного множинного тестування, під час якого виконується більша кількість тестів, існують інші методи. Наприклад, у геноміці, використовуючи такі технології, як мікроматриці, можна виміряти рівні експресії десятків тисяч генів, а також генотипи для мільйонів генетичних маркерів. Зокрема, у сфері досліджень генетичних зв'язків існувала серйозна проблема з нереплікацією — результат був статистично значущим в одному дослідженні, але його не вдалося відтворити в наступному дослідженні. Таке невідтворення може мати багато причин, але вважається, що неврахування наслідків багаторазових порівнянь є однією з причин.[5] Прогрес у вимірюванні та інформаційних технологіях значно полегшив збіг великих масивів даних для аналізу, що збільшує кількість гіпотез які треба тестувати. У цій ситуації можна очікувати дуже високі показники хибнопозитивних результатів якщо не корегувати результати методами для множинних порівнянь. Існує практика, коли множинні порівняння навмисно не корегуються аби збільшити шанси отримати значимі результати дослідження — що є важливим для багатьох дослідників та їх праць. Але такі некореговані значимі результати можуть бути отримані через помилку першого типу статистичного тесту. Така проблема має назву «p-hacking».[6][7]
Список літератури
Інші джерела
|
Portal di Ensiklopedia Dunia