Надійність (статистика)У статистиці та психометрії надійність (англ. reliability) — це загальна узгодженість міри.[1] Міру вважають високонадійною, якщо вона дає схожі результати за однакових умов:
Наприклад, вимірювання зросту та ваги людини часто є надзвичайно надійними.[3][4] ТипиІснує декілька загальних класів оцінок надійності:
Відмінність від валідностіНадійність не означає валідності. Тобто, міра, яка послідовно щось вимірює, не обов'язково вимірює те, що повинно вимірюватися. Наприклад, хоч й існує багато надійних тестів на певні здібності, не всі вони будуть валідними для прогнозування, скажімо, успішності в роботі. Хоча надійність не передбачає валідності, вона все ж встановлює межу загальної валідності тесту. Тест, що не є абсолютно надійним, не може бути абсолютно валідним ані як засіб вимірювання атрибутів людини, ані як засіб прогнозування оцінок за критерієм. Надійний тест може надавати корисну валідну інформацію, але тест, який не є надійним, не може бути валідним.[7] Наприклад, якщо набір ваг послідовно вимірює вагу об'єкта як на 500 грамів більшу за справжню, то такі ваги будуть дуже надійними, але не будуть валідними (оскільки показана вага не відповідає істинній). Щоби ваги були валідними, вони повинні показувати істинну вагу об'єкта. Цей приклад демонструє, що абсолютно надійна міра не обов'язково валідна, але валідна міра обов'язково мусить бути надійною. Загальна модельНа практиці жодна тестова міра не є ідеально узгодженою. Для того, щоб оцінювати вплив неузгодженості на точність вимірювання, розробили теорії надійності тестів. Базовою відправною точкою майже всіх теорій надійності тестів є ідея, що результати тесту відображають вплив двох типів чинників:[7]
До цих чинників належать:[7]
Мета оцінювання надійності полягає в тому, щоб визначити, яка частина варіативності в результатах тесту зумовлена похибками вимірювання, а яка — варіативністю істинних оцінок (істинного значення).[7] Істинна оцінка (англ. true score) — це відтворювана характеристика поняття, яку вимірюють. Це та частина спостережуваної оцінки, яка повторювалася би в різних випадках вимірювання за відсутності похибки. Похибки вимірювання складаються з випадкової та систематичної похибок. Вони відображають розбіжності між отриманими результатами тесту та відповідними істинними оцінками. Цю концептуальну розбивку зазвичай виражають простою рівністю: , де X — це спостережуваний тестовий бал, T — істинний бал, а E — похибка вимірювання. Класична теорія тестуванняМета теорії надійності полягає в оцінюванні похибок вимірювання та пропонуванні способів удосконалення тестів для мінімізації цих похибок. Центральне припущення теорії надійності полягає в тому, що похибки вимірювання переважно випадкові. Це не означає, що похибки виникають через випадкові процеси. Для окремої особи похибка вимірювання не є абсолютно випадковою подією. Однак для великої кількості осіб причини похибок вимірювання вважають настільки різноманітними, що ці похибки поводяться як випадкові змінні.[7] Якщо похибки мають основні характеристики випадкових змінних, то прийнятно виходити з того, що вони однаково ймовірно можуть бути як додатними, так і від'ємними, і що вони не корелюють з істинними оцінками чи похибками в інших тестах. Припускається, що:[8]
Теорія надійності показує, що дисперсія отриманих оцінок є просто сумою дисперсії істинних оцінок та дисперсії похибок вимірювання.[7] Це рівняння підказує, що результати тесту варіюються під впливом двох чинників:
Коефіцієнт надійності слугує індексом відносного впливу істинних і похибкових оцінок на отримані результати тесту. У загальному вигляді коефіцієнт надійності визначають як співвідношення дисперсії істинної оцінки до загальної дисперсії тестових оцінок. Або, еквівалентно, як одиницю мінус співвідношення дисперсії похибкової оцінки до дисперсії спостережуваної оцінки: На жаль, способу безпосередньо спостерігати чи обчислити істинну оцінку не існує, тому для оцінювання надійності тесту використовують різні методи. До прикладів методів оцінювання надійності належать тест-ретестова надійність, надійність внутрішньої узгодженості та надійність паралельних тестів. Кожен метод підходить до визначення джерел похибки в тесті дещо по-різному. Теорія відгуку завданняТеоретики класичного тестування добре знали, що точність вимірювання не рівномірна по всій шкалі вимірювання. Тести зазвичай краще розрізняють тестованих із середніми рівнями риси й гірше працюють для осіб із високими та низькими результатами. Теорія відгуку завдання (ТВЗ, англ. item response theory, IRT) розширює поняття надійності від одного індексу до функції, званої інформаційною функцією (англ. information function). Інформаційна функція ТВЗ є оберненням умовної стандартної похибки спостережуваної оцінки для будь-якого заданого тестового бала. ОцінюванняМета оцінювання надійності полягає в тому, щоби визначити, яка частина варіативності в результатах тесту зумовлена похибками вимірювання, а яка — варіативністю істинних оцінок. Розроблено чотири практичні стратегії, які пропонують дієві методи оцінювання надійності тесту:[7] Тест-ретестова надійністьМетод тест-ретестової надійності безпосередньо оцінює ступінь узгодженості результатів тесту при його повторному проведенні. Він передбачає:
Кореляцію між результатами першого та повторного тестування використовують для оцінювання надійності тесту за допомогою коефіцієнта кореляції Пірсона; див. також кореляцію завдання з тестом. Метод паралельних формКлючем до цього методу є розроблення альтернативних форм тесту, еквівалентних за змістом, процесами відповіді й статистичними характеристиками. Наприклад, існують альтернативні форми для кількох тестів на загальний інтелект, і ці тести загалом вважають еквівалентними.[7] Модель паралельних тестів дозволяє розробити дві форми тесту, еквівалентні в тому сенсі, що істинна оцінка особи за формою А була би ідентичною її істинній оцінці за формою Б. Якщо обидві форми тесту провести для низки людей, відмінності між результатами за формами А і Б можуть бути зумовлені лише похибками вимірювання.[7] Це передбачає:
Кореляцію між результатами двох альтернативних форм використовують для оцінювання надійності тесту. Цей метод частково розв'язує багато проблем, притаманних методу тест-ретестової надійності. Наприклад, оскільки дві форми тесту різні, проблема ефекту перенесення не така значуща. Також частково контролюються реактивні ефекти; хоча проходження першого тесту може вплинути на відповіді в другому. Втім, логічно припустити, що цей ефект при використанні альтернативних форм тесту буде не настільки сильним, як при двократному проведенні одного й того ж тесту.[7] Проте ця методика має й недоліки:
Метод розщеплення навпілЦей метод розглядає дві половини міри як альтернативні форми. Він пропонує просте розв'язання проблеми, з якою стикається метод паралельних форм: складність розробки альтернативних форм.[7] Він передбачає:
Кореляцію між цими двома половинами використовують для оцінювання надійності тесту. Оцінку надійності за половинами потім нарощують до повної довжини тесту за допомогою формули передбачення Спірмена — Брауна . Існує кілька способів розщеплення тесту для оцінювання надійності. Наприклад, тест на словниковий запас із 40 завдань можливо розділити на два підтести: перший складений із завдань з 1 по 20, а другий — із завдань з 21 по 40. Проте відповіді на першу половину можуть систематично відрізнятися від відповідей на другу половину через збільшення складності завдань і втому.[7] При розщепленні тесту дві половини мають бути максимально схожими як за змістом, так і за ймовірним станом респондента. Найпростіший метод — це розщеплення на непарні та парні завдання, де завдання з непарними номерами становлять одну половину тесту, а завдання з парними номерами — іншу. Така організація гарантує, що кожна половина міститиме рівну кількість завдань із початку, середини та кінця оригінального тесту.[7] Внутрішня узгодженістьВнутрішня узгодженість оцінює узгодженість результатів між завданнями одного тесту. Найпоширенішою мірою внутрішньої узгодженості є α Кронбаха, яку зазвичай інтерпретують як середнє значення всіх можливих коефіцієнтів розщеплення навпіл.[9] α Кронбаха є узагальненням попередньої форми оцінювання внутрішньої узгодженості — формули 20 Кудера — Річардсона .[9] Хоч α Кронбаха і є найуживанішим коефіцієнтом, щодо нього існують певні хибні уявлення.[10][11] Ці міри надійності відрізняються своєю чутливістю до різних джерел похибок, і тому можуть не збігатися. Крім того, надійність є властивістю оцінок міри, а не самої міри, й тому її вважають залежною від вибірки. Оцінки надійності з однієї вибірки можуть відрізнятися від оцінок з іншої вибірки (більше, ніж очікувалося би через варіації вибірки), якщо друга вибірка походить з іншої сукупності, оскільки істинна варіативність у цій другій сукупності відмінна. (Це стосується всіх типів мір — наприклад, метрові лінійки можуть добре вимірювати будинки, але матимуть дуже низьку надійність при вимірюванні довжини комах.) Надійність можна підвищити завдяки чіткості формулювань (для письмових оцінювань), подовженню міри[9] та іншим неформальним заходам. Проте найефективнішим способом підвищення надійності вважають формальний психометричний аналіз, званий аналізом завдань. Цей аналіз складається з обчислення індексів складності завдань (англ. item difficultiy) і розрізнювальності завдань (англ. item discrimination), де останній індекс передбачає обчислення кореляцій між завданнями та сумою оцінок за всіма завданнями тесту. Якщо замінити завдання, що є надто складними, надто легкими та/або мають майже нульову або від'ємну розрізнювальність, на кращі завдання, надійність міри зросте.
Див. також
Примітки
ПосиланняВікісховище має мультимедійні дані за темою: Надійність (статистика)
|
Portal di Ensiklopedia Dunia