Надійність (статистика)

У статистиці та психометрії надійність (англ. reliability) — це загальна узгодженість міри.^[1] Міру вважають високонадійною, якщо вона дає схожі результати за однакових умов:

Це характеристика набору тестових оцінок, яка стосується кількості випадкової похибки процесу вимірювання, що може міститися в цих оцінках. Оцінки з високою надійністю точні, відтворювані й узгоджені від одного випадку тестування до іншого. Тобто, якби процес тестування повторили для групи тестованих, було би отримано практично ті самі результати. Для позначення кількості похибки в оцінках зазвичай використовують різні види коефіцієнтів надійності, зі значеннями в діапазоні від 0,00 (багато похибки) до 1,00 (немає похибки).^[2]
Оригінальний текст (англ.)
It is the characteristic of a set of test scores that relates to the amount of random error from the measurement process that might be embedded in the scores. Scores that are highly reliable are precise, reproducible, and consistent from one testing occasion to another. That is, if the testing process were repeated with a group of test takers, essentially the same results would be obtained. Various kinds of reliability coefficients, with values ranging between 0.00 (much error) and 1.00 (no error), are usually used to indicate the amount of error in the scores.

Наприклад, вимірювання зросту та ваги людини часто є надзвичайно надійними.^[3]^[4]

Типи

Існує декілька загальних класів оцінок надійності:

Міжекспертна надійність(інші мови) (англ. inter-rater reliability) оцінює ступінь узгодженості між двома чи більше оцінювачами у їхніх судженнях. Наприклад, людина скаржиться на біль у шлунку, і різні лікарі встановлюють один і той самий діагноз.^[5]^:71
Тест-ретестова надійність (англ. test-retest reliability) оцінює ступінь узгодженості результатів тесту при його повторному проведенні. Вимірювання збирають від одного оцінювача, який використовує ті самі методи або інструменти за тих самих умов тестування.^[4] Це охоплює внутрішньоекспертну надійність(інші мови) (англ. intra-rater reliability).
Міжметодна надійність (англ. inter-method reliability) оцінює ступінь узгодженості результатів тесту за варіацій у методах чи інструментах. Це дозволяє виключити міжекспертну надійність як чинник впливу. Коли йдеться про бланки(інші мови), її можуть називати надійністю паралельних форм (англ. parallel-forms reliability).^[6]
Надійність внутрішньої узгодженісті (англ. internal consistency reliability) оцінює узгодженість результатів між різними завданнями одного тесту.^[6]

Відмінність від валідності

Див. також: Валідність (статистика)#Надійність

Надійність не означає валідності. Тобто, міра, яка послідовно щось вимірює, не обов'язково вимірює те, що повинно вимірюватися. Наприклад, хоч й існує багато надійних тестів на певні здібності, не всі вони будуть валідними для прогнозування, скажімо, успішності в роботі.

Хоча надійність не передбачає валідності, вона все ж встановлює межу загальної валідності тесту. Тест, що не є абсолютно надійним, не може бути абсолютно валідним ані як засіб вимірювання атрибутів людини, ані як засіб прогнозування оцінок за критерієм. Надійний тест може надавати корисну валідну інформацію, але тест, який не є надійним, не може бути валідним.^[7]

Наприклад, якщо набір ваг послідовно вимірює вагу об'єкта як на 500 грамів більшу за справжню, то такі ваги будуть дуже надійними, але не будуть валідними (оскільки показана вага не відповідає істинній). Щоби ваги були валідними, вони повинні показувати істинну вагу об'єкта. Цей приклад демонструє, що абсолютно надійна міра не обов'язково валідна, але валідна міра обов'язково мусить бути надійною.

Загальна модель

На практиці жодна тестова міра не є ідеально узгодженою. Для того, щоб оцінювати вплив неузгодженості на точність вимірювання, розробили теорії надійності тестів. Базовою відправною точкою майже всіх теорій надійності тестів є ідея, що результати тесту відображають вплив двох типів чинників:^[7]

Чинники узгодженості (англ. consistency factors): стабільні характеристики особи або атрибута, який намагаються вимірювати.
Чинники неузгодженості (англ. inconsistency factors): особливості особи або ситуації, які можуть впливати на результати тесту, але не мають стосунку до вимірюваного атрибута.

До цих чинників належать:^[7]

Тимчасові, але загальні характеристики особи: стан здоров'я, втома, мотивація, емоційне напруження.
Тимчасові й особисті характеристики особи: розуміння конкретного тестового завдання, специфічні прийоми чи техніки роботи з матеріалами тесту, коливання пам'яті, уваги або точності.
Аспекти тестової ситуації: відсутність відволікаючих чинників, зрозумілість інструкцій, взаємодія особистості тощо.
Випадкові чинники: удача при виборі відповідей шляхом вгадування, миттєві відволікання.

Мета оцінювання надійності полягає в тому, щоб визначити, яка частина варіативності в результатах тесту зумовлена похибками вимірювання, а яка — варіативністю істинних оцінок (істинного значення).^[7]

Істинна оцінка (англ. true score) — це відтворювана характеристика поняття, яку вимірюють. Це та частина спостережуваної оцінки, яка повторювалася би в різних випадках вимірювання за відсутності похибки.

Похибки вимірювання складаються з випадкової та систематичної похибок. Вони відображають розбіжності між отриманими результатами тесту та відповідними істинними оцінками.

Цю концептуальну розбивку зазвичай виражають простою рівністю:

$X=T+E$ , де X — це спостережуваний тестовий бал, T — істинний бал, а E — похибка вимірювання.

Класична теорія тестування

Докладніше: Класична теорія тестування

Мета теорії надійності полягає в оцінюванні похибок вимірювання та пропонуванні способів удосконалення тестів для мінімізації цих похибок.

Центральне припущення теорії надійності полягає в тому, що похибки вимірювання переважно випадкові. Це не означає, що похибки виникають через випадкові процеси. Для окремої особи похибка вимірювання не є абсолютно випадковою подією. Однак для великої кількості осіб причини похибок вимірювання вважають настільки різноманітними, що ці похибки поводяться як випадкові змінні.^[7]

Якщо похибки мають основні характеристики випадкових змінних, то прийнятно виходити з того, що вони однаково ймовірно можуть бути як додатними, так і від'ємними, і що вони не корелюють з істинними оцінками чи похибками в інших тестах.

Припускається, що:^[8]

Середнє значення похибки вимірювання = 0
Істинні оцінки та похибки не корелюють
Похибки в різних вимірюваннях не корелюють

Теорія надійності показує, що дисперсія отриманих оцінок є просто сумою дисперсії істинних оцінок та дисперсії похибок вимірювання.^[7]

\sigma _{X}^{2}=\sigma _{T}^{2}+\sigma _{E}^{2}

Це рівняння підказує, що результати тесту варіюються під впливом двох чинників:

Варіативності істинних оцінок.
Варіативності, зумовленої похибками вимірювання.

Коефіцієнт надійності $\rho _{xx'}$ слугує індексом відносного впливу істинних і похибкових оцінок на отримані результати тесту. У загальному вигляді коефіцієнт надійності визначають як співвідношення дисперсії істинної оцінки до загальної дисперсії тестових оцінок. Або, еквівалентно, як одиницю мінус співвідношення дисперсії похибкової оцінки до дисперсії спостережуваної оцінки:

\rho _{xx'}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=1-{\frac {\sigma _{E}^{2}}{\sigma _{X}^{2}}}

На жаль, способу безпосередньо спостерігати чи обчислити істинну оцінку не існує, тому для оцінювання надійності тесту використовують різні методи.

До прикладів методів оцінювання надійності належать тест-ретестова надійність, надійність внутрішньої узгодженості та надійність паралельних тестів. Кожен метод підходить до визначення джерел похибки в тесті дещо по-різному.

Теорія відгуку завдання

Теоретики класичного тестування добре знали, що точність вимірювання не рівномірна по всій шкалі вимірювання. Тести зазвичай краще розрізняють тестованих із середніми рівнями риси й гірше працюють для осіб із високими та низькими результатами. Теорія відгуку завдання (ТВЗ, англ. item response theory, IRT) розширює поняття надійності від одного індексу до функції, званої інформаційною функцією (англ. information function). Інформаційна функція ТВЗ є оберненням умовної стандартної похибки спостережуваної оцінки для будь-якого заданого тестового бала.

Оцінювання

Мета оцінювання надійності полягає в тому, щоби визначити, яка частина варіативності в результатах тесту зумовлена похибками вимірювання, а яка — варіативністю істинних оцінок.

Розроблено чотири практичні стратегії, які пропонують дієві методи оцінювання надійності тесту:^[7]

Тест-ретестова надійність

Метод тест-ретестової надійності безпосередньо оцінює ступінь узгодженості результатів тесту при його повторному проведенні. Він передбачає:

Проведення тесту для групи осіб
Повторне проведення того самого тесту для тієї самої групи через певний час
Кореляцію першого набору оцінок із другим

Кореляцію між результатами першого та повторного тестування використовують для оцінювання надійності тесту за допомогою коефіцієнта кореляції Пірсона; див. також кореляцію завдання з тестом.

Метод паралельних форм

Ключем до цього методу є розроблення альтернативних форм тесту, еквівалентних за змістом, процесами відповіді й статистичними характеристиками. Наприклад, існують альтернативні форми для кількох тестів на загальний інтелект, і ці тести загалом вважають еквівалентними.^[7]

Модель паралельних тестів дозволяє розробити дві форми тесту, еквівалентні в тому сенсі, що істинна оцінка особи за формою А була би ідентичною її істинній оцінці за формою Б. Якщо обидві форми тесту провести для низки людей, відмінності між результатами за формами А і Б можуть бути зумовлені лише похибками вимірювання.^[7] Це передбачає:

Проведення однієї форми тесту для групи осіб
Через деякий час проведення альтернативної форми того самого тесту для тієї самої групи людей
Кореляцію результатів форми А з результатами форми Б

Кореляцію між результатами двох альтернативних форм використовують для оцінювання надійності тесту.

Цей метод частково розв'язує багато проблем, притаманних методу тест-ретестової надійності. Наприклад, оскільки дві форми тесту різні, проблема ефекту перенесення(інші мови) не така значуща. Також частково контролюються реактивні ефекти; хоча проходження першого тесту може вплинути на відповіді в другому. Втім, логічно припустити, що цей ефект при використанні альтернативних форм тесту буде не настільки сильним, як при двократному проведенні одного й того ж тесту.^[7]

Проте ця методика має й недоліки:

Може бути дуже складно створити кілька альтернативних форм тесту.
Також може бути складно, якщо не неможливо, гарантувати, що дві альтернативні форми тесту є паралельними мірами.

Метод розщеплення навпіл

Цей метод розглядає дві половини міри як альтернативні форми. Він пропонує просте розв'язання проблеми, з якою стикається метод паралельних форм: складність розробки альтернативних форм.^[7] Він передбачає:

Проведення тесту для групи осіб
Розщеплення тесту навпіл
Кореляцію результатів за однією половиною тесту з результатами за іншою половиною

Кореляцію між цими двома половинами використовують для оцінювання надійності тесту. Оцінку надійності за половинами потім нарощують до повної довжини тесту за допомогою формули передбачення Спірмена — Брауна(інші мови).

Існує кілька способів розщеплення тесту для оцінювання надійності. Наприклад, тест на словниковий запас із 40 завдань можливо розділити на два підтести: перший складений із завдань з 1 по 20, а другий — із завдань з 21 по 40. Проте відповіді на першу половину можуть систематично відрізнятися від відповідей на другу половину через збільшення складності завдань і втому.^[7]

При розщепленні тесту дві половини мають бути максимально схожими як за змістом, так і за ймовірним станом респондента. Найпростіший метод — це розщеплення на непарні та парні завдання, де завдання з непарними номерами становлять одну половину тесту, а завдання з парними номерами — іншу. Така організація гарантує, що кожна половина міститиме рівну кількість завдань із початку, середини та кінця оригінального тесту.^[7]

Внутрішня узгодженість

Внутрішня узгодженість оцінює узгодженість результатів між завданнями одного тесту. Найпоширенішою мірою внутрішньої узгодженості є α Кронбаха, яку зазвичай інтерпретують як середнє значення всіх можливих коефіцієнтів розщеплення навпіл.^[9] α Кронбаха є узагальненням попередньої форми оцінювання внутрішньої узгодженості — формули 20 Кудера — Річардсона(інші мови).^[9] Хоч α Кронбаха і є найуживанішим коефіцієнтом, щодо нього існують певні хибні уявлення.^[10]^[11]

Ці міри надійності відрізняються своєю чутливістю до різних джерел похибок, і тому можуть не збігатися. Крім того, надійність є властивістю оцінок міри, а не самої міри, й тому її вважають залежною від вибірки. Оцінки надійності з однієї вибірки можуть відрізнятися від оцінок з іншої вибірки (більше, ніж очікувалося би через варіації вибірки), якщо друга вибірка походить з іншої сукупності, оскільки істинна варіативність у цій другій сукупності відмінна. (Це стосується всіх типів мір — наприклад, метрові лінійки можуть добре вимірювати будинки, але матимуть дуже низьку надійність при вимірюванні довжини комах.)

Надійність можна підвищити завдяки чіткості формулювань (для письмових оцінювань), подовженню міри^[9] та іншим неформальним заходам. Проте найефективнішим способом підвищення надійності вважають формальний психометричний аналіз, званий аналізом завдань. Цей аналіз складається з обчислення індексів складності завдань (англ. item difficultiy) і розрізнювальності завдань (англ. item discrimination), де останній індекс передбачає обчислення кореляцій між завданнями та сумою оцінок за всіма завданнями тесту. Якщо замінити завдання, що є надто складними, надто легкими та/або мають майже нульову або від'ємну розрізнювальність, на кращі завдання, надійність міри зросте.