Теорія узагальнюваності

Тео́рія узага́льнюваності (англ. Generalizability theory, G theory) — це статистична система для концептуалізації, дослідження та проєктування надійних спостережень. Її використовують для визначення надійності (тобто відтворюваності) вимірювань за конкретних умов. Вона особливо корисна для оцінювання надійності оцінювання успішності. Її вперше представили Лі Кронбах(інші мови), Н. Раджаратнам і Ґолдайн Ґлезер(інші мови) 1963 року.

Огляд

У теорії узагальнюваності джерела дисперсії називають аспектами (англ. facets). Аспекти подібні до «факторів», які використовують у дисперсійному аналізі, до них, серед інших можливостей, можуть належати особи, оцінювачі, завдання/форми, час і постановка. Ці аспекти є потенційними джерелами похибки, і призначенням теорії узагальнюваності є кількісна оцінка обсягу похибки, спричиненої кожним аспектом та взаємодією аспектів. Корисність даних, отриманих у дослідженні узагальнюваності (англ. G study), критично залежить від конструкції дослідження. Тому дослідник повинен ретельно обміркувати, як він/вона сподівається узагальнювати будь-які конкретні результати. Чи важливо узагальнювати з однієї постановки на більше число постановок? З одного оцінювача на більшу кількість оцінювачів? З одного набору завдань на більший набір завдань? Відповіді на ці запитання варіюватимуться від одного дослідника до іншого й визначатимуть конструкцію дослідження узагальнюваності різними способами.

Окрім визначення, які аспекти дослідник загалом бажає вивчати, необхідно встановити, який аспект слугуватиме об'єктом вимірювання (наприклад, систематичним джерелом дисперсії) для цілей аналізу. Решту аспектів розглядають як джерела похибки вимірювання. У більшості випадків об'єктом вимірювання буде особа, якій призначують число/оцінку. В інших випадках це може бути група виконавців, наприклад, команда чи клас. В ідеалі, майже вся вимірювана дисперсія має бути приписана об'єкту вимірювання (наприклад, індивідуальним відмінностям), з лише мінімальною часткою дисперсії, приписаною решті аспектів (наприклад, оцінювач, час, постановка).

Результати з дослідження узагальнюваності можливо також використовувати для інформування дослідження рішення (англ. decision study, D study). У дослідженні рішення ми можемо поставити гіпотетичне запитання: «Що сталося би, якби різні аспекти цього дослідження було змінено?» Наприклад, компанія з виробництва безалкогольних напоїв може зацікавитися оцінкою якості нового продукту за допомогою споживчої шкали оцінювання. Використовуючи дослідження рішення, можливо оцінити, як зміниться послідовність оцінок якості, якщо споживачам поставити 10 питань замість 2, або якщо напій оцінять 1 000 споживачів замість 100. Завдяки моделюванню досліджень рішення можливо дослідити, як зміняться коефіцієнти узагальнюваності (подібні до коефіцієнтів надійності в класичній теорії тестування) за різних обставин і, відповідно, визначити ідеальні умови, за яких наші вимірювання будуть найнадійнішими.

Порівняння з класичною теорією тестування

Увага класичної теорії тестування (КТТ) зосереджена на визначенні похибки вимірювання. Мабуть, найвідомішою моделлю КТТ є рівняння $X=T+E$ , де $X$ є спостережуваною оцінкою, $T$ — істинною оцінкою, а $E$ — похибкою вимірювання. Хоча $E$ може подавати багато різних типів похибок, як-от похибку оцінювача чи інструмента, КТТ дозволяє оцінювати лише один тип похибки за раз. По суті, вона вкидає всі джерела похибки до одного члену похибки. Це може бути прийнятним у контексті суворо контрольованих лабораторних умов, але варіативність є частиною повсякденного життя. У польових дослідженнях, наприклад, нереалістично очікувати, що умови вимірювання залишатимуться сталими. Теорія узагальнюваності визнає та враховує варіативність умов оцінювання, яка може впливати на вимірювання. Перевага теорії узагальнюваності полягає в тому, що дослідники можуть оцінювати, яку частку загальної дисперсії результатів спричиняють окремі чинники, які часто змінюються під час оцінювання, як-от постановка, час, завдання та оцінювачі.

Ще однією важливою відмінністю між КТТ і теорією узагальнюваності є те, що останній підхід враховує, як може змінюватися узгодженість результатів залежно від того, чи міру використовують для ухвалення абсолютних, чи відносних рішень. Наприклад, абсолютним або орієнтованим на критерій (англ. criterion-referenced) рішенням є порівняння тестової оцінки особи з пороговою оцінкою для визначення відповідності або діагнозу (наприклад, оцінку дитини в тесті досягнень використовують для визначення відповідності програмі для обдарованих дітей). Натомість відносним або орієнтованим на норму (англ. norm-referenced) рішенням є використання тестової оцінки особи для (а) визначення її відносного становища у порівнянні з однолітками (наприклад, оцінку дитини в підтесті з читання використовують для визначення, до якої групи з читання її віднести), або (б) здійснення внутрішньоіндивідуальних порівнянь (наприклад, порівняння попередньої й поточної успішності однієї й тієї ж особи). Тип рішення, який цікавить дослідника, визначатиме формулу, яку слід використовувати для обчислення коефіцієнта узагальнюваності (подібного до коефіцієнта надійності в КТТ).

Див. також

Теорія відгуку завдання

Джерела

Brennan, R. L. (2001). Generalizability Theory (англ.). New York: Springer-Verlag. ISBN 978-0-387-95282-6.
Chiu, C.W.C. (2001). Scoring performance assessments based on judgements: generalizability theory (англ.). New York: Kluwer. ISBN 978-0-7923-7499-2.
Crocker, L.; Algina, J. (1986). Introduction to Classical and Modern Test Theory (англ.). New York: Harcourt Brace. ISBN 978-0-495-39591-1.
Cronbach, L.J.; Gleser, G.C.; Nanda, H.; Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles (PDF) (англ.). New York: John Wiley. ISBN 0-471-18850-6.
Cronbach, L.J.; Nageswari, R.; Gleser, G.C. (1963). Theory of generalizability: A liberalization of reliability theory. The British Journal of Statistical Psychology (англ.). 16: 137—163. doi:10.1111/j.2044-8317.1963.tb00206.x.
Shrout, P. E.; Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin (англ.). 86 (2): 420—428. doi:10.1037/0033-2909.86.2.420.
Shavelson, R.J.; Webb, N.M. (1991). Generalizability Theory: A Primer (англ.). Thousand Oaks, CA: Sage. ISBN 978-0803937451.