Диференційоване функціонування завданьДиференційо́ване (відмі́нне) функціонува́ння завда́ння[1] (ДФЗ, англ. differential item functioning, DIF) — це статистична властивість тестового завдання, яка вказує, наскільки ймовірно, що респонденти з різних груп, які мають схожі здібності, відповідатимуть на це завдання по-різному. Воно проявляється тоді, коли респонденти з різних груп, маючи порівнянний рівень навичок, мають нерівну ймовірність правильної відповіді на запитання. Існує два основні типи ДФЗ: однорі́дне ДФЗ (англ. uniform DIF), коли одна група постійно має перевагу над іншою, та неоднорі́дне ДФЗ (англ. nonuniform DIF), коли перевага змінюється залежно від рівня здібності респондента.[2] Наявність ДФЗ потребує аналізу й оцінки, проте не завжди означає упередженість (англ. bias). Аналіз ДФЗ дає змогу виявити неочікувану поведінку завдань у тесті. ДФЗ не визначається лише різними ймовірностями вибору певної відповіді серед респондентів з різних груп. Натомість, воно проявляється тоді, коли респонденти з різних груп, маючи однакову істинну здібність в основі, демонструють різні ймовірності надавати певну відповідь. Навіть за наявності в тесті однорідного зміщення (англ. bias), розробники тестів іноді вдаються до припущень, що зміщення ДФЗ в різних завданнях можуть взаємно нівелюватися, через необхідність великої роботи для їх усунення, компрометуючи етичність тесту та закріплюючи системні упередження.[3] Поширеними методами оцінювання ДФЗ є процедура Ментела — Гензеля (англ. Mantel-Haenszel procedure), логістична регресія, методи на основі теорії відгуку завдання (ТВЗ, англ. item response theory, IRT) та методи на основі підтверджувального факторного аналізу (ПФА, англ. confirmatory factor analysis, CFA).[4] ОписДФЗ стосується відмінностей у функціонуванні завдань між групами, часто демографічними, які зіставлені за латентною рисою або, загальніше, за характеристикою, яку вимірюють ці завдання чи тест.[5][6] Важливо зазначити, що при аналізі завдань на ДФЗ ці групи мають бути зіставлені за вимірюваною характеристикою, інакше можливе некоректне виявлення ДФЗ. Щоби сформувати загальне розуміння ДФЗ або зміщення вимірювання (англ. measurement bias), розгляньмо такий приклад, запропонований Остерліндом та Еверсоном (2009).[7] У цьому випадку позначує відгук певного тестового завдання, який визначається вимірюваним латентним конструктом . Латентний конструкт, що нас цікавить, позначують через тета (), де є покажчиком , який можливо подати у термінах розподілу ймовірності за за допомогою виразу . Отже, відгук обумовлено латентною рисою (). Оскільки ДФЗ аналізує відмінності в умовних імовірностях між групами, позначмо ці групи як «референтну» (англ. "reference") та «фокусну» (англ. "focal"). Хоча сама назва не має значення, типова практика в літературі полягає в тому, щоби позначувати референтною ту групу, яка за підозрою має перевагу, тоді як фокусна група — це та, яку цей тест очікувано ставитиме в невигідне становище.[5] Отже, за функційної залежності і за припущення ідентичності розподілів похибки вимірювання для референтної та фокусної груп можливо зробити висновок, що за нульової гіпотези де відповідає змінній групування, — референтна група, а — фокусна. Це рівняння подає випадок, коли ДФЗ відсутнє. У ньому відсутність ДФЗ визначається тим, що умовний розподіл імовірності не залежить від групової приналежності. Для ілюстрації розгляньмо завдання з варіантами відповіді і , де вказує на неправильну відповідь, а — на правильну. Ймовірність відповісти на завдання правильно однакова для учасників обох груп. Це вказує на відсутність ДФЗ чи упередження завдання, оскільки учасники референтної та фокусної груп із однаковою здібністю чи характеристикою в основі мають однакову ймовірність відповісти правильно. Отже, немає упередженості або невигідного становища для однієї з груп відносно іншої. Розгляньмо випадок, коли умовна ймовірність не однакова для референтної й фокусної груп. Іншими словами, учасники з різних груп, що мають однаковий рівень характеристики чи здібності, мають відмінні розподіли ймовірності . При контролі спостерігається явна залежність між груповою приналежністю та успішністю в завданні. Для дихотомних завдань це означає, що коли фокусна й референтна групи перебувають на одному рівні , ймовірність правильної відповіді або схвалення в завданні різна. Отже, група з вищою умовною ймовірністю правильно відповісти на завдання є тією, якій це завдання дає перевагу. Це свідчить про те, що тестове завдання упереджене й функціонує по-різному для цих груп, тобто проявляє ДФЗ. Важливо розрізняти ДФЗ чи упередженість вимірювання та звичайні групові відмінності. У той час як групові відмінності вказують на різні розподіли оцінок за , ДФЗ чітко передбачає обумовленість за . Наприклад, розгляньмо наступне рівняння: Це вказує на обумовленість оцінки респондента групуванням, тобто наявність інформації про групову належність змінює ймовірність правильної відповіді. Отже, якщо групи різняться за , а успішність залежить від , то наведене рівняння вказуватиме на упередженість завдання навіть за відсутності ДФЗ. Саме тому в літературі з вимірювань загальновизнано, що відмінності за , обумовлені лише груповою приналежністю, недостатні для встановлення упередженості.[8][9][10] Насправді, відмінності між групами за чи здібностями поширені й становлять основу для численних досліджень. Щоби встановити упередженість або ДФЗ, групи мають бути зіставлені за , а потім повинні продемонструвати диференційовані ймовірності за як функцію групової приналежності. ФормиОднорідне ДФЗ (англ. uniform DIF) — найпростіший тип ДФЗ, коли величина умовної залежності залишається відносно незмінною впродовж усього континууму латентної риси (). Відповідне завдання стабільно надає перевагу одній групі на всіх рівнях здібності .[11] У межах теорії відгуку завдання (ТВЗ) це спостерігається тоді, коли обидві характеристичні криві завдання (ХКЗ, англ. item characteristic curves, ICC) мають однакові параметри розрізнювальності, проте відрізняються за параметрами складності (тобто та ), як зображено на рисунку 1.[12] Натомість, неоднорідне ДФЗ (англ. nonuniform DIF) є цікавішим випадком. На відміну від стабільної переваги, яку завдання надає референтній групі на всьому континуумі здібності, умовна залежність зміщується та змінює напрямок у різних місцях континууму .[13] Наприклад, завдання може надавати референтній групі незначну перевагу на нижньому кінці континууму, але значно більшу на верхньому. Крім того, на відміну від однорідного ДФЗ, у випадку неоднорідного ДФЗ завдання може водночас відрізнятися для двох груп за розрізнювальністю та за складністю (тобто та ). Ще складнішим випадком є «перехресне» неоднорідне ДФЗ (англ. "crossing" nonuniform DIF). Як показано на рисунку 2, таке явище виникає, коли завдання надає перевагу референтній групі на одному кінці континууму , а фокусній групі — на іншому. Відмінності між ХКЗ вказують на те, що респонденти з цих двох груп, які мають однаковий рівень здібності, мають відмінні ймовірності правильно відповісти на завдання. Якщо криві відрізняються, але не перетинаються, це свідчить про однорідне ДФЗ. Проте, якщо ХКЗ перетинаються в якійсь точці шкали , має місце неоднорідне ДФЗ.
Процедури для виявляння ДФЗПроцедура Ментела — ГензеляОднією з поширених процедур для виявляння ДФЗ є підхід Ментела — Гензеля (МГ, англ. Mantel-Haenszel, MH).[14] Процедура МГ — це підхід на основі таблиці спряженості критерію хі-квадрат, який аналізує відмінності між референтною та фокусною групами для всіх завдань тесту, одне за одним.[15] Континуум здібності, визначений загальними тестовими оцінками, розділяють на інтервалів, що потім слугує основою для зіставляння учасників обох груп.[16] На кожному з інтервалів використовують таблицю спряженості 2 × 2, щоби порівняти обидві групи на окремому завданні. Рядки таблиці спряженості відповідають груповій приналежності (референтна чи фокусна група), а стовпці — правильній чи неправильній відповіді. Наступна таблиця подає загальний вигляд для одного завдання на -тому інтервалі здібності.
Примітка. , , і відповідають спостережуваним частотам у відповідних клітинках. Індекс відповідає інтервалу здібності. Відношення шансівНаступним кроком в розрахунку статистики МГ є використання даних із таблиці спряженості для отримання відношення шансів цих двох груп щодо досліджуваного завдання на певному інтервалі . Це виражають через і , де позначує частку правильних відповідей, а — частку неправильних відповідей як для референтної (), так і для фокусної () груп. У процедурі МГ отримуване відношення шансів позначують через , що може набувати значень від до . Значення вказує на відсутність ДФЗ, тобто подібну успішність обох груп. Значення, більше за , свідчить, що референтна група перевершила фокусну групу, або сприйняла завдання як менш складне порівняно з нею. З іншого боку, якщо отримане значення менше за , це вказує, що завдання було менш складним для фокусної групи.[10] З використанням змінних із наведеної вище таблиці спряженості розрахунок виглядає так: Наведений вище розрахунок стосується окремого завдання на конкретному інтервалі здібностей. Сукупнісну оцінку можливо розширити, щоби вона відображала загальне відношення шансів над усіма інтервалами здібності для певного завдання. Загальний оцінювач відношення шансів позначують через і обчислюють за формулою для всіх значень , де — загальний розмір вибірки на -му інтервалі. Отримане значення часто стандартизують за допомогою логарифмічного перетворення, центруючи його навколо 0.[17] Новий перетворений оцінювач обчислюють так: Відтак, отримане значення 0 вказуватиме на відсутність ДФЗ. Важливо зазначити, що знак «мінус» у цьому рівнянні змінює інтерпретацію значень, менших або більших за 0. Менші за 0 значення вказують на перевагу референтної групи, тоді як більші за 0 значення вказують на перевагу фокусної групи. Теорія відгуку завданняТеорія відгуку завдання (ТВЗ, англ. item response theory, IRT) — ще один широко використовуваний метод для оцінювання ДФЗ. ТВЗ дозволяє докладно аналізувати відгуки окремих завдань тесту або вимірювального інструменту. Як зазначено раніше, ДФЗ досліджує ймовірність правильної відповіді або схвалення завдання, залежно від латентної риси чи здібності. Оскільки ТВЗ аналізує монотонний зв'язок між відповідями та латентною рисою чи здібністю, цей підхід добре підходить для дослідження ДФЗ.[18] Три основні переваги використання ТВЗ для виявляння ДФЗ:[19]
Щодо ДФЗ, оцінки параметрів завдань обчислюють та аналізують графічно за допомогою характеристичних кривих завдання (ХКЗ, англ. item characteristic curves, ICC), також відомих як функції відгуку завдання (ФВЗ, англ. item response functions, IRF). Після огляду ХКЗ й виникнення підозри на ДФЗ застосовують статистичні процедури для перевірки відмінностей між оцінками параметрів. ХКЗ подають математичні функції, що описують зв'язок між положенням на континуумі латентної риси та ймовірністю вибору певної відповіді.[20] На рис. 3 проілюстровано цей зв'язок у вигляді логістичної функції. Респонденти, що мають нижчий рівень латентної риси чи менші здібності, мають нижчу ймовірність правильної відповіді чи схвалення завдання, особливо якщо його складність зростає. Відтак, респонденти з вищими значеннями латентної риси чи здібності мають вищу ймовірність правильної відповіді чи схвалення завдання. Наприклад, в оцінюванні депресії респонденти з високим рівнем депресії матимуть більшу ймовірність схвалення відповідного твердження, ніж ті, хто має нижчий рівень депресії. Аналогічно, респонденти з вищими математичними здібностями мають вищу ймовірність правильної відповіді на математичне завдання порівняно з тими, в кого ці здібності нижчі. Ще один важливий аспект ХКЗ стосується точки перегину. Це точка на кривій, де ймовірність певної відповіді дорівнює 0,5, а також де значення нахилу кривої максимальне.[21] Точка перегину вказує, де ймовірність правильної відповіді або схвалення завдання стає вищою за 50 %, за винятком випадків, коли параметр більший за 0, що тоді зміщує точку перегину на (докладний опис наведено нижче). Точка перегину визначається складністю завдання, що відповідає значенням на континуумі здібності чи латентної риси.[22] Тож для простого завдання ця точка перегину може перебувати нижче за шкалою здібностей, тоді як для складного завдання — вище, за цією же шкалою.
Перш ніж представити статистичні процедури для перевірки відмінностей у параметрах завдань, важливо спершу надати загальне розуміння різних моделей оцінювання параметрів, та пов'язаних з ними параметрів. До них належать одно-, дво- та трипараметрові логістичні (ПЛ, англ. PL) моделі. Усі ці моделі виходять із наявності однієї латентної риси або здібності. Всі три моделі містять параметр складності завдання (англ. item difficulty), позначуваний через b. У моделях 1ПЛ та 2ПЛ параметр b відповідає точці перегину на шкалі здібності, як зазначено вище. У випадку моделі 3ПЛ точка перегину відповідає , де — нижня асимптота (розглянута нижче). Теоретично значення параметра складності можуть варіюватися від -∞ до +∞; проте на практиці вони зазвичай не виходять за межі ±3. Вищі значення свідчать про складніші тестові завдання. Завдання з низькими значеннями прості.[23] Ще одним оцінюваним параметром є параметр розрізнювальності (англ. discrimination), позначуваний через . Цей параметр стосується здатності завдання розрізняти респондентів за рівнем їхньої здібності. Параметр оцінюють у моделях 2ПЛ та 3ПЛ. У випадку моделі 1ПЛ цей параметр роблять рівним для всіх груп. У контексті ХКЗ параметр це нахил у точці перегину. Як було зазначено раніше, нахил у цій точці максимальний. Значення параметра , подібно до параметра , можуть варіюватися від -∞ до +∞; проте типові значення зазвичай не перевищують 2. У цьому випадку вищі значення свідчать про сильніше розрізнювання між респондентами.[24] Модель 3ПЛ містить додатковий параметр, відомий як відгадуваність (англ. guessing) або параметр псевдошансу (англ. pseudochance parameter), позначуваний через . Він відповідає нижній асимптоті, що по суті враховує можливість того, що респондент може правильно відповісти на завдання середньої або високої складності, навіть якщо його рівень здібності низький. Значення параметра варіюються в межах від 0 до 1, проте зазвичай не перевищують 0,3.[25] При застосуванні статистичних процедур для оцінювання ДФЗ особливе зацікавлення становлять параметри та (розрізнювальність і складність). Проте припустімо, що використано модель 1ПЛ, у якій параметри зафіксовано як рівні для обох груп, залишаючи лише оцінювання параметрів . Після аналізу ХКЗ виявляється очевидна різниця в параметрах між групами. З використанням методу, подібного до t-критерію Стьюдента, наступним кроком є визначення, чи є ця різниця в складності статистично значущою. За нульової гіпотези: Лорд, (1980) пропонує легко обчислюваний і нормально розподілений статистичний критерій: Стандартну похибку (англ. standard error, SE) різниці між параметрами b обчислюють як Статистика ВальдаПроте в більшості випадків модель 2ПЛ чи 3ПЛ доречніша за допасовування до даних моделі 1ПЛ, й відтак на наявність ДФЗ слід перевіряти обидва параметри та . Лорд, (1980) запропонував інший метод для перевірки відмінностей у параметрах та , у якому параметри фіксують як рівні для обох груп. Ця перевірка видає статистику Вальда , яка підпорядковується розподілу хі-квадрат. У цьому випадку нульовою гіпотезою, яку перевіряють, є . Спершу для кожної з груп обчислюють коваріаційну матрицю 2 × 2 для оцінок параметрів, які позначують через та для референтної та фокусної груп відповідно. Ці коваріаційні матриці обчислюють шляхом обернення інформаціних матриць. Далі різниці між оціненими параметрами формують у вектор 2 × 1, позначуваний через . Потім оцінюють коваріаційну матрицю шляхом додавання та . Використовуючи цю інформацію, обчислюють статистику Вальда наступним чином: що оцінюють при 2 ступенях вільності. Перевірка відношенням правдоподібностейПеревірка відношенням правдоподібностей — це ще один метод на основі ТВЗ для оцінювання ДФЗ. Ця процедура передбачає порівняння відношення двох моделей. У моделі параметри завдання фіксують як рівні або інваріантні між референтною та фокусною групами. У моделі параметри завдання можуть вільно змінюватися.[26] Функцію правдоподібності під позначують через , тоді як функцію правдоподібності під позначують через . Завдання, які фіксують як рівні, слугують якірними завданнями для цієї процедури, тоді як підозрюваним на ДФЗ завданням дозволено вільно варіюватися. Завдяки використанню якірних завдань та дозволу параметрам інших завдань варіюватися, можливо одночасно оцінювати ДФЗ для декількох завдань.[27] Проте, якщо відношення правдоподібностей вказує на потенційне ДФЗ, необхідний подальший покроковий аналіз кожного завдання, щоби визначити, які саме завдання, якщо не всі, містять ДФЗ. Відношення правдоподібностей двох моделей обчислюють як Альтернативно, це відношення можливо виразити як де та міняються місцями, і знак їхнього логарифму змінюється на протилежний. наближено підпорядковується розподілу хі-квадрат, особливо для великих вибірок. Тому його оцінюють відповідно до ступенів вільності, що відповідають кількості обмежень, необхідних для виведення обмеженої моделі з вільної.[28] Наприклад, якщо використовують модель 2ПЛ і обом параметрам та дозволено варіюватися в моделі , але ці самі параметри незмінні в моделі , то це відношення оцінюють при 2 ступенях вільності. Логістична регресіяМетоди виявляння ДФЗ за допомогою логістичної регресії передбачають окремий аналіз для кожного завдання. Незалежні змінні, які включають до аналізу, — це групова приналежність, змінна зіставляння за здібністю (зазвичай загальна оцінка в тесті) та член взаємодії між цими двома. Цільовою залежною змінною є ймовірність або правдоподібність правильної відповіді чи схвалення завдання. Оскільки цільовий результат виражають через імовірності, відповідною процедурою є метод максимальної правдоподібності.[29] Цей набір змінних можливо виразити наступним регресійним рівнянням: де відповідає відтину або ймовірності відгуку, коли та дорівнюють 0, а інші коефіцієнти відповідають ваговим коефіцієнтам для кожної незалежної змінної. Перша незалежна змінна, , це змінна зіставляння, яку використовують для зіставлення респондентів за рівнем здібностей, у цьому випадку за загальною оцінкою в тесті, подібно до процедури Ментела — Гензеля. Змінну групової приналежності позначують через і в контексті регресії подають за допомогою змінних фіктивного кодування. Останній член відповідає взаємодії між двома вищезгаданими змінними. Для цієї процедури змінні вводять ієрархічно. Відповідно до структури наведеного вище регресійного рівняння, змінні вводять у такій послідовності: змінна зіставлення , змінна групування та змінна взаємодії . Визначення ДФЗ здійснюють шляхом оцінювання отриманої статистики хі-квадрат із 2 ступенями вільності. Додатково перевіряють статистичну значущість оцінок параметрів. Ці результати логістичної регресії вказуватимуть на ДФЗ, якщо респонденти, зіставлені за здібністю, мають статистично значущі відмінності у ймовірності правильної відповіді на завдання, й відтак відмінні криві логістичної регресії. І навпаки, якщо криві для обох груп збігаються, то завдання вважають неупередженим, й відтак ДФЗ відсутнє. Що ж до однорідного й неоднорідного ДФЗ, якщо параметри змінних відтину й зіставлення для обох груп не рівні, це свідчить про однорідне ДФЗ. Проте, якщо параметр взаємодії ненульовий, це є ознакою неоднорідного ДФЗ.[30] АспектиРозмір вибіркиПерший аспект, який слід враховувати, стосується розміру вибірки, зокрема щодо референтної та фокусної груп. Перед проведенням будь-якого аналізу зазвичай уже відома інформація про кількість осіб у кожній з груп, наприклад, кількість чоловіків і жінок або представників різних етнічних/расових груп. Проте головне питання полягає в тому, чи достатня кількість осіб у кожній з груп для забезпечення належної статистичної потужності для встановлення ДФЗ. У деяких випадках, наприклад, щодо етнічної приналежності, може спостерігатися нерівність розмірів груп, коли, наприклад, білі становлять значно більшу вибірку порівняно з кожною окремою етнічною групою. Тому в таких випадках може бути доцільним модифікувати або коригувати дані, щоби порівнювані щодо ДФЗ групи були насправді рівними чи ближчими за розміром. Загальноприйнятою практикою для вирівнювання диспропорцій розмірів референтної та фокусної груп є фіктивне кодування або перекодування. В такому випадку всі небілі етнічні групи може бути об'єднано в одну, щоби створити відносно рівні вибірки для референтної та фокусної груп. Це дозволяє провести аналіз ДФЗ у форматі порівняння «більшість/меншість». Якщо такі модифікації не буде зроблено, а процедуру оцінювання ДФЗ буде проведено на нерівних вибірках, можливо, статистичної потужності буде недостатньо для виявлення ДФЗ, навіть якщо воно справді існує між групами. Ще одним аспектом, пов'язаним із розміром вибірки, є вибір статистичної процедури для виявляння ДФЗ. Окрім аспекту розмірів референтної та фокусної груп, необхідно також враховувати певні характеристики самої вибірки, щоби вона відповідала припущенням кожної статистичної перевірки, яку використовують для виявляння ДФЗ. Наприклад, застосування підходів ТВЗ може вимагати значно більших вибірок порівняно з процедурою Ментела — Гензеля. Це важливо, оскільки дослідження розміру груп може спрямовувати вибір до тієї чи іншої процедури. У підході логістичної регресії особливу увагу слід приділяти важільним значенням та викидам, які необхідно проаналізувати перед виявлянням ДФЗ. Крім того, як і з будь-яким аналізом, необхідно дотримуватися припущень статистичних перевірок. Деякі процедури стійкіші до незначних порушень припущень, тоді як інші — менш стійкі. Тому перед застосуванням будь-яких процедур ДФЗ слід дослідити характер розподілу відповідей вибірки. ЗавданняПри виявлянні ДФЗ необхідно визначити кількість завдань, які підлягатимуть аналізу. Стандарту, скільки завдань слід використовувати для виявляння ДФЗ, не існує, оскільки це залежить від конкретного дослідження. У деяких випадках доцільно перевіряти на ДФЗ усі завдання, тоді як в інших це може бути непотрібним. Якщо є обґрунтовані підстави підозрювати ДФЗ лише в окремих завданнях, доцільніше перевіряти саме їх, а не весь набір. Проте часто складно просто припустити, які завдання можуть бути проблемними. З цієї причини зазвичай рекомендують перевіряти на ДФЗ всі тестові завдання одночасно. Це забезпечуватиме інформацію про всі завдання, проливаючи світло як на проблемні завдання, так і на ті, що функціонують подібно як для референтної, так і для фокусної групи. Щодо статистичних перевірок, деякі процедури, як-от правдоподібнісна перевірка ТВЗ, потребують використання якірних завдань. У такому випадку деякі завдання фіксують як рівні для обох груп, тоді як підозрюваним на ДФЗ завданням дозволяють вільно варіюватися. У цій ситуації лише частину завдань буде ідентифіковано як такі, що мають ДФЗ, тоді як решта слугуватиме контрольною групою для виявлення ДФЗ. Після встановлення завдань із ДФЗ можливо також проаналізувати і якірні завдання, зафіксувавши первинно встановлені завдання з ДФЗ і дозволивши первинно якірним завдання варіюватися. Таким чином, тестування всіх завдань одночасно може бути ефективнішим підходом. Втім, як зазначено вище, залежно від застосованої процедури можливе використання різних методів відбору завдань для перевірки на ДФЗ. Окрім визначення кількості завдань, які використовують для виявлення ДФЗ, важливим є також встановлення загальної кількості завдань у самому тесті або вимірювальному інструменті. Як зазначає Зумбо (1999),[31] мінімальна рекомендована кількість завдань становить 20. Обґрунтування цього мінімуму безпосередньо пов'язане з формуванням критеріїв зіставлення. Як зазначено в попередніх розділах, як метод для зіставлення респондентів за рівнем здібностей зазвичай використовують загальну оцінку в тесті. Її зазвичай поділяють на 3—5 рівнів здібності (), які відтак використовують для зіставлення респондентів за здібністю перед процедурами аналізу ДФЗ. Використання щонайменше 20 завдань забезпечує більшу варіативність у розподілі оцінок, що сприяє створенню змістовніших груп за рівнем здібності. Хоча психометричні характеристики тесту повинно бути оцінено ще до його використання, важливо, щоби його валідність і надійність були достатніми. Завдання тесту повинні точно відображати досліджуваний конструкт, щоби забезпечити виведення змістовних груп за рівнем здібності. Звісно, не слід роздувати коефіцієнти надійності просто додаванням надмірних завдань. Головне — забезпечити валідний і надійний вимірювальний інструмент із достатньою кількістю завдань для формування змістовних груп зіставлення. Більше інформації про сучасні підходи до структурної валідації та точніші й змістовніші методи оцінювання надійності пропонують Ґадерманн зі співавт. (2012),[32] Ревелль і Зінбарґ (2009),[33] та Джон і Сото (2007).[34] Збалансовування статистики й міркуванняЯк і в усіх психологічних дослідженнях і психометричних оцінюваннях, статистика відіграє ключову роль, але в жодному разі не повинна бути єдиною основою для ухвалення рішень та формування висновків. При оцінюванні завдань на ДФЗ критично важливе раціональне судження. Наприклад, залежно від статистичної процедури, яку використовують для виявлення ДФЗ, можливе отримання різних результатів. Деякі процедури точніші, тоді як інші — не такі точні. Наприклад, процедура Ментела — Гензеля вимагає від дослідника побудови рівнів здібності на основі загальних оцінок за тестом, тоді як ТВЗ ефективніше розташовує респондентів уздовж континууму латентної риси чи здібності. Таким чином, одна процедура може вказувати на ДФЗ у певних завданнях, тоді як інші — ні. Ще одним питанням є те, що іноді ДФЗ може бути виявлене, але не завжди є очевидне пояснення, чому воно має місце. У цьому контексті особливо важливим стає раціональне судження. Особливо в плані розуміння, чому виникає однорідне та неоднорідне ДФЗ.[16] Дослідник мусить використовувати здоровий глузд для осмислення результатів аналізу ДФЗ. Недостатньо просто констатувати, що завдання функціонує по-різному для різних груп; необхідно надати якісне обґрунтування того, чому це відбувається. Однорідне ДФЗ виникає, коли одна група має стабільну перевагу над іншою на всіх рівнях здібності. Такий тип упередженості часто можливо усунути шляхом використання окремих тестових норм для різних груп, щоби забезпечити справедливість оцінювання. Неоднорідне ДФЗ, з іншого боку, є складнішим випадком, оскільки перевага змінюється залежно від рівня здібності респондентів. До неоднорідного ДФЗ можуть докладатися такі чинники як соціально-економічний статус, культурні відмінності, мовні бар'єри та нерівність у доступі до знань. Виявлення та усунення неоднорідного ДФЗ вимагає глибшого розуміння когнітивних процесів, що лежать в основі виконання тестових завдань, і може потребувати спеціальних втручань для забезпечення справедливих практик оцінювання. У дослідженнях ДФЗ поширеним є виявлення окремих завдань із ДФЗ, що вказує на потенційні проблеми, які потребують уважного вивчення. Проте наявність ДФЗ у певних завданнях не означає автоматично, що упередженим є весь тест. Натомість це сигналізує, що конкретні завдання можуть бути упередженими й потребують уваги для збереження цілісності й справедливості тесту для всіх респондентів. Встановлення завдань із ДФЗ пропонує можливість перегляду, потенційного коригування чи вилучення проблемних завдань, що сприяє забезпеченню рівноправного оцінювання. Тому аналіз ДФЗ слугує цінним інструментом для аналізу завдань, особливо коли його доповнюють якісним дослідженням спричинювальних чинників. Статистичне програмне забезпеченняНижче наведено поширені статистичні програми, здатні виконувати процедури, розглянуті в цій статті. Перейшовши за посиланням на перелік статистичних пакетів , можна ознайомитися з повним переліком відкритого, безкоштовного та комерційного статистичного програмного забезпечення. Процедура Ментела — Гензеля Процедури на основі ТВЗ Логістична регресія Див. такожПримітки
|
Portal di Ensiklopedia Dunia