Автоматичне породжування завданьАвтомати́чне поро́джування завда́нь (АПЗ, англ. automatic item generation, AIG), або автоматизо́ване поро́джування завда́нь (англ. automated item generation), — це процес, що пов'язує психометрію з комп'ютерним програмуванням. Він використовує комп'ютерний алгоритм для автоматичного створення тестових завдань, що є основними складовими психологічного тесту. Цей метод уперше описав Джон Р. Бормут[1] у 1960-х роках, але розвинули його лише нещодавно. АПЗ використовує двоетапний процес: спочатку фахівець із тестування створює шаблон, званий моделлю завдання, а потім розробляють комп'ютерний алгоритм для породжування тестових завдань.[2] Тобто замість того, щоби фахівець створював кожне окреме завдання вручну, комп'ютерні алгоритми породжують сімейства завдань на основі меншої кількості материнських моделей завдань.[3][4][5] Останнім часом для автоматичного породжування завдань успішно використовують нейронні мережі, зокрема великі мовні моделі, як-от сімейство GPT.[6][7] КонтекстУ психологічному тестуванні відповіді тестованого на тестові завдання забезпечують об'єктивні вимірювальні дані для оцінювання різних людських характеристик.[8] До деяких характеристик, вимірюваних за допомогою психологічних й освітніх тестів, належать академічні здібності, успішність у навчанні, інтелект, мотивація тощо, і ці тести часто використовують для ухвалення рішень, що мають значні наслідки для окремих осіб чи груп. Досягнення стандартів якості вимірювання, зокрема валідності тесту, є однією з найважливіших цілей для психологів і педагогів.[9] АПЗ є підходом до розроблення тестів, який можливо використовувати для підтримки та підвищення якості тестування економічно вигідним чином в умовах сучасного середовища, де комп'ютеризоване тестування збільшило потребу в великій кількості тестових завдань.[5] ПеревагиАПЗ знижує вартість створення стандартизованих тестів,[10] оскільки алгоритми можуть породжувати набагато більше завдань за той же проміжок часу, порівняно з людиною — фахівцем із тестування. Воно може швидко й легко створювати паралельні форми тесту, що дає можливість виставляти різним тестованим різні групи тестових завдань однакової складності, відтак підвищуючи безпеку тесту.[3] При поєднанні з комп'ютеризованим адаптивним тестуванням АПЗ може породжувати нові завдання або вибирати, які з уже породжених завдань слід подавати далі, виходячи з рівня здібностей тестованого під час проходження тесту. АПЗ також може сприяти створенню завдань із широким діапазоном складності, меншій кількості помилок у конструюванні завдань і забезпеченню вищої порівнянності завдань завдяки системнішому визначенню прототипної моделі завдання.[3][11][12] Радикали, інцидентали та ізоморфиРозроблення тестів (зокрема АПЗ) може бути збагачене, якщо воно ґрунтується на певній когнітивній теорії. Когнітивні процеси, взяті з певної теорії, часто узгоджують із характеристиками завдань під час їх конструювання. Мета цього — визначити заздалегідь певний психометричний параметр, як-от складність завдання (надалі β). Нехай радикали[11] — це ті структурні елементи, які суттєво впливають на параметри завдань і забезпечують завдання певними когнітивними вимогами. Один або кілька радикалів моделі завдання можливо змінювати для створення материнських моделей завдань із різними рівнями параметрів (наприклад, β). Кожна така материнська модель може відтак вирощувати власну сім'ю завдань шляхом варіювання інших елементів, які Ірвайн[11] назвав інциденталами. Інцидентали — це поверхневі характеристики, що зазнають випадкових варіацій від завдання до завдання в межах однієї сім'ї. Завдання, що мають однакову структуру радикалів і відрізняються лише інциденталами, зазвичай називають ізоморфами[13] або клонами.[14][15] Існує два типи клонування завдань. З одного боку, модель завдання може містити одне або кілька відкритих місць, і клонування відбувається шляхом заповнення кожного з них елементом, вибраним зі списку можливостей. З іншого боку, модель завдання може бути цілісним завданням, яке клонують шляхом запровадження перетворень, наприклад, зміни кута об'єкта у тестах на просторові здібності.[16] Варіювання цих поверхневих характеристик завдань не повинно суттєво впливати на відповіді тестованих. Саме тому вважають, що інцидентали спричиняють лише незначні відмінності в параметрах ізоморфів.[3] Поточні розробкиНизка породжувачів завдань пройшли об'єктивну перевірку валідності. MathGen — це програма, яка породжує завдання для тестування математичних досягнень. У статті 2018 року в Journal of Educational Measurement автори Ембретсон і Кінгстон провели розгорнений якісний огляд й емпіричні проби, щоби оцінити якісні та психометричні властивості породжуваних завдань, і дійшли висновку, що ці завдання були успішними, і що завдання, породжені на основі однієї й тієї же структури, мали передбачувані психометричні характеристики.[17][18] У випробуванні 2017 року серед учасників провели тест на розрізнення мелодій, розроблений за допомогою обчислювальної моделі Rachman-Jun 2015.[19] За даними, зібраними П. М. Гаррісоном зі співавт.,[20] результати свідчать про високу валідність і надійність. Феррейра та Бакхофф-Ескудеро[21] створеною ними програмою GenerEx породили дві паралельні версії Examen de Competencias Básicas (Excoba) — загального тесту на освітні навички. Потім вони дослідили внутрішню структуру, а також психометричну еквівалентність створених тестів. Емпіричні результати психометричної якості загалом виявилися сприятливими, а тести та завдання демонструють узгодженість за кількома психометричними індексами. Ґірл з його колегами[22][23][24][25] використовували програму АПЗ під назвою Item Generator (IGOR[26]) для створення завдань множинного вибору для перевірки медичних знань. Завдання, породжені IGOR, навіть у порівнянні з розробленими вручну, продемонстрували добрі психометричні властивості. Арендазі, Зоммер і Майр[27] використали АПЗ для створення вербальних завдань для тестування словесної вільності в німецькій та англійській мовах і провели тестування серед носіїв цих мов. Породжені комп'ютером завдання продемонстрували прийнятні психометричні властивості. Набори завдань, використані для цих двох груп, ґрунтувалися на спільному наборі міжмовних якірних завдань, що полегшило міжмовне порівняння успішності. Голлінг, Бертлінг і Цойх[28] застосували теорію ймовірностей для автоматичного породження математичних текстових задач із передбачуваними рівнями складності. Вони досягли допасованості моделі Раша,[29] а складність завдань вдалося пояснити за допомогою лінійної логістичної моделі тесту (ЛЛМТ, англ. linear logistic test model, LLTM[30]), а також ЛЛМТ з випадковими ефектами (англ. Random-Effects LLTM). Голлінг, Бланк, Кухенбекер і Кун[31] провели подібне дослідження зі статистичними текстовими задачами, але без використання АПЗ. Арендазі з його колегами[32][33] представили дослідження автоматично породжуваних алгебричних текстових задач і вивчили, як система контролю якості в АПЗ може впливати на вимірювальну якість завдань. Автоматичне породжування фігурних завдань![]() Item Maker (IMak) — це програма, написана мовою R, для побудови завдань на фігурні аналогії. Психометричні властивості 23 завдань, породжених IMak, виявилися задовільними, а складність завдань на основі правил породжування було можливо передбачити за допомогою лінійної логістичної моделі тесту (ЛЛМТ).[3] MazeGen — ще одна програма з кодом мовою R, яка автоматично породжує лабіринти. Психометричні властивості 18 таких лабіринтів виявилися оптимальними, зокрема щодо допасованості моделі Раша та передбачування складності лабіринтів за допомогою ЛЛМТ.[34] GeomGen — це програма, яка породжує матриці фігур.[35] Дослідження, яке встановило джерела зміщення вимірювання, пов'язані зі стратегіями усунення варіантів відповіді у завданнях із матрицями фігур, дійшло висновку, що помітність відволікальних елементів сприяє використанню таких стратегій, і що ці знання можливо інтегрувати в АПЗ для підвищення конструктної валідності таких завдань.[36] Та ж група використала АПЗ для вивчення диференційованого функціонування завдань (ДФЗ) та гендерних відмінностей, пов'язаних із уявним обертанням . Вони маніпулювали характеристиками конструкції завдань, які в попередніх дослідженнях демонстрували гендерне ДФЗ, і показали, що оцінки розміру впливу гендерних відмінностей були викривлені через присутність різних типів гендерного ДФЗ, які могли бути пов'язані з конкретними характеристиками конструкції завдань.[37][38] Арендазі також досліджував можливі порушення психометричної якості автоматично породжуваних завдань на зорово-просторове мислення, виявлені за допомогою теорії відгуку завдання (ТВЗ). Для цього він запропонував дві програми: вже згадану GeomGen[35] та Endless Loop Generator (EsGen). Він дійшов висновку, що GeomGen придатніша для АПЗ, оскільки принципи ТВЗ можливо інтегрувати безпосередньо під час породжування завдань.[39] У паралельному дослідницькому проєкті з використанням GeomGen Арендазі та Зоммер[40] встановили, що варіювання сприйняттєвої організації завдань може впливати на успішність респондентів залежно від їхніх рівнів здібностей, і що воно впливає на кілька індексів психометричної якості. Спираючись на ці результати, вони поставили під сумнів припущення про одновимірність завдань із матрицями фігур загалом. MatrixDeveloper[41] використали для автоматичного породження двадцяти п'яти завдань з 4×4-елементними квадратними матрицями. Ці завдання надали 169 учасникам. За результатами дослідження ці завдання продемонстрували добру допасованість моделі Раша, а породження на основі правил може пояснити складність завдань.[42] Перший відомий породжувач матриць завдань розробила Ембретсон,[43][14] а її автоматично породжувані завдання продемонстрували добрі психометричні властивості, як показали Ембретсон і Райзе.[44] Вона також запропонувала модель для адекватного інтерактивного породжування завдань. Примітки
|
Portal di Ensiklopedia Dunia