Синтетичний контроль

Порівняння реального добробуту жителів ФРН після об'єднання з НДР у 1990 та гіпотетичного, якби об'єднання не відбулося, з опорою на дані інших країн ОЕСР^[1].

Синтетичний контроль (англ. Synthetic control method, SCM) — економетричний метод аналізу даних у рамках причинно-наслідкової моделі Рубіна^[en], що дозволяє проводити каузальну інференцію^[en] в порівняльних кейс-стаді. Метод спрямований на оцінення результатів досліджуваного впливу (наприклад, економічної реформи) на прикладі невеликої кількості кейсів за допомогою моделювання їхніх кількісних показників у гіпотетичній ситуації, де впливу не було, на основі обмеженого кола схожих контрольних спостережень за допомогою присвоєння цим змінним певних ваг.

Формальне виведення

Розглянемо $i$ -й регіон, або якийсь інший об'єкт спостереження, причому $i=1,\dots ,J+1$ , де $J+1$ — число регіонів, серед яких 1 зазнав досліджуваної дії, а інші $J$ — ні і є контрольною групою (їх сукупність називають «пулом донорів», англ. donor pool), за період часу $t$ , де $t=1,\dots ,T$ .

Нехай досліджувана дія відбулася в період $T_{0}+1$ , де $1\leq T_{0}<T$ , і тоді $T_{0}$ — число періодів до дії. Позначимо відгук показника в регіоні $i$ в період часу $t$ за відсутності досліджуваної дії через $Y_{it}^{N}$ , а за її наявності — $Y_{it}^{I}$ . Припустимо, що за $t=1\dots T_{0}$ , $Y_{it}^{N}=Y_{it}^{I}$ : до настання досліджуваної дії, вона не впливає на відгук у вибраному регіоні. Також припустимо, що дія, яка мала місце в розглянутому регіоні, не впливає на регіони з контрольної групи. Ефект досліджуваної дії позначимо як $a_{it}=Y_{it}^{I}-Y_{it}^{N}$ . Оскільки дія має місце тільки в $i=1$ і $t>T_{0}$ , метою синтетичного контролю є визначення $a_{1t}=Y_{1t}^{I}-Y_{1t}^{N}$ , де $Y_{1t}^{I}=Y_{1t}$ — власне, показник, що спостерігається в розглянутому регіоні, а $Y_{1t}^{N}$ — неспостережуваний відгук, який можна подати як таку факторну модель:

$Y_{it}^{N}=\delta _{t}+{\boldsymbol {\theta }}_{t}\mathbf {Z} _{i}+{\boldsymbol {\lambda }}_{t}{\boldsymbol {\mu }}_{i}+\epsilon _{it},$

де $\delta _{t}$ — загальний для всіх регіонів фактор, $\mathbf {Z} _{i}$ — вектор спостережуваних, незалежних від дії коваріат, ${\boldsymbol {\theta }}_{t}$ — вектор їхніх оцінених для даної вибірки регіонів коефіцієнтів, ${\boldsymbol {\lambda }}_{t}$ — вектор неспостережуваних латентних факторів, ${\boldsymbol {\mu }}_{i}$ — вектор відповідних їм факторних навантажень і $\epsilon _{it}$ — специфічності, або шум. Цю модель можна переписати у вигляді:

$\sum \limits _{j}w_{j}Y_{it}^{N}=\delta _{t}+{\boldsymbol {\theta }}_{t}\sum \limits _{j}w_{j}\mathbf {Z} _{i}+{\boldsymbol {\lambda }}_{t}\sum \limits _{j}w_{j}{\boldsymbol {\mu }}_{i}+\sum \limits _{j}w_{j}\epsilon _{it},$

де $w_{j}$ — це $j$ -те значення вектора $\mathbf {W} =(w_{2},\dots ,w_{J+1})'$ , такого, що $\forall j:w_{j}>0\land \sum \limits _{j}w_{j}=1$ . Метод синтетичного контролю полягає у підборі такого набору ваг $({\tilde {w}}_{2},\dots ,{\tilde {w}}_{J+1})'$ , що за $t\leq T_{0}$ , $\sum \limits _{j}{\tilde {w}}_{j}Y_{jt}=Y_{jt}$ (тобто до дії ваги зберігають спостережуване значення відгуку незмінним) і $\sum \limits _{j}{\tilde {w}}_{j}\mathbf {Z} _{j}=\mathbf {Z} _{1}$ (і при цьому ці ваги дозволяють точно моделювати коваріати регіону, що розглядається, через кваріати регіонів контрольної групи). У літературі показано, що, якщо відхилення специфічностей $\epsilon _{it}$ незначні за даного $T_{0}$ , розміру періоду до дії, $Y_{1t}^{N}-\sum \limits _{j}w_{j}Y_{it}\to 0$ , тобто різниця між модельованим, неспостережуваним відгуком без дії і зваженим, але спостережуваним за його присутності, в таких умовах мізерна. Відповідно, пропонується така оцінка ефекту дії ( $a_{it}=Y_{it}^{I}-Y_{it}^{N}$ )^[2]^:494-495:

${\hat {a}}_{1t}=Y_{1t}-\sum \limits _{j}{\tilde {w}}_{j}Y_{jt}$

Оптимізація алгоритму

З обчислювальної точки зору, розрахунок шуканих ваг пов'язаний із мінімізацією за вектором ваг $\mathbf {W}$ норми $\|\mathbf {X} _{1}-\mathbf {X} _{0}\mathbf {W} \|$ , де $\mathbf {X} _{1}$ — вектор значень коваріатів для досліджуваного регіону до моменту $T_{0}+1$ , а $\mathbf {X} _{0}$ — матриця значень коваріатів для контрольних регіонів. Незалежно від вибору дослідником додатноозначеної матриці $\mathbf {V}$ , оптимізована норма розкривається як $\|\mathbf {X} _{1}-\mathbf {X} _{0}\mathbf {W} \|_{\mathbf {V} }={\sqrt {(\mathbf {X} _{1}-\mathbf {X} _{0}\mathbf {W} )'\mathbf {V} (\mathbf {X} _{1}-\mathbf {X} _{0}\mathbf {W} )}}$ ^[2]^:496.

Для того, щоб отримати кінцеве значення $\mathbf {V}$ , проводять зовнішню оптимізацію за параметром $\mathbf {V}$ з використанням коефіцієнта дисконтування $\beta$ , що підвищує вагу недавніх спостережень Цю оптимізацію можна описати так: $\sum \limits _{t=1}^{T}\beta ^{T-t}\left(Y_{1t}-\sum \limits _{j=2}^{J+1}{\tilde {W}}_{j}(V)Y_{jt}\right)^{2}\to min$ , де ${\tilde {\mathbf {W} }}$ — вектор мінімальних ваг, отриманий на попередньому етапі^[3]^:616.

Статистична значущість результатів

Визначення статистичної значущості одержаних оцінок можна провести різними способами. У статті 2003 року, що оцінює вплив тероризму та інших проявів політичного насильства на економіку Країни Басків, розрахований ефект піддали так званому плацебо-тесту (placebo test), що полягав у застосуванні ідентичного алгоритму синтетичного контролю до Каталонії, яка також відома значним сепаратистським рухом, але не мала проблем, пов'язаних із терористичними проявами цього руху^[4].

Плацебо-тести в літературі, яка використовує метод синтетичного контролю, є прикладом непараметричних пермутаційних тестів. Моделювання синтетичного відгуку для всіх контрольних кейсів у вибірці дозволяє в явному вигляді працювати з імовірнісним розподілом і перевіряти нульову гіпотезу про відсутність казуальних ефектів у кейсі. При цьому немає необхідності асимптотично наближати розподіл цих ефектів у контрольних кейсів до того чи іншого розподілу, що робить тести подібного типу пермутаційними^[5].

Синтетичний контроль як метод передбачення

У літературі запропоновано використовувати синтетичний контроль не лише для оцінки причинно-наслідкових зв'язків, але й для побудови прогнозів. У рамках пілотного дослідження була спроба спрогнозувати економічне зростання в США, однак «пул донорів», використовуваний для отримання ваг, складався вже не з країн зі схожими характеристиками, а з показників економічного зростання з певним часовим лагом^[3]^:616.

Синтетичний контроль та інші методи

Синтетичний контроль поєднує елементи інших каузальних статистичних методів: різниці різниць^[en] і метчингу^[en].

У порівнянні з різницею різниць синтетичний контроль пропонує упорядкованішу процедуру підбору ваг для спостережень із контрольної групи, використовує більший часовий проміжок перед дією і вимагає в ході підбору ваг максимально можливого наближення характеристик контрольної групи до характеристик досліджуваного об'єкта.

Метод синтетичного контролю має низку спільних рис із лінійною регресією. Так і синтетичний контроль, і регресійний аналіз припускають лінійну комбінацію ваг і змінних (в останньому ваги, як правило, називають регресійними коефіцієнтами), причому сума ваг дорівнює 1. Основною відмінністю є те, що в синтетичному контролі значення цих ваг належать $[0,~1]$ , тоді як у регресійному аналізі такого обмеження немає і коефіцієнти практично не інтерпретуються як ваги^[1]^:498-499. Так контрфактуальну Німеччину з дослідження 2015 року^[1] «синтезовано» на підставі подушного ВВП, рівня інвестицій, торговельної відкритості, кількості шкіл і частки промисловості в доданому продукті Австрії (42 %), США (22 %), Японії (16 %), Швейцарії (11 %) і Нідерландів (9 %)^[6].

Симуляції показали, що панельний метод Сяо (фіксовані ефекти з ефектами взаємодії) для дослідження каузальних ефектів є менш робастним до зміни в пулі донорів, ніж синтетичний контроль, хоча використання обох підходів дає задовільні результати. Зазначалося, що синтетичний контроль є кращим, якщо дослідник має дані за додаткові часові періоди^[7]^:1001^[8].

Застосування

Галузь застосування методу синтетичного контролю охоплює дослідження політики у сфері охорони здоров'я^[9], кримінологія^[10], політичну науку^[1], різні розділи економіки.

У політології синтетичний контроль розглядається як компроміс між конвенціональними кількісними і якісними методами, що дозволяє поєднувати фокус на одному або декількох кейсах зі строгими критеріями їх підбору. За допомогою цього методу вивчалися: об'єднання Німеччини для власне ФРН^[1], наслідки федеративної реформи в Бельгії для витрат на соціальне забезпечення^[11].

У географії синтетичний контроль використовують у дослідженнях антропогенних ландшафтів (у рамках розгляду земельних систем^[en])^[12]^:513.

У статистичних пакунках

Існують пакунки статистичного програмного забезпечення для аналізу даних за допомогою методу синтетичного контролю. Для мови R розроблено пакунок Synth^[13].

Див. також

Метод інструментальних змінних

Примітки

↑ ^а ^б ^в ^г ^д Abadie A., Diamond A., Hainmueller J. Comparative Politics and the Synthetic Control Method // American Journal of Political Science. — 2015. — Т. 59, № 2. — С. 495–510. — DOI:10.1111/ajps.12116.
↑ ^а ^б Abadie A., Diamond A., Hainmueller J. Synthetic Control Methods for Comparative Case Studies: Estimating the Effect of California’s Tobacco Control Program // Journal of the American Statistical Association. — 2010. — Т. 105, № 490. — С. 493-505. — DOI:10.1198/jasa.2009.ap08746.
↑ ^а ^б Klößner S.,Pfeifer G. Outside the box: using synthetic control methods as a forecasting technique // Applied Economics Letters. — 2017. — Т. 25, № 9. — С. 615-618. — DOI:10.1080/13504851.2017.1352071.
↑ Abadie A., Gardeazabal J. The Economic Costs of Conflict: A Case Study of the Basque Country // American Economic Review. — 2003. — Т. 93, № 1. — С. 112–132. — DOI:10.1257/000282803321455188.
↑ Hahn J., Shi R. Synthetic Control and Inference // Econometrics. — 2017. — Т. 5, № 4. — С. 52. — DOI:10.3390/econometrics5040052.
↑ Klößner S., Kaul A., Pfeifer G., Schieler M. Comparative politics and the synthetic control method revisited: a note on Abadie et al. (2015) // Swiss Journal of Economics and Statistics. — 2018. — Т. 154, № 1. — DOI:10.1186/s41937-017-0004-9.
↑ Gardeazabal J., Vega‐Bayo A. An Empirical Comparison Between the Synthetic Control Method and HSIAO et al.'s Panel Data Approach to Program Evaluation // Journal of Applied Econometrics. — 2017. — Т. 32, № 5. — С. 983-1002. — DOI:10.1002/jae.2557.
↑ Gobillon L., Magnac T. Regional Policy Evaluation: Interactive Fixed Effects and Synthetic Controls // The Review of Economics and Statistics. — 2016. — Т. 98, № 3. — С. 535-551. — DOI:10.1162/rest_a_00537.
↑ Kreif N., Grieve R., Hangartner D., Turner A.J., Nikolova S., Sutton M. Examination of the Synthetic Control Method for Evaluating Health Policies with Multiple Treated Units // Health Economics. — 2016. — Т. 25, № 12. — С. 1514–1528. — DOI:10.1002/hec.3258.
↑ Saunders J., Lundberg R., Braga A.A., Ridgeway G., Miles J. A Synthetic Control Approach to Evaluating Place-Based Crime Interventions // Journal of Quantitative Criminology. — 2014. — Т. 31, № 3. — С. 413–434. — DOI:10.1007/s10940-014-9226-5.
↑ Arnold T., Stadelmann‐Steffen I. How federalism influences welfare spending: Belgium federalism reform through the perspective of the synthetic control method // European Journal of Political Research. — 2017. — № 56. — С. 680-702. — DOI:10.1111/1475-6765.12196.
↑ Meyfroidt P. Approaches and terminology for causal analysis in land systems science // Journal of Land Use Science. — 2015. — Т. 11, № 5. — С. 501-522. — DOI:10.1080/1747423X.2015.1117530.
↑ Abadie A., Diamond A., Hainmueller J. Synth: An R Package for Synthetic Control Methods in Comparative Case Studies // Journal of Statistical Software. — 2011. — Т. 42, № 13. — DOI:10.18637/jss.v042.i13.