差分の差分法のイメージ
差分の差分法 (さぶんのさぶんほう、英 : difference in differences )とは計量経済学 や社会学 における量的調査において用いられる、観測データによって実験的な研究を模倣するための統計手法である。'Difference-in-Differences'[ 1] や'DID'[ 2] 、'DD'[ 3] と呼ばれることもある。差分の差分法は成果(つまり、反応変数や被説明変数)における処置(つまり、説明変数や独立変数)の効果を、処置群における成果変数の時間を通じた平均的な変化と対照群における時間を通じた変化と比較することで計算している。この方法は、あるバイアス(平均回帰 バイアスなど)を持っているが、選択バイアスの効果をある程度取り除くことができる。同一被験者による処置効果(つまり時間についての変化を測る)の場合と異なる被験者間による処置効果(つまり処置群と対照群の間の変化を測る)の場合とは対照的に、差分の差分法は異なる時点での処置群と対照群の間の差を取り、さらにその異なる時点の差の差を取る。
一般的な定義
差分の差分法では2時点、もしくはそれ以上の時点で計測されたデータを必要する。図の例において、処置群は線Pで表現され対照群は線Sで表現されている。どちらのグループも処理を受ける前(つまり独立変数もしくは説明変数)の時点1における成果変数(非説明変数)が計測され、点 P1 と S1 で表されている。処置群は処置を受け、両方のグループはその後の時点2において再び測定される。時点2における処置群と対照群の差(つまり、P2 と S2 の差)は処置の効果を説明できない。なぜならば、処置群と対照群は時点1において同じ点から出発したわけではないからである。差分の差分法はそれゆえに二つのグループ間の成果の変数の"普通の"差(もしどちらのグループも処置を受けなかった場合の差)を計測する。その差は点線Qで表される(P1 から Q への傾きは S1 から S2 への傾きと同じである)。処置効果は観測された成果変数と"普通の"成果変数の差(P2 と Q の差)である。
正式な定義
以下のモデルを考える。
y
i
s
t
=
γ
s
+
λ
t
+
δ
D
s
t
+
ϵ
i
s
t
{\displaystyle y_{ist}~=~\gamma _{s}+\lambda _{t}+\delta D_{st}+\epsilon _{ist}}
ここで
y
i
s
t
{\displaystyle y_{ist}}
は個人
i
{\displaystyle i}
が
s
{\displaystyle s}
と
t
{\displaystyle t}
を所与とした下での被説明変数である。
s
{\displaystyle s}
と
t
{\displaystyle t}
の次元は例えば国と時間を表している。
γ
s
{\displaystyle \gamma _{s}}
と
λ
t
{\displaystyle \lambda _{t}}
は
s
{\displaystyle s}
と
t
{\displaystyle t}
のそれぞれの垂直的な切片である。
D
s
t
{\displaystyle D_{st}}
は処置状態を示すダミー変数であり、
δ
{\displaystyle \delta }
は処置効果、
ϵ
i
s
t
{\displaystyle \epsilon _{ist}}
は誤差項である。
ここで
y
¯
s
t
=
1
n
∑
i
=
1
n
y
i
s
t
{\displaystyle {\overline {y}}_{st}~=~{\frac {1}{n}}\sum _{i=1}^{n}y_{ist}}
,
γ
¯
s
=
1
n
∑
i
=
1
n
γ
s
=
γ
s
{\displaystyle {\overline {\gamma }}_{s}~=~{\frac {1}{n}}\sum _{i=1}^{n}\gamma _{s}~=~\gamma _{s}}
,
λ
¯
t
=
1
n
∑
i
=
1
n
λ
t
=
λ
t
{\displaystyle {\overline {\lambda }}_{t}~=~{\frac {1}{n}}\sum _{i=1}^{n}\lambda _{t}~=~\lambda _{t}}
,
D
¯
s
t
=
1
n
∑
i
=
1
n
D
s
t
=
D
s
t
{\displaystyle {\overline {D}}_{st}~=~{\frac {1}{n}}\sum _{i=1}^{n}D_{st}~=~D_{st}}
,
ϵ
¯
s
t
=
1
n
∑
i
=
1
n
ϵ
i
s
t
{\displaystyle {\overline {\epsilon }}_{st}~=~{\frac {1}{n}}\sum _{i=1}^{n}\epsilon _{ist}}
,
とし、単純化のために
s
=
1
,
2
{\displaystyle s=1,2}
かつ
t
=
1
,
2
{\displaystyle t=1,2}
とする。すると
(
y
¯
11
−
y
¯
12
)
−
(
y
¯
21
−
y
¯
22
)
{\displaystyle ({\overline {y}}_{11}-{\overline {y}}_{12})-({\overline {y}}_{21}-{\overline {y}}_{22})}
=
[
(
γ
1
+
λ
1
+
δ
D
11
+
ϵ
¯
11
)
−
(
γ
1
+
λ
2
+
δ
D
12
+
ϵ
¯
12
)
]
−
[
(
γ
2
+
λ
1
+
δ
D
21
+
ϵ
¯
21
)
−
(
γ
2
+
λ
2
+
δ
D
22
+
ϵ
¯
22
)
]
{\displaystyle =\left[(\gamma _{1}+\lambda _{1}+\delta D_{11}+{\overline {\epsilon }}_{11})-(\gamma _{1}+\lambda _{2}+\delta D_{12}+{\overline {\epsilon }}_{12})\right]-\left[(\gamma _{2}+\lambda _{1}+\delta D_{21}+{\overline {\epsilon }}_{21})-(\gamma _{2}+\lambda _{2}+\delta D_{22}+{\overline {\epsilon }}_{22})\right]}
=
δ
(
D
11
−
D
12
)
+
δ
(
D
22
−
D
21
)
+
ϵ
¯
11
−
ϵ
¯
12
+
ϵ
¯
22
−
ϵ
¯
21
{\displaystyle =\delta (D_{11}-D_{12})+\delta (D_{22}-D_{21})+{\overline {\epsilon }}_{11}-{\overline {\epsilon }}_{12}+{\overline {\epsilon }}_{22}-{\overline {\epsilon }}_{21}}
完全に説明変数が外生的であるという仮定の下で
E
[
(
y
¯
11
−
y
¯
12
)
−
(
y
¯
21
−
y
¯
22
)
]
=
δ
(
D
11
−
D
12
)
+
δ
(
D
22
−
D
21
)
{\displaystyle E\left[({\overline {y}}_{11}-{\overline {y}}_{12})-({\overline {y}}_{21}-{\overline {y}}_{22})\right]~=~\delta (D_{11}-D_{12})+\delta (D_{22}-D_{21})}
となる。一般性を失わずに、
D
22
=
1
{\displaystyle D_{22}=1}
かつ
D
11
=
D
12
=
D
21
=
0
{\displaystyle D_{11}=D_{12}=D_{21}=0}
であると仮定すれば、差分の差分法による推定量は以下のように与えられる。
δ
^
=
(
y
¯
11
−
y
¯
12
)
−
(
y
¯
21
−
y
¯
22
)
{\displaystyle {\hat {\delta }}~=~({\overline {y}}_{11}-{\overline {y}}_{12})-({\overline {y}}_{21}-{\overline {y}}_{22})}
,
ここでこの推定量は
D
s
t
{\displaystyle D_{st}}
が示唆する処置の処置効果として解釈できる。
仮定
最小二乗法 におけるすべての仮定は差分の差分法でも同じく当てはめられる。加えて差分の差分法は平行トレンドの仮定 (英 : parallel trend assumption )が必要になる。平行トレンドの仮定とは
λ
2
−
λ
1
{\displaystyle \lambda _{2}-\lambda _{1}}
の値が異なる
s
=
1
{\displaystyle s=1}
と
s
=
2
{\displaystyle s=2}
で等しいということである。上の正式な定義 が正確に現実を反映しているという仮定の下では、平行トレンドの仮定は自動的に成立する。しかし
λ
s
t
:
λ
22
−
λ
21
≠
λ
12
−
λ
11
{\displaystyle \lambda _{st}~:~\lambda _{22}-\lambda _{21}\neq \lambda _{12}-\lambda _{11}}
であるようなモデルの方がより現実的ではあろう。
処置効果とは観測変数 y と処置を受けなかったとして平行移動した y の値の差である。差分の差分法のアキレス腱はあるグループにおいて処置ではない何かが変化を与えたものの、他は処置群と同じである時で、これは平行トレンドの仮定の破綻を意味している。
差分の差分法による推定量の正確性を保証する為に、二つのグループの個人の構成が時間によって変化しないと仮定することがある。差分の差分法を用いる際には、結果を信用ならないものとする多様な問題、例えば自己相関 や Ashenfelter の dip など、を考慮して取り扱う必要がある。
実装
差分の差分法は下記の表の様に実装される。ここで下の右側のセルは差分の差分法による推定量である。
y
s
t
{\displaystyle y_{st}}
s
=
2
{\displaystyle s=2}
s
=
1
{\displaystyle s=1}
差分
t
=
2
{\displaystyle t=2}
y
22
{\displaystyle y_{22}}
y
12
{\displaystyle y_{12}}
y
12
−
y
22
{\displaystyle y_{12}-y_{22}}
t
=
1
{\displaystyle t=1}
y
21
{\displaystyle y_{21}}
y
11
{\displaystyle y_{11}}
y
11
−
y
21
{\displaystyle y_{11}-y_{21}}
変化
y
21
−
y
22
{\displaystyle y_{21}-y_{22}}
y
11
−
y
12
{\displaystyle y_{11}-y_{12}}
(
y
11
−
y
21
)
−
(
y
12
−
y
22
)
{\displaystyle (y_{11}-y_{21})-(y_{12}-y_{22})}
回帰分析を行っても同じ結果が得られる。以下の回帰モデルを考える。
y
=
β
0
+
β
1
T
+
β
2
S
+
β
3
(
T
⋅
S
)
+
ε
{\displaystyle y~=~\beta _{0}+\beta _{1}T+\beta _{2}S+\beta _{3}(T\cdot S)+\varepsilon }
ここで
T
{\displaystyle T}
は
t
=
2
{\displaystyle t=2}
であるというダミー変数で
S
{\displaystyle S}
は
s
=
2
{\displaystyle s=2}
であるというダミー変数である。積の変数
(
T
⋅
S
)
{\displaystyle (T\cdot S)}
は
S
=
T
=
1
{\displaystyle S=T=1}
である時のダミー変数である。ここで厳密に証明することはしないが、このモデルの推定量は以下のようになる。
β
^
0
=
(
y
|
T
=
0
,
S
=
0
)
{\displaystyle {\hat {\beta }}_{0}~=~(y~|~T=0,~S=0)}
β
^
1
=
(
y
|
T
=
1
,
S
=
0
)
−
(
y
|
T
=
0
,
S
=
0
)
{\displaystyle {\hat {\beta }}_{1}~=~(y~|~T=1,~S=0)-(y~|~T=0,~S=0)}
β
^
2
=
(
y
|
T
=
0
,
S
=
1
)
−
(
y
|
T
=
0
,
S
=
0
)
{\displaystyle {\hat {\beta }}_{2}~=~(y~|~T=0,~S=1)-(y~|~T=0,~S=0)}
β
^
3
=
[
(
y
|
T
=
1
,
S
=
1
)
−
(
y
|
T
=
0
,
S
=
1
)
]
−
[
(
y
|
T
=
1
,
S
=
0
)
−
(
y
|
T
=
0
,
S
=
0
)
]
{\displaystyle {\hat {\beta }}_{3}~=~[(y~|~T=1,~S=1)-(y~|~T=0,~S=1)]-[(y~|~T=1,~S=0)-(y~|~T=0,~S=0)]}
,
これは以下に等しい。
β
^
3
=
(
y
11
−
y
21
)
−
(
y
12
−
y
22
)
{\displaystyle {\hat {\beta }}_{3}~=~(y_{11}-y_{21})-(y_{12}-y_{22})}
.
しかしこれは正式な定義 と上の表で与えられた処置効果と同じである。
Card and Krueger (1994) の例
差分の差分法による研究の最も有名なものの内の一つを考えよう。デビッド・カード (David Card)とアラン・クルーガー (Alan Krueger)によって1994年に出版された、ニュージャージー における最低賃金 についての論文である[ 4] 。カードとクルーガーは1992年2月と11月のニュージャージーとペンシルベニア におけるファストフード 産業における雇用を比較した。これはニュージャージーの最低賃金が4.25ドルから5.05ドルに1992年4月に上がった後である。処置の前後でのニュージャージーのみの雇用の変化を観測すると、天候やマクロ経済学的要因などの除外変数をコントロールし損なう。ペンシルベニアを差分の差分法におけるコントロールとして含めると、ニュージャージーとペンシルベニアで共通の変数からもたらされるあらゆるバイアスが、たとえそれらの変数が観測できないとしても、コントロールされる。ニュージャージーとペンシルベニアは時間を通じて並行なトレンドを持つと仮定すると、ペンシルベニアでの雇用の変化は最低賃金の上昇がなかった場合のニュージャージーで起こるはずだった雇用の変化として考えることが出来るし、逆もしかりである。実証証拠が示唆することには、ニュージャージーにおける最低賃金の上昇は、標準的な経済理論が示唆するような、失業の増加はもたらさなかった。下の表はカードとクルーガーが推定した雇用の(フルタイム当量 英 : full-time equivalent で測った)処置効果を図示している。この発見が仮想的な効果であることを念頭におけば、カードとクルーガーはニュージャージーにおける0.80ドルの最低賃金の上昇が2.75の雇用におけるフルタイム当量の増加をもたらしていると推定した。
ニュージャージー
ペンシルバニア
差分
2月
20.44
23.33
-2.89
11月
21.03
21.17
-0.14
変化
0.59
-2.16
2.75
関連項目
脚注
^ Angrist, J. D.; Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist's companion . Princeton University Press. ISBN 9780691120348
^ Abadie, A. (2005), “Semiparametric difference-in-differences estimators”, Review of Economic Studies 72 (1): 1–19, doi :10.1111/0034-6527.00321
^ Bertrand, M.; Duflo, E.; Mullainathan, S. (2004), “How Much Should We Trust Differences-in-Differences Estimates?”, Quarterly Journal of Economics 119 (1): 249–275, doi :10.1162/003355304772839588
^ Card, David; Krueger, Alan B. (1994), “Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania” , American Economic Review 84 (4): 772–793, JSTOR 2118030 , https://jstor.org/stable/2118030
参考文献
Imbens, Guido W.; Wooldridge, Jeffrey M. (2009), “Recent Developments in the Econometrics of Program Evaluation”, Journal of Economic Literature 47 (1): 5–86, doi :10.1257/jel.47.1.5
外部リンク