Horvitz–Thompson推定量 (Horvitz–Thompsonすいていりょう)は、層化抽出 された疑似母集団における合計および平均を推定する統計学 的手法であり、Daniel G. Horvitz と Donovan J. Thompson にちなんで名付けられた[ 1] [ 2] 。逆確率重み付け を適用する。Horvitz–Thompson推定量は調査 分析に頻繁に適用され、欠測データ などを説明するために用いられる。
方法
Y
i
(
i
=
1
,
2
,
⋯
,
n
)
{\displaystyle Y_{i}(i=1,2,\cdots ,n)}
を
N
{\displaystyle N}
個の層から抽出した
n
{\displaystyle n}
個の独立な標本とし、平均を
μ
{\displaystyle \mu }
とする。さらに、
π
i
{\displaystyle \pi _{i}}
を
i
{\displaystyle i}
番目の層に含まれる超母集団から抽出される確率とする。
合計のHansenand-Hurwitz推定量(1943年)は、次式で与えられる[ 3] 。
Y
^
H
T
=
∑
i
=
1
n
Y
i
π
i
{\displaystyle {\widehat {Y}}_{\mathrm {HT} }=\sum _{i=1}^{n}{\frac {Y_{i}}{\pi _{i}}}}
平均のHorvitz–Thompson推定量は、次式で与えられる。
μ
^
H
T
=
Y
^
H
T
N
=
1
N
∑
i
=
1
n
Y
i
π
i
{\displaystyle {\widehat {\mu }}_{HT}={\frac {{\widehat {Y}}_{\mathrm {HT} }}{N}}={\frac {1}{N}}\sum _{i=1}^{n}{\frac {Y_{i}}{\pi _{i}}}}
ベイズの 確率論的枠組みでは、
π
i
{\displaystyle \pi _{i}}
はターゲット母集団の中で
i
{\displaystyle i}
番目の層に属する個体の割合と考えることができる。それゆえ、
Y
i
/
π
i
{\displaystyle Y_{i}/\pi _{i}}
は、
i
{\displaystyle i}
番目の層に属する人の完全なサンプリングの推定値と考えることができる。 また、Horvitz-Thompson推定値は、平均の重み付きブートストラップ ・リサンプリング 推定量の限界値として表すこともできる。多重代入法 の特殊なケースと見なすこともできる[ 4] 。
層別化後の研究デザインの場合、
π
{\displaystyle \pi }
の推定と
μ
{\displaystyle \mu }
の推定は、異なるステップで行われる。そのような場合、
μ
^
H
T
{\displaystyle {\widehat {\mu }}_{\mathrm {HT} }}
の分散の計算は容易ではない。ブートストラップやジャックナイフといったリサンプリング手法を適用して、Horvitz-Thompson推定量の分散を推定できる[ 5] 。R の survey パッケージは、Horvitz–Thompson推定量を使用して層化後データを分析する[ 6] 。
平均のHorvitz-Thompson推定量の不偏性の証明
Horvitz-Thompson推定量の期待値
E
(
X
¯
n
H
T
)
{\displaystyle \mathbb {E} \left({\bar {X}}_{n}^{\mathrm {HT} }\right)}
を評価することで、Horvitz-Thompson推定量の不偏性を示すことができる。
E
(
X
¯
n
H
T
)
=
E
(
1
N
∑
i
=
1
n
X
I
i
π
I
i
)
=
E
(
1
N
∑
i
=
1
N
X
i
π
i
1
i
∈
D
n
)
=
∑
b
=
1
B
P
(
D
n
(
b
)
)
[
1
N
∑
i
=
1
N
X
i
π
i
1
i
∈
D
n
(
b
)
]
=
1
N
∑
i
=
1
N
X
i
π
i
∑
b
=
1
B
1
i
∈
D
n
(
b
)
P
(
D
n
(
b
)
)
=
1
N
∑
i
=
1
N
(
X
i
π
i
)
π
i
=
1
N
∑
i
=
1
N
X
i
{\displaystyle {\begin{aligned}\mathbb {E} \left({\bar {X}}_{n}^{\mathrm {HT} }\right)&=\mathbb {E} \left({\frac {1}{N}}\sum _{i=1}^{n}{\frac {\mathbf {X} _{I_{i}}}{\pi _{I_{i}}}}\right)\\&=\mathbb {E} \left({\frac {1}{N}}\sum _{i=1}^{N}{\frac {X_{i}}{\pi _{i}}}1_{i\in D_{n}}\right)\\&=\sum _{b=1}^{B}P(D_{n}^{(b)})\left[{\frac {1}{N}}\sum _{i=1}^{N}{\frac {X_{i}}{\pi _{i}}}1_{i\in D_{n}^{(b)}}\right]\\&={\frac {1}{N}}\sum _{i=1}^{N}{\frac {X_{i}}{\pi _{i}}}\sum _{b=1}^{B}1_{i\in D_{n}^{(b)}}P(D_{n}^{(b)})\\&={\frac {1}{N}}\sum _{i=1}^{N}\left({\frac {X_{i}}{\pi _{i}}}\right)\pi _{i}\\&={\frac {1}{N}}\sum _{i=1}^{N}X_{i}\\\end{aligned}}}
ここで、
D
n
=
{
x
1
,
x
2
,
.
.
.
,
x
n
}
{\displaystyle D_{n}=\{x_{1},x_{2},...,x_{n}\}}
Hansen-Hurwitz推定量(1943年)は、Horvitz-Thompsonの戦略(1952年)より劣っていることが知られている[ 7] 。
脚注
^ William G. Cochran (1977), Sampling Techniques , 3rd Edition, Wiley. ISBN 0-471-16240-X
^ Horvitz, D. G.; Thompson, D. J. (1952) "A generalization of sampling without replacement from a finite universe", Journal of the American Statistical Association , 47, 663–685, . JSTOR 2280784
^ Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan Hȧkan (1992). Model Assisted Survey Sampling . ISBN 9780387975283
^ Roderick J.A. Little, Donald B. Rubin (2002) Statistical Analysis With Missing Data , 2nd ed., Wiley. ISBN 0-471-18386-5
^ Quatember, A. (2014). “The Finite Population Bootstrap - from the Maximum Likelihood to the Horvitz-Thompson Approach”. Austrian Journal of Statistics 43 (2): 93–102. doi :10.17713/ajs.v43i2.10 .
^ https://cran.r-project.org/web/packages/survey/
^ PRABHU-AJGAONKAR, S. G. "Comparison of the Horvitz-Thompson Strategy with the Hansen-Hurwitz Strategy." Survey Methodology (1987): 221. (pdf)
外部リンク