統計学 において、 代入法 (だいにゅうほう)とは欠測データ を代入値で置き換えるプロセスを指す。 データポイントを置き換える場合はユニット代入、データポイントの構成要素を置き換える場合はアイテム代入と呼ばれる。
欠測データが引き起こす主な問題として、「相当量の偏りをもたらす」「データの処理と分析を困難にする」「効率を低下させる」の 3 つがある [ 1] 。
欠測データはデータの分析に問題を引き起こす可能性があり、代入は欠測データを持つケースのリストワイズ削除に伴う落とし穴を回避する方法と見なされる。つまり、ほとんどの統計パッケージでは、欠測データのあるケースをデフォルトで破棄するが、それによりバイアス が増えたり、結果の代表性に影響を及ぼしたりする可能性がある。代入法では、欠測データを他の利用可能な情報に基づいた推定値で置き換えることにより、すべてのケースを保持する。 すべての欠測データを代入すると、欠測のないデータ(完全データ)を前提とした標準的な手法を使用してデータセットを分析することができる [ 2] 。 欠測データを説明するための理論が科学者によっていろいろと採用されてきたが、それらの大部分ではバイアスが増える。
欠測データを処理するための試みとして、ホットデッキ代入法、コールドデッキ代入法、リストワイズ削除、ペアワイズ削除、平均値代入法、非負行列因子分解、回帰代入法、LOCF (last observation carried forward)、確率的代入法、多重代入法などがある。
リストワイズ(完全ケース)削除とペアワイズ削除
欠測データを処理する最も一般的な方法は、リストワイズ削除(完全ケース削除とも呼ばれる)である。リストワイズ削除では、欠測データのあるすべてのケースが削除される。
リストワイズ削除では、有効なサンプルサイズを減らすことで分析における検出力が低下する。例えば、1000のケースが収集され、80のケースに欠損値があった場合、リストワイズ削除後のサンプルサイズは 920 である。
欠測が完全には無作為でない場合(MAR または MNAR に相当)、リストワイズ削除後に残った標本は元の標本とは異なる、偏ったものになるため、母集団を代表するものではなくなる。
欠測が完全に無作為である場合(MCAR に相当)、リストワイズ削除を用いてもバイアスは増えないが、検出力の低下はまぬがれないし、そのような場合はそもそも稀である [ 3] 。
ペアワイズ削除(または「使用可能ケース分析」)では、個々の分析において、その分析に必要な変数が欠測しているケースのみを削除する。欠測データがあるケースであっても、その分析に必要な変数が欠測していなければそのケースを含めて分析する。ペアワイズ削除を使用すると、個々の分析の標本数は一致しなくなる。 ペアワイズ削除では用いる変数によって標本数が減ったり減らなかったりするので、100%を超える相関などの数学的にありえない状況を招く可能性がある。[ 4]
リストワイズ削除には多くの欠点があるものの、簡単に実装できることから、欠測データを処理する手法としてリストワイズ削除が最も広く用いられている。
単一代入法
ホットデッキ代入法
かつてはホットデッキ代入法が一般的な代入法だった。ホットデッキ代入法では、無作為に抽出された類似の記録から欠測データを代入する。「ホットデッキ」という用語は、 パンチカード にデータを保存した時代に由来する。処理中(「ホット」)のパンチカードの山、すなわち同じデータセットのケースを使って代入する。
ホットデッキ代入法の 1 種である「最後の観測値の繰り越し」last observation carried forward(LOCF)では、ソートして順序づけられたデータセットを準備して、欠測データの直前の値を欠測データに代入する操作を順に進めていく。
ヒトやモノにおける繰り返しの測定値がケースとなる状況で考えると、「データが欠測している場合は最後の測定値のまま変わらないと推定するのが最も妥当だろう」と考えることに対応する。 バイアスが増えて誤った結論に至る可能性があるため、LOCFの使用は推奨されていない [ 5] 。
コールドデッキ代入法
対照的に、コールドデッキ代入法では、別のデータセットのケースを使って代入する。コンピュータの性能向上に伴い、この洗練された代入法がホットデッキ代入法に取って代わった。コールドデッキ代入法は、過去の調査における類似した項目の回答値で置き換える方法であり、時間間隔を測定する調査で用いられる。
平均値置換
平均値代入法は欠測データ以外のケースにおける平均値を用いて欠測データを置き換えるもので、その変数の標本平均を変更しないという利点がある。 しかし、平均値代入法では変数に代入される値が一定であって他の変数の影響を受けず、相関が減弱することが多変量分析において問題になる。
平均代入法は、クラス(性別などのカテゴリ)内で実行でき、
y
^
i
=
y
¯
h
{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}
(
y
^
i
{\displaystyle {\hat {y}}_{i}}
は
i
{\displaystyle i}
番目の記録の代入値、
y
¯
h
{\displaystyle {\bar {y}}_{h}}
はクラス
h
{\displaystyle h}
内の標本平均)として表すことができる。 一般化すると:
y
^
m
i
=
b
r
0
+
∑
j
b
r
j
z
m
i
j
+
e
^
m
i
{\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}
ここで、
b
r
0
,
b
r
j
{\displaystyle b_{r0},b_{rj}}
は代入前のデータを用いて
y
{\displaystyle y}
を
x
{\displaystyle x}
で回帰することによって求められる。
z
{\displaystyle z}
はクラスのダミー変数である。
r
{\displaystyle r}
はデータあり、
m
{\displaystyle m}
はデータなしを示す [ 6] [ 7] 。
非負行列因子分解
非負行列因子分解(NMF)では、これらの欠測データを偏りをもたらす可能性のあるゼロとして扱うのではなく、コスト関数を最小化しながら欠測データを扱うことができる [ 8] 。NMF は数学的に証明された代入法である 。Ren ら(2020) は天文学の分野で「欠測データがコスト関数で無視されること」「欠測データによる影響が2次効果と同じくらい小さい可能性があること」を証明するアプローチを研究し適用した。彼らの研究は、2次元行列(画像)を対象としている。具体的には、数学的に導出し、シミュレートされたデータ代入を行い、天文学データに適用した。
NMF コンポーネントを取得する方法に応じて、NMF を使用した代入手順は 2 つに分けることができる。Ren ら(2020)は、データ代入中の欠測データによる影響(「ターゲットモデリング」)が、NMF コンポーネントが知られている場合は 2 次のオーダーであること、NMFコンポーネントが不明な場合は 1 次から 2 次のオーダーであることを証明した。
NMFコンポーネントを取得する方法に応じて、上記の前者の手順は、後者から独立することも、依存することもできる。さらに、より多くのNMF コンポーネントを使用すると、代入の品質を向上させることができる(論文の Figure 4 を参照 [ 9] )。
回帰代入法
回帰代入法では、他の変数に基づいて変数の観測値を予測するために回帰モデルを作成し、その回帰モデルを使って、その変数の欠測データに代入する。言い換えると、完全なケースもあれば不完全なケースもある中で、利用可能な情報を駆使して特定の変数の値を予測する。次に、回帰モデルからの適合値を使用して、欠測データに代入する。
問題は、代入されたデータの推定に誤差項が含まれていないため、推定が残差分散なしで回帰直線に完全に一致することである。これにより、平均値代入法とは逆に関係が過剰に識別されるし、入力された値のバラツキを過小評価する。回帰モデルは、欠測データの最も可能性の高い値を予測するが、その値に関する不確実性は提示しない。
確率的回帰は、平均回帰分散を回帰代入に追加してエラーを導入することにより、回帰代入における誤差項の欠如を修正することにある程度成功した。確率的回帰では、上記の手法よりも偏りを減らすことができるが、単純な残差分散よりも多くのノイズが導入されるべきではないかという問題がある [ 10] 。
多重代入法
代入によるノイズの増加の問題に対処するために、ドナルド・ルービン は、複数の代入したデータセット間の結果を平均化する方法を開発した [ 11] 。
多重代入法は次の 3 つのステップに従う。
代入 – 単一代入法と同様、欠測データが代入される。 ただし、代入値は、1回だけではなく、分布から
m
{\displaystyle m}
回抽出される。 このステップの終了時には、
m
{\displaystyle m}
個の代入済みデータセットが存在する。
分析 –
m
{\displaystyle m}
個の代入済みデータセットのそれぞれが独立に分析される。 このステップの終了時には、
m
{\displaystyle m}
個の分析が存在する。
プーリング – 関心のある変数の平均、分散、信頼区間を計算する[ 12] [ 13] 、すなわち各のモデルからのシミュレーションを組み合わせることにより、
m
{\displaystyle m}
個の結果が1つの結果に統合される。 [ 14]
単一代入法の手法が複数あるのと同様に、多重代入法の手法も複数ある。多重代入法が単一代入法およびリストワイズ削除よりも優れている1つの利点は、複数の代入が柔軟であり、さまざまなシナリオで使用できることである。欠測が完全に無作為である場合 (MCAR)や欠測が無作為である場合 (MAR)だけでなく、欠測が無作為ではない場合 (MNAR)であっても、多重代入法を用いることができる。マルコフ連鎖モンテカルロ法 multiple imputation by chained equations(MICE)が多重代入法ではよく用いられる手法で、fully conditional specification(FCS)や逐次回帰多重代入とも呼ばれる [ 15] 。MICEは、欠測が無作為である(MAR)データセットに非常にうまく機能することが示されているが、シミュレーション研究を通じて、十分な数の補助変数または潜在変数(潜在クラス分析法により導出)を用いることで、欠測が無作為ではない(MNAR)データセットでも機能することが示唆されている [ 16] 。
単一代入法では代入の不確実性を考慮しておらず、代入後にはデータが実際の値であるかのように扱われる。代入の不確実性を無視することで、結果のバラツキを過小評価したり、誤った結論に至る可能性がある [ 17] 。多重代入法では、複数回代入することによって、不確実性と真の値がとったであろう範囲とを記述することができる。
さらに、単一代入法とリストワイズ削除の実装が簡単な場合もあるが、多重代入法の実装もそれほど難しくはない。多重代入法を簡単に実行できるような多様な統計パッケージが多様な統計ソフトウェアに実装されている。たとえば、MICEパッケージを使用すると、RのユーザーはMICEメソッドを使用して多重代入を実行できる。 [ 18]
関連項目
参考文献
^ Barnard, J.; Meng, X. L. (1999-03-01). “Applications of multiple imputation in medical studies: from AIDS to NHANES”. Statistical Methods in Medical Research 8 (1): 17–36. doi :10.1177/096228029900800103 . ISSN 0962-2802 . PMID 10347858 .
^ Gelman, Andrew, and Jennifer Hill. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25
^ Kenward, Michael G (2013-02-26). “The handling of missing data in clinical trials” . Clinical Investigation 3 (3): 241–250. doi :10.4155/cli.13.7 . ISSN 2041-6792 . https://semanticscholar.org/paper/964403060982c44cc10842084105de256876b8c6 .
^ Enders, C. K. (2010). Applied Missing Data Analysis . New York: Guilford Press. ISBN 978-1-60623-639-0
^ Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (2008-10-07). “Does analysis using "last observation carried forward" introduce bias in dementia research?” . Canadian Medical Association Journal 179 (8): 751–753. doi :10.1503/cmaj.080820 . ISSN 0820-3946 . PMC 2553855 . PMID 18838445 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2553855/ .
^ Kalton, Graham (1986). “The treatment of missing survey data”. Survey Methodology 12 .
^ Kalton, Graham; Kasprzyk, Daniel (1982). “Imputing for missing survey responses” . Proceedings of the Section on Survey Research Methods (American Statistical Association ) 22 . https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf .
^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). “Using Data Imputation for Signal Separation in High Contrast Imaging”. The Astrophysical Journal 892 (2): 74. arXiv :2001.00563 . Bibcode : 2020ApJ...892...74R . doi :10.3847/1538-4357/ab7024 .
^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). “Using Data Imputation for Signal Separation in High Contrast Imaging”. The Astrophysical Journal 892 (2): 74. arXiv :2001.00563 . Bibcode : 2020ApJ...892...74R . doi :10.3847/1538-4357/ab7024 .
^ Enders, C. K. (2010). Applied Missing Data Analysis . New York: Guilford Press. ISBN 978-1-60623-639-0
^ Rubin, Donald (9 June 1987). Multiple imputation for nonresponse in surveys . Wiley Series in Probability and Statistics. Wiley. doi :10.1002/9780470316696 . ISBN 9780471087052
^ Yuan, Yang C. (2010). “Multiple imputation for missing data: Concepts and new development” . SAS Institute Inc., Rockville, MD 49 : 1–11. https://support.sas.com/rnd/app/stat/papers/multipleimputation.pdf .
^ Van Buuren, Stef (2012-03-29). “2. Multiple Imputation”. Flexible Imputation of Missing Data . Chapman & Hall/CRC Interdisciplinary Statistics Series. 20125245 . Chapman and Hall/CRC. doi :10.1201/b11826 . ISBN 9781439868249
^ King, Gary; Honaker, James; Joseph, Anne; Scheve, Kenneth (March 2001). “Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation” (英語). American Political Science Review 95 (1): 49–69. doi :10.1017/S0003055401000235 . ISSN 1537-5943 . https://www.cambridge.org/core/journals/american-political-science-review/article/analyzing-incomplete-political-science-data-an-alternative-algorithm-for-multiple-imputation/9E712982CCE2DE79A574FE98488F212B .
^ Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). “Multiple imputation by chained equations: what is it and how does it work?” . International Journal of Methods in Psychiatric Research 20 (1): 40–49. doi :10.1002/mpr.329 . ISSN 1557-0657 . PMC 3074241 . PMID 21499542 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/ .
^ Sulis, Isabella; Porcu, Mariano (July 2017). “Handling Missing Data in Item Response Theory. Assessing the Accuracy of a Multiple Imputation Procedure Based on Latent Class Analysis”. Journal of Classification 34 (2): 327–359. doi :10.1007/s00357-017-9220-3 . ISSN 0176-4268 .
^ Graham, John W. (2009-01-01). “Missing data analysis: making it work in the real world”. Annual Review of Psychology 60 : 549–576. doi :10.1146/annurev.psych.58.110405.085530 . ISSN 0066-4308 . PMID 18652544 .
^ Horton, Nicholas J.; Kleinman, Ken P. (2007-02-01). “Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models” . The American Statistician 61 (1): 79–90. doi :10.1198/000313007X172556 . ISSN 0003-1305 . PMC 1839993 . PMID 17401454 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1839993/ .
外部リンク