外的妥当性

外的妥当性（がいてきだとうせい、英: External validity）とは、科学的研究の結論をその研究の文脈外に適用することの妥当性を意味する^[1]。言い換えれば、研究の結果を他の状況、人、刺激、時代に一般化または移転できる範囲をいう^[2]^[3]。一般化可能性（Generalizability）とは、研究対象となった集団から得られた研究結果をより広い集団に適用できることを指し、移転可能性（Transportability）とは、得られた研究結果を全く別の対象集団に適用できることを指す^[2]^[4]。それとは対照的に内的妥当性とは、特定の研究の文脈内で導き出された結論の妥当性を意味する。

外的妥当性の数学的分析は、異質な集団間での一般化が可能かどうかの判断と、有効な一般化を生み出す統計的・計算的手法の考案に重要である^[5]。

外的妥当性を確立する際、学者は研究の「範囲」を特定する傾向があり、これは研究の理論や主張の適用可能性や限界を指す^[2]。これには、研究の対象と、対象が代表する広範な集団を定義することが含まれる^[2]。

外的妥当性に影響する要素

外的妥当性への脅威とは、特定の研究の調査結果から一般化を行う際に、どのように誤りが生じる可能性があるかを説明するものである^[6]。殆どの場合、1つの要因（独立変数）の効果が他の要因に依存する場合に制限される。従って、外的妥当性に対する脅威はすべて統計的交互作用（英語版）として表現できる^[7]。いくつかの例を挙げる。

適性と治療の相互作用：サンプルは独立変数と相互作用する特定の特徴を持ち、一般化可能性を制限することがある。例えば心理療法の比較研究では、しばしば特定のサンプル（例えば、ボランティア、重度のうつ病、合併症なし等）が採用される。これらのサンプル患者に対して心理療法が有効であることが示された場合、非ボランティアや軽度のうつ病患者、他の障害を併発している患者に対しても有効だと言えない場合は、研究の外的妥当性は制限される。
状況による治療の相互作用：研究のすべての状況的特異性（治療条件、時間、場所、照明、騒音、治療投与、研究者、時期、測定の範囲と程度等）は、一般化可能性を制限する可能性がある。
事前テストと治療の相互作用：もし因果関係が事前テストを実施した場合にのみ見出されるのであれば、これも所見の一般性を制限する。これは時に「感作 (sensitization)」と呼ばれることがあるが、これは事前テストによって人々が治療操作に対してより敏感になるからである。

研究の外的妥当性は内的妥当性によって制限されることに注意が必要である。研究内で行われた因果推論が無効であれば、その推論の他の文脈への一般化も無効となる。

CookとCampbell^[8]は、ある集団に一般化する（generalize to）ことと、ある背景因子の異なるレベルにより定義される部分集団全体に一般化する（generalizing across）こととの間に重要な区別をつけた。Lynchは、歴史のスナップショットとして以外には意味のある集団に一般化する（to）ことは殆ど不可能であるが、ある原因がある従属変数に及ぼす影響が背景因子が異なる部分集団間でどの程度一般化される（across）かを検定することは可能であると主張している。その為には、調査対象の治療効果が1つ以上の背景因子との相互作用によって調整されているか否かを検証する必要がある^[7]^[9]。

妥当性の強化

妥当性を低下させる問題の多くは体系的な方法で無力化または中和され、妥当な一般化が可能となる。具体的には、ある母集団から得られた実験結果を「再処理 (re-processed)」または「再較正 (re-calibrated)」することで母集団の違いを回避し、実験が実施できない第二の母集団において有効な一般化を生み出すことができる。PearlとBareinboim^[5]は一般化の問題を (1)有効な再較正が可能なもの、(2)外的妥当性が理論的に不可能なもの、の2つに分類した。グラフに基づく因果推論計算を用いて^[10]、彼らは有効な一般化を可能にする問題の必要十分条件を導出し、必要な再較正が存在する場合には自動的に生成するアルゴリズムを考案した^[11]。これにより外的妥当性の問題はグラフ理論の演習にまで縮小され、一部の哲学者は問題は解決されたと結論付けるに至った^[12]。

外的妥当性の問題の重要なバリエーションは、選択バイアス（標本抽出バイアス（英語版）とも）を扱う。即ち、研究が意図された集団の代表的でないサンプルで実施されたときに生じるバイアスである。例えば大学生に対して実施した臨床試験の結果を、年齢、教育、収入などの属性が一般的な学生の属性と大幅に異なる集団全体に一般化できるか否かを知りたい場合がある。

BareinboimとPearlのグラフに基づく方法は、サンプル選択バイアスを回避できる条件を特定し、これらの条件が満たされると母集団全体の平均因果効果の不偏推定量を作成する。異なる集団間の一般化とサンプリングが不適切な研究からの一般化との主な違いは、集団間の差異は通常、年齢や民族などの既存の要因によって引き起こされるのに対し、選択バイアスは患者が研究から脱落したり負傷の重症度によって患者が選択されたなどの治療後の条件によって引き起こされることが多いという点にある。選択が治療後の要因により左右される場合、バイアスのない推定を確実にするために従来とは異なる再較正法が必要となり、その方法は問題のグラフから容易に得られる^[13]^[14]。

例

年齢が治療効果を個人ごとに変化させる主な要因であると判断された場合、サンプルの学生と一般集団の年齢差により、その集団における平均治療効果の推定値が偏る。しかしこのような偏りは、簡単な再重み付け手順で修正できる。学生の部分集団における年齢固有の効果を取り出し、一般集団における年齢分布を用いてその平均を計算する。これにより、一般集団における平均治療効果の不偏推定値が得られる。一方、研究サンプルと一般集団を区別する関連因子がそれ自体、治療によって影響される場合は、別の再重み付けスキームを使用する必要がある。この因子をZと呼び、実験標本のYに対するXのz特異的効果を再び平均し、今度はZに対するXの「因果効果」によって重み付けする。言い換えると、新しい重みは治療X=xが全集団に実施されていたらレベルZ=zを達成したユニットの割合を意味する。この介入確率は、Do微積分^[15] $P(Z=z|do(X=x))$ を使用して記述されることが多く、一般集団の観察研究から推定できる場合もある。ZとYが交絡している場合、つまりZとYの両方に影響する測定されていない共通因子がある場合でも、得られる推定値はバイアスのないものとなる^[16]。

この手法や他の重み付け方式の妥当性を保証する正確な条件は、Bareinboim and Pearl, 2016^[16]およびBareinboim et al, 2014^[14]で定式化されている。

外的妥当性、内的妥当性、生態学的妥当性

多くの研究や研究デザインにおいて、外的妥当性と内的妥当性はトレードオフの関係にある]^[17]^[18]^[19]。内的妥当性を高めようとすると結果の一般化可能性が制限されることがあり、その逆も同様である。このような状況から、多くの研究者が「生態学的に妥当な」実験を求めている。即ち、実験手順が「現実世界」の条件に似ているべきだという意味である。彼らは、人工的に制御され制限された環境に焦点を当てた多くの実験室ベースの研究に生態学的妥当性（英語版）が欠けていると批判する。外的妥当性と生態学的妥当性は、生態学的に妥当な研究デザインに基づく因果推論の方が人工的に作り出された実験室環境で得られた推論よりも高い一般化可能性が得られることが多いという意味で、密接に関連していると考える研究者もいる。しかしこれもまた、ある集団への一般化（生態学的妥当性に関する懸念と密接な関係がある）と、何らかの背景要因で異なる部分集団全体への一般化との区別に関連している。生態学的に妥当な研究環境で得られた知見の中には殆ど一般化できないものもあり、高度に管理された環境で得られた知見の中にはほぼ普遍的な外的妥当性を主張できるものもある。このように、外的妥当性と生態学的妥当性は独立しており、外的妥当性が有っても生態学的妥当性が無い可能性があり、その逆も同様である。

生態学的に妥当な研究環境で得られた結果の一部は、一般化が困難である場合があり、また、高度に管理された環境で得られた結果の一部は、ほぼ普遍的な外的妥当性を主張する場合があります。したがって、外的妥当性と生態学的妥当性は独立しており、研究は外的妥当性があっても生態学的妥当性がない可能性があり、その逆も同様です。

定性的研究

定性的研究のパラダイムにおいて、外的妥当性は移転可能性という概念に置き換えられている。移転可能性とは研究結果を、類似のパラメータ、集団、特性を持つ状況に反映させ得る可能性のことである^[20]。

実験にあたって

実験はその性質上、外的妥当性が低いと主張する研究者が居る。実験法に従うと、多くの欠点が生じると主張する者も居る。状況を充分に制御して人々を無作為に条件に割り当て外部変数の影響を排除することで、状況はやや人工的になり現実の生活から遠くなる可能性がある。

問題となる一般化は2つに大別できる^[3]：

実験者が構築した状況から現実の状況へと一般化できる範囲（状況を超えた一般化可能性）
実験に参加した人々から一般の人々へと一般化できる範囲（人々を超えた一般化可能性）

しかしこれらはどちらも、クックとキャンベルの「ある対象集団に（to）一般化する」という概念に関連するものであり、研究された特定の状況とは異なる部分集団や研究対象となった回答者とは何らかの意味で異なる人々に渡って（across）実験から得られた知見の一般化可能性を評価するという、より中心的な課題に関連するものであろう^[8]。

実験の批評家は、外的妥当性はフィールド設定（または最低でも現実的な実験室設定）の使用や、回答者の真の確率サンプルの使用によって改善される可能性があることを示唆している。しかし、状況的または個人的な背景因子が異なる部分集団間での一般化可能性を理解することが目的であれば、これらの救済策には、一般的に言われているような外的妥当性を高める効果はない。背景因子×治療の相互作用が存在し、それを研究者が認識していない場合（その可能性が高いと思われる）、これらの研究手法は、外的妥当性の大きなな欠如を覆い隠してしまう可能性がある。産業心理学と組織心理学について執筆しているDipboyeとFlanaganは、1つの現場設定から得られた知見も、1つの実験室設定から得られた知見も、同じように2つ目の現場設定に一般化される可能性は低いと指摘している^[21]。このように、フィールド研究はその性質上、外的妥当性が高いとは言えず、実験室研究はその性質上、外的妥当性が低いとは言えない。どちらの場合も、研究された特定の治療効果が、その研究で一定に保たれている背景因子の変化によって変化するか否かに掛かっている。もしある研究が、治療と相互作用しない何らかの背景因子のレベルで「非現実的」であれば、それは外的妥当性に影響しない。実験が何らかの背景因子を非現実的な水準で一定に保ち、その背景因子を変化させれば治療×背景因子の強い相互作用が明らかになった場合にのみ、外的妥当性が脅かされる^[7]。

状況を超えた一般化可能性

大学で行われる心理学実験の研究は、人工的な状況で行われ、現実の生活に一般化できないという批判を受けることが多い^[22]^[4]。この問題を解決するために、社会心理学者は研究をできるだけ現実的なものにすることで、結果の一般化可能性を高めようとしている。上述したように、これはある特定の集団に一般化することを期待してのことである。現実性そのものは、設定が何らかの形でより現実的であった場合、あるいは研究参加者が別の現実的な設定に置かれた場合に、結果が変わるか否かについての記述には役立たない。1つの設定しか検証していない場合、設定間の一般化可能性について述べることは不可能である^[7]^[9]。

しかし、多くの著者は外的妥当性と現実性を混同している。実験が現実的である方法は一つではない：

実験状況は日常生活で頻繁に起こる出来事と類似しており、多くの実験が決定的に非現実的であることは明らかである。
多くの実験では、人々は日常生活では滅多に遭遇しないような状況に置かれる。

実験が現実の状況に類似している度合いを、実験の日常的現実性と呼ぶ^[22]。

それよりも、実験で引き起こされる心理的プロセスが日常生活で起こる心理的プロセスにどれだけ似ているかという、心理学的現実性の高さを保証することが重要である^[23]。

心理学的現実性は、人々が実際の出来事に夢中になっていると感じることで向上する。これを達成するために、研究者は被験者にカバーストーリー（英語版）（研究の目的を偽って説明すること）を話すことがある。逆にもし実験者が参加者に実験の目的を話すとしたら、心理的現実性が低下する。非日常的状況の場合、日常生活では緊急事態がいつ起こるか誰にも判らないし、それに対する対応を計画する時間もない。つまり引き起こされる心理的プロセスの種類は実際の緊急事態のそれとは大きく異なり、研究の心理的現実性がを低下する^[3]。

人は、なぜ自分がそのような行動をとるのか、あるいは実際に行動するまで何をするのかを必ずしも理解している訳ではない。そのため、実験状況を被験者に説明し通常の反応を求めると、実際に同じ状況にいる人々の行動と一致しない反応が返ってくる可能性がある。仮想的な状況で人々が何をするかという予測に頼ることはできない。現実世界で起こるのと同じ心理的プロセスを誘発する状況を構築して初めて、人々が実際に何をするかを知ることができる。

人々を超えた一般化可能性

社会心理学者は、一般的に人々が社会的影響を受けやすいことを研究している。幾つかの実験では、社会的影響力の予想外で興味深い例が記録されている。他人が居ることを知るだけで、人が手助けをする可能性が低くなるというものである。

実験結果が特定の集団の行動を反映していると確信する唯一の方法は、参加者をその集団から無作為に選ぶことである。社会心理学の実験では無作為にサンプルを選ぶのは非現実的でコストがかかるため、実験では、調査のようにサンプルを無作為に選ぶことはできない。政治的世論調査の一環として、無作為抽出した人々に電話で数問の質問に答えることに同意させるのは充分に困難であり、そのような世論調査の実施には数千ドルの費用がかかる。さらに、どうにかして真に無作為なサンプルを集めることが出来たとしても、実験的処置の効果には観察されない異質性が存在する可能性がある..。ある処置は、あるサブグループにはプラスの効果を齎すが、他のサブグループにはマイナスの効果を齎すことがある。治療平均で示された効果は、どのサブグループにも一般化されるとは限らない^[7]^[24]。

多くの研究者は、人々が社会的影響を受け易くなる基本的な心理的プロセスを研究することでこの問題に取り組んでいる。これらのプロセスは非常に基本的なものであり、普遍的に共有されていると想定されている。一部の社会心理学的プロセスは文化によって異なるものもあり、そのような場合には、多様な人々のサンプルを研究しなければならない^[25]。

再現性

実験の外的妥当性の究極のテストは、再現実験である。通常、異なる被験者集団や異なる環境で、再度研究を行う。研究者はしばしば異なる方法を用いて、それでも同じ結果が得られるかどうかを確認する。

一つの問題について多くの研究が行われた場合、その結果は様々である。幾つかの研究では、傍観者の数が援助行動に及ぼす影響が見られるかもしれないが、そうでないものもある。これを理解するために、2つ以上の研究の結果を平均化して独立変数の効果の信頼性を調さする為のメタ分析と呼ばれる統計手法がある。メタ分析は本質的に、多くの研究結果にわたる所見が偶然に起因するのか、独立変数に起因するのかの確率を示す。もしある独立変数が20の研究のうち1つのみで効果を持つことが発見されたなら、メタ分析では、その1つの研究が例外であり、平均して独立変数は従属変数に影響を与えないことを示唆するであろう。独立変数が殆どの研究で効果を上げている場合、メタ分析では平均してそれが従属変数に影響を与えていると判定される。

実験室に限定されない、信頼できる現象が存在する可能性がある。例えば、傍観者の数を増やすと子供、大学生、将来の牧師^[25]など、多くの種類の人々の援助行動が抑制されることがわかっている。イスラエル^[26]、米国の小さな町や大都市^[27]、心理学実験室、街の通り、地下鉄の電車^[28]などのさまざまな環境における、発作、潜在的な火災、喧嘩、事故などのさまざまな種類の緊急事態^[29]、タイヤのパンクなどのそれほど深刻ではないイベント^[30]でも同様である。これらの再現の多くは、人々が実験が行われていることを知り得ないような現実の環境で行われている。

社会心理学者の基本的ジレンマ

心理学で実験を行う場合、内的妥当性と外的妥当性は常にトレードオフの関係にあるという説がある。

余計な変数が結果に影響を及ぼさないように状況を充分に制御し、人々を条件にランダムに割り当て、
結果が日常生活に一般化できることを保証する。

外的妥当性を高める良い方法は、フィールド実験（英語版）を行うことだと考える研究者もいる。フィールド実験では、実験室外、自然な環境で人々の行動が研究される。フィールド実験は、現実の環境で行われることを除けば、実験室での実験とデザインは同じである。フィールド実験の参加者は、自分たちが経験している出来事が実は実験であることに気付かない。このような実験は、現実の世界で典型的な大学生サンプルよりも多様な実在の人々とともに行われるため、外的妥当性が高いと主張する人もいる。しかし、実世界の環境は大きく異なるため、ある実世界の環境で得られた知見が、別の実世界の環境で一般化される場合もあれば、そうでない場合もある^[21]。

内的妥当性も外的妥当性も、一つの実験では捉えられない。一部の社会心理学者はまず内的妥当性を選び、人々を異なる条件に無作為に割り付け、すべての外的変数を制御した実験室実験を行う。他の社会心理学者は、外的妥当性をコントロールすることを好み、研究のほとんどを実地調査で実施する。両方の研究を合わせると、完璧な実験の条件を満たしていることになる。再現研究によって、研究者は与えられた研究課題を、最大限の内的・外的妥当性をもって研究することができる^[31]。

出典

^ Mitchell, M. & Jolley, J. (2001). Research Design Explained (4th Ed) New York:Harcourt.
^ ^a ^b ^c ^d Findley, Michael G.; Kikuta, Kyosuke; Denly, Michael (2021). “External Validity” (英語). Annual Review of Political Science 24 (1): 365–393. doi:10.1146/annurev-polisci-041719-102556. ISSN 1094-2939.
^ ^a ^b ^c Aronson, E., Wilson, T. D., Akert, R. M., & Fehr, B. (2007). Social psychology. (4 ed.). Toronto, ON: Pearson Education.
^ ^a ^b Yarkoni, Tal (2020-12-21). “The generalizability crisis” (英語). Behavioral and Brain Sciences 45: e1. doi:10.1017/S0140525X20001685. ISSN 0140-525X. PMC 10681374. PMID 33342451.
^ ^a ^b Pearl, Judea; Bareinboim, Elias (2014). “External validity: From do-calculus to transportability across populations”. Statistical Science 29 (4): 579–595. arXiv:1503.01603. doi:10.1214/14-sts486.
^ Trochim, William M. The Research Methods Knowledge Base, 2nd Edition.
^ ^a ^b ^c ^d ^e Lynch, John (1982). “On the External Validity of Experiments in Consumer Research”. Journal of Consumer Research 9 (3): 225–239. doi:10.1086/208919. JSTOR 2488619.
^ ^a ^b Cook, Thomas D.; Campbell, Donald T. (1979). Quasi-Experimentation: Design & Analysis Issues for Field Settings. Chicago: Rand McNally College Publishing Company. ISBN 978-0395307908
^ ^a ^b Lynch, John (1999). “Theory and External Validity”. Journal of the Academy of Marketing Science 27 (3): 367–76. doi:10.1177/0092070399273007.
^ Pearl, Judea (1995). “Causal diagrams for empirical research”. Biometrika 82 (4): 669–710. doi:10.1093/biomet/82.4.669.
^ Bareinboim, Elias; Pearl, Judea (2013). “A general algorithm for deciding transportability of experimental results”. Journal of Causal Inference 1 (1): 107–134. arXiv:1312.7485. doi:10.1515/jci-2012-0004.
^ Marcellesi, Alexandre (December 2015). “External validity: Is there still a problem?”. Philosophy of Science 82 (5): 1308–1317. doi:10.1086/684084.
^ Pearl, Judea (2015). Generalizing experimental findings. Journal of Causal Inference. Vol. 3, no. 2. pp. 259–266.
^ ^a ^b Bareinboim, Elias; Tian, Jin; Pearl, Judea (2014). Brodley, Carla E.; Stone, Peter. eds. “Recovering from Selection Bias in Causal and Statistical Inference”. Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence: 2410–2416.
^ Pearl, Judea; Glymour, Madelyn; Jewell, Nicholas P. (2016). Causal Inference in Statistics: A Primer. New York: Wiley
^ ^a ^b Bareinboim, Elias; Pearl, Judea (2016). “Causal inference and the data-fusion problem”. Proceedings of the National Academy of Sciences 113 (27): 7345–7352. doi:10.1073/pnas.1510507113. PMC 4941504. PMID 27382148.
^ Campbell, Donald T. (1957). “Factors relevant to the validity of experiments in social settings.” (英語). Psychological Bulletin 54 (4): 297–312. doi:10.1037/h0040950. ISSN 1939-1455. PMID 13465924.
^ Lin, Hause; Werner, Kaitlyn M.; Inzlicht, Michael (2021-02-16). “Promises and Perils of Experimentation: The Mutual-Internal-Validity Problem” (英語). Perspectives on Psychological Science 16 (4): 854–863. doi:10.1177/1745691620974773. ISSN 1745-6916. PMID 33593177.
^ Schram, Arthur (2005-06-01). “Artificiality: The tension between internal and external validity in economic experiments”. Journal of Economic Methodology 12 (2): 225–237. doi:10.1080/13501780500086081. ISSN 1350-178X.
^ Lincoln, Y. S.; Guba, E. G. (1986). “But is it rigorous? Trustworthiness and authenticity in naturalistic evaluation”. In Williams, D. D.. Naturalistic Evaluation. New Directions for Program Evaluation. 30. San Francisco: Jossey-Bass. pp. 73–84. ISBN 0-87589-728-2
^ ^a ^b Dipboye, Robert L.; Flanagan, Michael F. (1979). “Research Settings in Industrial and Organizational Psychology: Are Findings in the Field More Generalizable than the Laboratory”. American Psychologist 34 (2): 141–150. doi:10.1037/0003-066x.34.2.141.
^ ^a ^b Aronson, E., & Carlsmith, J.M. (1968). Experimentation in social psychology. In G. Lindzey & E. Aronson(Eds.), The Handbook of social psychology. (Vol. 2, pp. 1–79.) Reading, MA: Addison-Wesley.
^ Aronson, E., Wilson, T.D., & Brewer, m. (1998). Experimental methods. In D. Gilbert, S. Fiske, & G. Lindzey (Eds.), The handbook of social psychology. (4th ed., Vol. 1, pp. 99–142.) New York: Random House.
^ Hutchinson, J. Wesley; Kamakura, Wagner A.; Lynch, John G. (2000). “Unobserved Heterogeneity as an Alternative Explanation for "Reversal" Effects in Behavioral Research”. Journal of Consumer Research 27 (3): 324–344. doi:10.1086/317588. JSTOR 10.1086/317588.
^ ^a ^b Darley, J.M.; Batson, C.D. (1973). “From Jerusalem to Jericho: A study of situational and dispositional variables in helping behaviour”. Journal of Personality and Social Psychology 27: 100–108. doi:10.1037/h0034449.
^ Schwartz, S.H.; Gottlieb, A. (1976). “Bystander reactions to a violent theft: Crime in Jerusalem”. Journal of Personality and Social Psychology 34 (6): 1188–1199. doi:10.1037/0022-3514.34.6.1188. PMID 1003323.
^ Latane, B.; Dabbs, J.M. (1975). “Sex, group size, and helping in three cities”. Sociometry 38 (2): 108–194. doi:10.2307/2786599. JSTOR 2786599.
^ Harrison, J.A.; Wells, R.B. (1991). “Bystander effects on male helping behaviour: Social comparison and diffusion of responsibility”. Representative Research in Social Psychology 96: 187–192.
^ Latane, B.; Darley, J.M. (1968). “Group inhibition of bystander intervention”. Journal of Personality and Social Psychology 10 (3): 215–221. doi:10.1037/h0026570. PMID 5704479.
^ Hurley, D.; Allen, B.P. (1974). “The effect of the number of people present in a nonemergency situation”. Journal of Social Psychology 92: 27–29. doi:10.1080/00224545.1974.9923068.
^ Latane, B., & Darley, J.M. (1970). The unresponsive bystander: Why doesn't he help? Englewood Cliffs, NJ: Prentice Hall