在統計學 上,廣義線性模型 (英語:generalized linear model ,缩写作 GLM )是一種應用灵活的線性迴歸 模型。该模型允许因变量 的偏差分布有除了正态分布 之外的其它分布。此模型假設實驗者所量測的隨機變數的分佈函數與實驗中系統性效應(即非隨機的效應)可經由一鏈結函數(link function )建立可解釋其相關性的函數。
約翰·內爾德 與彼得·麥古拉 在1989年出版,被視為廣義線性模式的代表性文獻中提綱挈領地說明了廣義線性模式的原理、計算(如最大概似估計量 )及其實務應用。
概說
广义线性模型是普通最小二乘法 (OLS)的扩展,在廣義線性模式中,假設每個資料的觀測值
Y
{\displaystyle \mathbf {Y} }
來自某個指數族 分佈。 該分佈的平均數
μ
{\displaystyle {\boldsymbol {\mu }}}
可由與該點獨立的X解釋:
E
(
y
)
=
μ
=
g
−
1
(
X
β
)
{\displaystyle \operatorname {E} ({\boldsymbol {y}})={\boldsymbol {\mu }}=g^{-1}(\mathbf {X} {\boldsymbol {\beta }})}
其中
E
(
y
)
{\displaystyle E({\boldsymbol {y}})}
為
y
{\displaystyle {\boldsymbol {y}}}
的期望值 ,
X
β
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}}
是由未知待估計參數
β
{\displaystyle {\boldsymbol {\beta }}}
與已知變數
X
{\displaystyle \mathbf {X} }
構成的線性估計式,
g
{\displaystyle g}
則為鏈結函數。
在此模式下,
y
{\displaystyle {\boldsymbol {y}}}
的方差
V
{\displaystyle V}
可表示為:
Var
(
y
)
=
V
(
μ
)
=
V
(
g
−
1
(
X
β
)
)
.
{\displaystyle \operatorname {Var} ({\boldsymbol {y}})=\operatorname {V} ({\boldsymbol {\mu }})=\operatorname {V} (g^{-1}(\mathbf {X} {\boldsymbol {\beta }})).}
一般假設
V
{\displaystyle V}
可視為一指數族 隨機變數 的函數 。
未知參數
β
{\displaystyle {\boldsymbol {\beta }}}
通常會以最大概似估計量 , 殆最大概似估計量 , 或以貝氏方法 來估計。
模式組成
廣義線性模式包含了以下主要部份:
來自指數族的分佈函數
f
{\displaystyle f}
。
線性預測子
η
=
X
β
{\displaystyle {\boldsymbol {\eta }}=\mathbf {X} {\boldsymbol {\beta }}}
。
鏈結函數
g
{\displaystyle g}
使得
E
(
Y
∣
X
)
=
μ
=
g
−
1
(
η
)
{\displaystyle E(Y\mid X)={\boldsymbol {\mu }}=g^{-1}({\boldsymbol {\eta }})}
。
指數族
指數族 隨機變數 意指其具參數θ 與τ 的機率密度函數 , f (在論離散型隨機變數時,則為概率质量函数 )可表為:
f
Y
(
y
;
θ
,
τ
)
=
exp
(
a
(
y
)
b
(
θ
)
+
c
(
θ
)
h
(
τ
)
+
d
(
y
,
τ
)
)
.
{\displaystyle f_{Y}(y;\theta ,\tau )=\exp {\left({\frac {a(y)b(\theta )+c(\theta )}{h(\tau )}}+d(y,\tau )\right)}.\,\!}
τ 稱之為變異參數 ,通常用以解釋變異數。函數a 、b 、c 、d 及h 為已知。許多(不包含全部)型態的隨機變數可歸類為指數族
θ 與該隨機變數的期望值有關。若a 為恆等函數 ,則稱該分佈屬於 正則型式 。 另外,若b 為恆等而τ 已知,則θ 稱為正則參數 ,其與期望值的關係可表為:
μ
=
E
(
Y
)
=
−
c
′
(
θ
)
.
{\displaystyle \mu =\operatorname {E} (Y)=-c'(\theta ).\,\!}
一般情形下,該分佈的變異數可表為:
Var
(
Y
)
=
−
c
″
(
θ
)
h
(
τ
)
.
{\displaystyle \operatorname {Var} (Y)=-c''(\theta )h(\tau ).\,\!}
線性預測子
線性預測子是用將獨立變數經由線性組合來尋模式所能提供之資訊的計量變數。符號η (希臘字母 "Η ")通常用來表示線性預測子。它與資料的期望值 的鏈結函數值有關(故稱"預測子")。
η 表為未知參數β 的線性組合(故為"線性")。X 則為獨立變數所組合而成的观测矩陣。如此一來,η 可表示為
η
=
X
β
.
{\displaystyle \eta =\mathbf {X} {\boldsymbol {\beta }}.\,}
X 的元素通常為模式設計時可觀測的資料或為實驗時所得的數據。
鏈結函數
鏈結函數解釋了線性預測子與分佈期望值 的關係。鏈結函數的選擇可視情形而定。通常只要符合鏈結函數的值域有包含分佈期望值的條件即可。
當使用具正則參數θ 的分佈時,鏈結函數需符合X T Y 為β 的充份統計量 此一條件。這在θ 與線性預測子的鏈結函數值相等時方成立。下面列出若干指數族分佈的典型鏈結函數及其反函數(有時稱為均值函數):
典型鏈結函數
Y的分佈
名稱
鏈結函數
均值函數
正态
恆等
X
β
=
μ
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mu \,\!}
μ
=
X
β
{\displaystyle \mu =\mathbf {X} {\boldsymbol {\beta }}\,\!}
指數
倒數
X
β
=
μ
−
1
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mu ^{-1}\,\!}
μ
=
(
X
β
)
−
1
{\displaystyle \mu =(\mathbf {X} {\boldsymbol {\beta }})^{-1}\,\!}
Gamma
逆高斯
二次倒數
X
β
=
μ
−
2
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mu ^{-2}\,\!}
μ
=
(
X
β
)
−
1
/
2
{\displaystyle \mu =(\mathbf {X} {\boldsymbol {\beta }})^{-1/2}\,\!}
卜瓦松
自然對數
X
β
=
ln
(
μ
)
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\ln {(\mu )}\,\!}
μ
=
exp
(
X
β
)
{\displaystyle \mu =\exp {(\mathbf {X} {\boldsymbol {\beta }})}\,\!}
二項式
Logit
X
β
=
ln
(
μ
1
−
μ
)
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\ln {\left({\frac {\mu }{1-\mu }}\right)}\,\!}
μ
=
exp
(
X
β
)
1
+
exp
(
X
β
)
{\displaystyle \mu ={\frac {\exp {(\mathbf {X} {\boldsymbol {\beta }})}}{1+\exp {(\mathbf {X} {\boldsymbol {\beta }})}}}\,\!}
多項式
在指數分佈與Gamma分佈中,其典型鏈結函數的值域並不包含分佈均值,另外其線性預測子亦可能出現負值,此兩種分佈絕無均值為負的可能。當進行极大似然估计进行計算時需避免上述情形出現,這時便需要使用到非典型鏈結函數。
例子
一般线性模式
有些人可能會把一般線性模式和廣義線性模式給弄混了。一般線性模式可視為廣義線性模式的一個鏈結函數為恆等的特例。一般線性模式有著悠長的發展歷史。廣義線性模式具非恆等鏈結函數者有著漸近一致的結果。
線性迴歸
廣義線性模式最簡單的例子便是線性迴歸。此例中分佈函數為常態分佈而鏈結函數為恆等函數在變異數已知的條件下並符合正規式。
這個例子具有廣義線性模式罕有的极大似然估计 的解析解
二元数据
在討論二元反應結果(如有 跟沒有 )時,通常以二項式分布 建模。其期望值'μi 通常解釋為樣本 Yi 發生事件的機率 p
二項式分布 有許多常用的鏈結函數,最常用的鏈結函數是logit :
g
(
p
)
=
ln
(
p
1
−
p
)
.
{\displaystyle g(p)=\ln \left({p \over 1-p}\right).}
以此建模的廣義線性模式通常稱為logistic迴歸 模式。
另外,任何連續型機率分配累積函數 (CDF)的反函數皆可使用此模式,因為其值域為[0,1],包含了二項式分佈期望值的可能值域。常態機率分配累積函數
Φ
{\displaystyle \Phi }
是一個廣受應用於probit模式 的選擇。其鏈結函數為
g
(
p
)
=
Φ
−
1
(
p
)
.
{\displaystyle g(p)=\Phi ^{-1}(p).\,\!}
有時恆等函數也會被用為二項式分佈的鏈結函數,其缺點為預測值可能超出合理範圍。經過若干修正可以避免上述問題,但會在解釋上造成困難。此模式通常適用於p 接近0.5的情形。 此種建模很接近logit及probit的線性轉換,有時計量經濟學家會稱其為Harvard模式。
二元資料的廣義線性模式變異函數可寫為
Var
(
Y
i
)
=
τ
μ
i
(
1
−
μ
i
)
{\displaystyle \operatorname {Var} (Y_{i})=\tau \mu _{i}(1-\mu _{i})\,\!}
其中變異參數
τ
{\displaystyle \tau }
通常等於1,若非,則該模式稱為溢變異或殆二元。
計次資料
另一個常用的例子為用於計次的泊松分佈 。此例的鏈結函數為自然對數,為正規鏈結。
變異數函數與均值成等比
var
(
Y
i
)
=
τ
μ
i
,
{\displaystyle \operatorname {var} (Y_{i})=\tau \mu _{i},\,}
其中變異參數
τ
{\displaystyle \tau }
通常為1。 若非,此模式通常稱為溢變異或似卜瓦松。
參考文獻
延伸閱讀
McCullagh, Peter; John Nelder . Generalized Linear Models. London: Chapman and Hall. 1989. ISBN 0-412-31760-5 .
Dobson, A.J. Introduction to Generalized Linear Models, Second Edition. London: Chapman and Hall/CRC. 2001.
Hardin, James; Joseph Hilbe . Generalized Linear Models and Extensions. College Station: Stata Press. 2001, 2007.