活性化関数 (かっせいかかんすう、英 : activation function )もしくは伝達関数 (でんたつかんすう、英 : transfer function )とは、ニューラルネットワーク のニューロンにおける、入力のなんらかの合計(しばしば、線形 な重み付け総和)から、出力を決定するための関数で、非線形な関数とすることが多い。
概要
よく使われているモデルでは、人工ニューロン は1つ以上の入力を受け取り(1つ以上の樹状突起 に相当)、それらの重み付け総和から、活性化関数を通して、出力を生成する。
数式では、以下の
φ
{\displaystyle \varphi }
が活性化関数。
y
=
φ
(
∑
i
=
1
m
w
i
x
i
+
b
)
{\displaystyle y=\varphi \left(\sum _{i=1}^{m}w_{i}x_{i}+b\right)}
古典的にはステップ関数 が提案された。他にもいろいろと考えることはできる。1986年のバックプロパゲーションの発表以降はシグモイド関数 が最も一般的だった。現在はReLU (ランプ関数 )の方が良いと言われる[ 1] 。活性化関数は単調増加関数 が使われる事が多い。必ずしもそうしなければいけないという物でもなく動径基底関数 なども使われる。
種類
人工神経の活性化関数は、ネットワークを強化または単純化するような特性を持つものが選ばれる。実際、線型伝達関数を使った多層パーセプトロン には、全く等価な単層ネットワークが必ず存在する。したがって、多層ネットワークの利点を生かすには非線形関数が必須である。
以下ステップ関数と線形結合の説明では、人工神経への全入力の重み付けされた総和を u で表し、入力数を n で表す。
u
=
∑
i
=
1
n
w
i
x
i
{\displaystyle u=\sum _{i=1}^{n}w_{i}x_{i}}
ここで w はシナプスの重み付けベクトルであり、x は入力ベクトルである。これはバイアス項を加える前の値。
ステップ関数
1943年の、いわゆる「マカロックとピッツ」の発表で提案されたもの。
ステップ関数 の出力 y は 0 か 1 の二値であり、u がしきい値 b より大きいか小さいかで出力が決定される。入力の総和がしきい値以上であるとき、出力信号が 1 として出力される。
y
=
H
(
u
−
b
)
=
{
1
if
u
≥
b
0
if
u
<
b
{\displaystyle y=H(u-b)=\left\{{\begin{matrix}1&{\mbox{if }}u\geq b\\0&{\mbox{if }}u<b\end{matrix}}\right.}
φ
(
x
)
=
H
(
x
)
{\displaystyle \varphi (x)=H(x)}
パーセプトロン
パーセプトロンでは、前述のモデルから、線型和にバイアス値 b を加えることが提案された。
y
=
u
+
b
{\displaystyle y=u+b}
φ
(
x
)
=
x
{\displaystyle \varphi (x)=x}
一般にこのような純粋な形式の伝達関数は回帰設定の場合のみしか使えない。二値分類設定では出力の符号で 1 または 0 に対応させる。これはすなわち、上述のステップ関数で b の符号を反転した場合と等価であり、学習アルゴリズムで有効である。
シグモイド関数
φ
(
x
)
=
ς
1
(
x
)
=
1
1
+
e
−
x
=
tanh
(
x
/
2
)
+
1
2
{\displaystyle \varphi (x)=\varsigma _{1}(x)={\frac {1}{1+e^{-x}}}={\frac {\tanh(x/2)+1}{2}}}
比較的単純な非線形関数であるシグモイド関数 は、微分の計算も容易であることから1986年に発表されたバックプロパゲーション を伴うニューラルネットワークで使われる。ネットワークを数学的に扱うことが容易になるため、シミュレーションの計算負荷を減らしたいと思っていた初期の研究者がシグモイド関数をこぞって採用した。
ς 型の関数の比較
1990年代になり、活性化関数は原点を通すべきと言う考えから、標準シグモイド関数よりもそれを線形変換した tanh の方が良いと提案された[ 2] [ 3] 。
φ
(
x
)
=
tanh
(
x
)
{\displaystyle \varphi (x)=\tanh(x)}
ソフトサイン
下記関数をソフトサイン(英 : softsign )と呼び、2010年の Xavier Glorot らの研究では tanh と同程度に良かった[ 3] 。
φ
(
x
)
=
x
1
+
|
x
|
{\displaystyle \varphi (x)={\frac {x}{1+|x|}}}
ソフトプラス
青がReLU(ランプ関数)、緑がソフトプラス
下記関数をソフトプラス(英 : softplus )と呼び、これが活性化関数として使われることもある。
φ
(
x
)
=
log
(
1
+
e
x
)
{\displaystyle \varphi (x)=\log(1+e^{x})}
ReLU(ランプ関数)
2011年、Xavier Glorot らは隠れ層の活性化関数としてmax(0, x) を使った方がtanhやソフトプラスよりも改善するということを発表した[ 4] 。一般的にはこれはランプ関数 と呼ばれるが、ニューラルネットワークの世界ではReLU (英 : Rectified Linear Unit, Rectifier 、正規化線形関数 )と呼ばれる。ヤン・ルカン やジェフリー・ヒントン らが雑誌ネイチャー に書いた論文では、2015年5月現在これが最善であるとしている[ 1] 。発想としては区分線形関数 を使った1次スプライン補間 である。線形補間 を参照。
φ
(
x
)
=
x
+
=
max
(
0
,
x
)
{\displaystyle \varphi (x)=x_{+}=\max(0,x)}
2013年にmax(0.01x, x) がLReL (leaky rectified linear) と命名された。ただし、命名者はこの活性化関数を使う意味はなかったと報告している[ 5] 。
2018年にx*sigmoid(x) がSwish (あるいはSiLU, sigmoid weighted linear) と命名された。この関数はReLUよりも高い分類精度を得ることができると示されている[ 6] 。
切断冪関数
ランプ関数 (ReLU)を一般化すると切断冪関数 になり、n次スプライン補間 。2乗はクォーターパイプ関数(英 : quarter-pipe )とも呼ばれる[ 7] 。
φ
(
x
)
=
x
+
n
=
(
x
+
)
n
{\displaystyle \varphi (x)=x_{+}^{n}=(x_{+})^{n}}
多項式
2次以上の多項式 も非線形関数であり、活性化関数に使える。
φ
(
x
)
=
x
n
,
n
≥
2
{\displaystyle \varphi (x)=x^{n},\ n\geq 2}
絶対値
絶対値 はReLU(ランプ関数 )と同様、線形に近い非線形関数。傾きが0の場所が無いという特徴がある。
φ
(
x
)
=
|
x
|
{\displaystyle \varphi (x)=|x|}
Snake
2020年に Liu Ziyin らが提案したSnake関数は正弦関数 を使用した単調増加の関数であり、ReLU等に比べ周期的な入力に対しより頑健になることが期待される[ 8] 。
φ
(
x
)
=
x
+
sin
2
x
{\displaystyle \varphi (x)=x+\sin ^{2}x}
三角関数
2020年に Vincent Sitzmann らが活性化関数に正弦関数を使う物をSIREN(Sinusoidal representation networks)と命名した。画像や音声等の情報をニューラルネットワークへ符号化 するタスクにおいて、他の活性化関数よりも高い精度を得られたことが確認されている。[ 9]
φ
(
x
)
=
sin
x
{\displaystyle \varphi (x)=\sin x}
動径基底関数
1988年に David S. Broomhead らが活性化関数に動径基底関数 を使う物を動径基底関数ネットワーク(RBFネットワーク, radial basis function network)と命名した。[ 10]
φ
(
x
)
=
exp
(
−
β
x
2
)
{\displaystyle \varphi (x)=\exp(-\beta x^{2})}
ウェーブレット
1992年に Qinghua Zhang らが活性化関数にウェーブレット を使う物をウェーブレットネットワークと命名した[ 11] 。
maxout
2013年に Ian J. Goodfellow らが発表した活性化関数[ 12] 。通常の活性化関数は実数から実数への写像であるが、活性化関数 maxout は(線形変換した後の)複数の実数の値に対する最大値を出力とする。発表者は dropout(層内を全結合にしない手法)との併用で論文を書いている。
出力層の活性化関数と誤差関数
出力層は隠れ層とは区別して設計する。活性化関数と誤差関数をセットで設計する必要がある。そして、問題の種類ごとにそれらは異なる。絶対的なルールはないが、下記の方法が一般的な方法である。ここであげた手法は誤差関数の偏微分が全て出力と目標値の差になっていて扱いやすい。
変数の使い方は以下の通り。
N
{\displaystyle N}
:訓練データの個数
d
n
{\displaystyle d_{n}}
:n番目の訓練データの目標値
y
n
{\displaystyle y_{n}}
:n番目の訓練データの出力
回帰
活性化関数:
φ
(
u
)
=
u
{\displaystyle \varphi (u)=u}
誤差関数:
E
(
w
)
=
1
2
∑
n
=
1
N
‖
y
n
−
d
n
‖
2
{\displaystyle E(w)={\frac {1}{2}}\sum _{n=1}^{N}\|y_{n}-d_{n}\|^{2}}
誤差関数の偏微分:
∂
E
n
(
w
)
∂
u
=
y
n
−
d
n
{\displaystyle {\frac {\partial E_{n}(w)}{\partial u}}=y_{n}-d_{n}}
二値分類
出力は1つで確率と解釈する。
d
n
{\displaystyle d_{n}}
は 0 または 1 もしくは確率。誤差関数は最尤推定 で導出できる。
活性化関数:
φ
(
u
)
=
ς
1
(
u
)
=
1
1
+
e
−
u
{\displaystyle \varphi (u)=\varsigma _{1}(u)={\frac {1}{1+e^{-u}}}}
誤差関数:
E
(
w
)
=
−
∑
n
=
1
N
(
d
n
log
y
n
+
(
1
−
d
n
)
log
(
1
−
y
n
)
)
{\displaystyle E(w)=-\sum _{n=1}^{N}(d_{n}\log y_{n}+(1-d_{n})\log(1-y_{n}))}
誤差関数の偏微分:
∂
E
n
(
w
)
∂
u
=
y
n
−
d
n
{\displaystyle {\frac {\partial E_{n}(w)}{\partial u}}=y_{n}-d_{n}}
多クラス分類
K 個のクラスに分類する。出力は K 個で、総和は 1 であり、そのクラスに所属する確率と解釈する。
d
n
,
k
{\displaystyle d_{n,k}}
は 0 または 1 もしくは確率で、n 番目の訓練データがクラス k に所属する時 1。
∑
k
d
n
,
k
=
1
{\displaystyle \sum _{k}d_{n,k}=1}
。交差エントロピー を使用している。この活性化関数はソフトマックス関数と呼ばれる。このまま計算すると浮動小数点数に入りきらなく、オーバーフローすることが多いが、
u
k
{\displaystyle u_{k}}
は全て同じ数を引いた場合は結果が同じになる事を利用して、
max
k
u
k
{\displaystyle \max _{k}u_{k}}
を全てから減算して活性化関数を計算すると良い。
活性化関数:
φ
(
u
k
)
=
e
u
k
∑
i
=
1
K
e
u
i
{\displaystyle \varphi (u_{k})={\frac {e^{u_{k}}}{\sum _{i=1}^{K}e^{u_{i}}}}}
誤差関数:
E
(
w
)
=
−
∑
n
=
1
N
∑
k
=
1
K
d
n
,
k
log
y
n
,
k
{\displaystyle E(w)=-\sum _{n=1}^{N}\sum _{k=1}^{K}d_{n,k}\log y_{n,k}}
誤差関数の偏微分:
∂
E
n
(
w
)
∂
u
k
=
y
n
,
k
−
d
n
,
k
{\displaystyle {\frac {\partial E_{n}(w)}{\partial u_{k}}}=y_{n,k}-d_{n,k}}
論理演算
論理演算 の実装を、活性化関数が、マカロックとピッツのモデル (ステップ関数)の場合とランプ関数 (ReLU)の場合とで示す。よく知られているように、中間層のニューロセルの無い単純パーセプトロン では、線形分離不可能なものは扱えない。例えばこの例では、2入力のXORを実装できないため、実際に以下に示すようにXORでは中間層が必要になっている。真 = 1で偽 = 0、ReLU は真 = 1で偽 = -1である。ReLUは出力の正負で真偽を判断する。
論理演算
論理演算
ステップ関数
ランプ関数(ReLU)
NOT
H
(
−
x
1
+
0.5
)
{\displaystyle H(-x_{1}+0.5)}
φ
(
−
x
1
)
−
0.5
{\displaystyle \varphi (-x_{1})-0.5}
AND
H
(
x
1
+
x
2
−
1.5
)
{\displaystyle H(x_{1}+x_{2}-1.5)}
φ
(
x
1
+
x
2
)
−
1
{\displaystyle \varphi (x_{1}+x_{2})-1}
OR
H
(
x
1
+
x
2
−
0.5
)
{\displaystyle H(x_{1}+x_{2}-0.5)}
φ
(
x
1
+
x
2
+
2
)
−
1
{\displaystyle \varphi (x_{1}+x_{2}+2)-1}
XOR
H
(
x
1
+
x
2
−
2
H
(
x
1
+
x
2
−
1.5
)
−
0.5
)
{\displaystyle H(x_{1}+x_{2}-2H(x_{1}+x_{2}-1.5)-0.5)}
−
φ
(
x
1
+
x
2
)
−
φ
(
−
x
1
−
x
2
)
+
1
{\displaystyle -\varphi (x_{1}+x_{2})-\varphi (-x_{1}-x_{2})+1}
関数近似
ランプ関数(ReLU)にて
y
=
x
2
{\displaystyle y=x^{2}}
を近似してみる。
訓練データ
(x, y) = {(-3, 9), (-2, 4), (-1, 1), (0, 0), (1, 1), (2, 4), (3, 9)}
学習結果
2
φ
(
−
x
−
2
)
+
2
φ
(
−
x
−
1
)
+
φ
(
−
x
)
+
φ
(
x
)
+
2
φ
(
x
−
1
)
+
2
φ
(
x
−
2
)
{\displaystyle 2\varphi (-x-2)+2\varphi (-x-1)+\varphi (-x)+\varphi (x)+2\varphi (x-1)+2\varphi (x-2)}
これは折れ線 によって近似している(線形補間 )。これを一般化すると十分な数のニューロンがあれば任意の関数がランプ関数(ReLU)を活性化関数として使って表現できることが分かる。
出典
^ a b Yann LeCun; Yoshua Bengio; Geoffrey Hinton (2015-05-28). “Deep learning”. Nature 521 (7553): 436-444. doi :10.1038/nature14539 .
^ Yann LeCun; Leon Bottou; Genevieve B. Orr; Klaus-Robert Muller (1998). Efficient BackProp . http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf .
^ a b Xavier Glorot; Yoshua Bengio (2010). Understanding the difficulty of training deep feedforward neural networks . http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf .
^ Xavier Glorot; Antoine Bordes; Yoshua Bengio. “Deep Sparse Rectifier Neural Networks” . Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS-11) 15 : 315-323. http://jmlr.csail.mit.edu/proceedings/papers/v15/glorot11a/glorot11a.pdf .
^ Andrew L. Maas; Awni Y. Hannun; Andrew Y. Ng (2013). Rectifier Nonlinearities Improve Neural Network Acoustic Models . http://web.stanford.edu/~awni/papers/relu_hybrid_icml2013_final.pdf .
^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (2017-10-27). “Searching for Activation Functions” . arXiv:1710.05941 [cs] . https://arxiv.org/abs/1710.05941 .
^ Youngmin Cho; Lawrence K. Saul (2009). “Kernel Methods for Deep Learning” . Advances in Neural Information Processing Systems 22 : 342-350. http://papers.nips.cc/paper/3628-kernel-methods-for-deep-learning.pdf .
^ Ziyin, Liu; Hartwig, Tilman; Ueda, Masahito (2020-10-24). “Neural Networks Fail to Learn Periodic Functions and How to Fix It” . arXiv:2006.08195 [cs, stat] . https://arxiv.org/abs/2006.08195 .
^ Sitzmann, Vincent; Martel, Julien N. P.; Bergman, Alexander W.; Lindell, David B.; Wetzstein, Gordon (2020-06-17). “Implicit Neural Representations with Periodic Activation Functions” . arXiv:2006.09661 [cs, eess] . https://arxiv.org/abs/2006.09661 .
^ Broomhead, David S.; Lowe, David (1988). Radial basis functions, multi-variable functional interpolation and adaptive networks . http://www.dtic.mil/cgi-bin/GetTRDoc?AD=ADA196234 .
^ Qinghua Zhang; Albert Benveniste (1992). “Wavelet networks” . IEEE Trans. Neural Networks 3 : 889-898. http://people.rennes.inria.fr/Albert.Benveniste/pub/Wavenets.pdf .
^ Ian J. Goodfellow; David Warde-Farley; Mehdi Mirza; Aaron Courville; Yoshua Bengio (2013). “Maxout Networks” . 30th International Conference on Machine Learning . https://arxiv.org/abs/1302.4389 .