半教師あり学習

半教師あり学習（semi-supervised learning）は、機械学習における学習手法の一つであり、少量の人手によるラベル付きデータ（通常は教師あり学習でのみ使用され、高コストかつ時間がかかる）と、大量のラベルなしデータ（通常は教師なし学習で使用）を組み合わせて使用する手法である。すなわち、学習データの一部にのみ出力ラベルが与えられ、それ以外はラベルなし、もしくは曖昧なラベルである。特に大規模言語モデル（LLM）の登場により、大量の学習データが必要となったことで、その重要性と注目度が高まっている。

直感的には、試験を受ける前に教師がいくつかのサンプル問題を解いて見せるようなものである。帰納的学習ではそれらは練習問題に、推論的学習ではそれらが実際の試験問題に対応する。

動機

教師あり学習と教師なし学習の傾向を示す図。円の境界にまたがるタスク名は意図的なものであり、現代の学習手法では境界が曖昧になっていることを示す。

ラベル付きデータの取得には、熟練した人間の介入（例：音声データの文字起こし）や物理的な実験（例：タンパク質の立体構造の決定、油田の存在確認など）が必要であり、コストがかかるため、大規模なラベル付きデータセットを作成することは困難である。一方、ラベルなしデータの取得は比較的安価であるため、半教師あり学習は現実的に非常に有用である。また、理論的にも人間の学習のモデルとして機械学習分野で関心を集めている。

技術

形式的には、 $x_{1},\dots ,x_{l}\in X$ という $l$ 個の独立同分布な例と、対応するラベル $y_{1},\dots ,y_{l}\in Y$ 、さらに $u$ 個のラベルなしデータ $x_{l+1},\dots ,x_{l+u}$ を持つとする。半教師あり学習では、これらを統合して、教師あり学習（ラベル付きのみ）または教師なし学習（ラベルなしのみ）よりも高い分類精度を達成することを目指す。

この手法は、帰納学習または推論的学習のいずれにも用いられる。帰納学習は $X\to Y$ の写像全体を学習することを目標とし、推論的学習は与えられたラベルなしデータ $x_{l+1},\dots ,x_{l+u}$ のラベルを推定することを目的とする。

仮定

ラベルなしデータを有効に活用するには、そのデータが何らかの分布構造を持つ必要がある。主に以下のような仮定がなされる^[1]。

連続性仮定

「近い点は同じラベルである可能性が高い」

これは教師あり学習でも通常仮定されるが、半教師あり学習では、さらに「密度の低い領域に分類境界を置く」傾向が強調される^[2]。

クラスタ仮定

「データはクラスターを形成し、同じクラスター内の点は同じラベルである可能性が高い」

連続性仮定の特殊なケースであり、クラスタリングアルゴリズムによる表現学習（英語版）につながる。

多様体仮定

「データは、入力空間よりも低次元の多様体上に分布している」

この場合、次元の呪いを回避しつつ、ラベル付き・ラベルなしの両方のデータで多様体を学習できる。

歴史

「自己学習（self-training）」は、最も古い半教師あり学習手法の一つであり、1960年代にはすでに事例があった^[3]。ウラジミール・ヴァプニクは、1970年代に推論的学習の枠組みを提唱した。1995年には、ガウス混合モデルによる半教師あり学習にPAC理論が適用された。

手法

生成モデル

$p(x|y)$ を推定し、ベイズの定理により $p(y|x)$ を求める。モデルの仮定が正しければ、ラベルなしデータが性能向上に寄与するが、誤っていれば精度を低下させる可能性もある^[4]。

低密度分離

TSVM（推論的サポートベクターマシン）は、低密度領域に境界を置くことで、ラベルなしデータを活用する手法である。最適化は非凸問題であり、近似的な手法が研究されている。

ラプラシアン正則化

ラプラシアン行列を用いた多様体正則化では、データをノードとするグラフを構築し、滑らかさを強制する正則化項を追加することで、ティホノフ正則化を拡張する。ヒルベルト空間や多様体の構造を活用することで、より現実的なモデリングが可能となる。

ヒューリスティック手法

ラベル付き・ラベルなしデータを順に使う「自己学習」、特徴空間を分割して別々に学習させる「共学習（co-training）」などがある。Yarowskyアルゴリズムなどは自然言語処理でよく用いられる。

人間の認知との関係

人間の学習も、少量の教師付きデータ（親による単語ラベルなど）と大量の教師なし経験（観察など）の組み合わせで行われる。乳児は構造的カテゴリ（例：犬・猫の画像）に対する感度を持っており、ラベル付きデータのサンプリング過程も考慮に入れて学習しているとされる^[5]。

参考文献

^ Chapelle, Schölkopf & Zien 2006.
^ Chawla, N., Bowyer, K., Hall, L.O., & Kegelmeyer, W.P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. ArXiv, abs/1106.1813.
^ Scudder, H. (July 1965). “Probability of error of some adaptive pattern-recognition machines”. IEEE Transactions on Information Theory 11 (3): 363–371. doi:10.1109/TIT.1965.1053799. ISSN 1557-9654.
^ Risks of Semi-Supervised Learning
^ Sensitivity to sampling in Bayesian word learning.