音声分析

音声分析（おんせいぶんせき、（英: speech analysis）は音声を特徴量へ変換・表現することである^[1]。

概要

音声とはヒトの喉から発せられた振動である。最も単純な表現として音声は波、すなわち振幅の時間変動で表される。一方で波には様々な表現が存在する。例えばフーリエ変換を介して周波数表現でも等価に表現できるし、STFTによりスペクトログラムとしても表現できる。このように波である音声を分析し異なる表現へ変換することを音声分析という。

音声分析により得られる音響特徴量にはスペクトログラム、基本周波数などが挙げられる。これらの音響特徴量は音声認識や音声合成の入力として利用される。

音響特徴量

音響特徴量（おんきょうとくちょうりょう、（英: acoustic feature, speech representation）は音声分析で得られる特徴量である。

音響特徴量は専門家の手による特徴量エンジニアリングで考案されたり、機械学習を利用した表現学習によって得られる。特徴量の良さはその用途により異なる。以下は音響特徴量の例である。

非周期性指標

非周期性指標（ひしゅうきせいしひょう、（英: aperiodicity）は音響信号の各周波数における非調波成分の割合である^[2]。

有声音であれば声のかすれ具合に相当し^[3]、声区の1つである息もれ声と関連が深い^[4]。有声音の非周期性指標が正しく分析できなかった場合、再合成された音は buzzy になりやすい^[5]。

実用上は信号を粗めのフィルタバンクに掛け、周波数帯ごとの非周期性指標（英: band aperiodicity, BAP）として表現することが多い。

長時間平均スペクトル

長時間平均スペクトル（ちょうじかんへいきんスペクトル、（英: long-term average spectrum, LTAS）は朗読や歌唱のスペクトログラムを時間方向に平均して算出される周波数スペクトルである^[6]^[7]^[8]。

LTAS は対象の音声信号が通時的に持っている周波数関連の特性を抽出するのに向いた音響特徴量である。これにより話者性や発声スタイルなどの解析がおこなえる^[9]。一方でシマーやジッターといった短時間の変動や音素遷移などの過渡応答は平均化によって潰れる傾向がある。LTASにはフォルマントを見いだせるケースが多く^[10]、典型的には様々な母音が平均化された結果として 500 Hz 周辺に F1 が観察できる^[11]。

分類

音声分析はアプローチによって様々に分類できる。

短時間分析

短時間分析（たんじかんぶんせき、（英: short-term analysis）は音声を短い音声断片へ区分けして扱う分析の総称である^[12]。フレーム分析（フレームぶんせき、（英: frame analysis）とも。

音声とくに言語音はしばしば準定常性をもつ、すなわち短時間では定常で長時間では変動する^[12]。短時間と長時間の特性を同時に分析するには、長い音声を短時間に区分けして各区画の特性を調べかつその変遷に着目すればよい^[12]。これが短時間分析である。音声の言語音的側面を調べる際は短時間分析が多様される。一例として、短時間フーリエ変換等の時間周波数解析、PSOLAの分析段階が挙げられる。

分析窓

分析窓（ぶんせきまど、（英: analysis window）は音声から短時間区間を切り出す窓関数である^[13]。 $w_{a}(t)$ や $h(t)$ で表記される。

音声分析では（多くの場合） $t=0$ を分析窓中心として静的な分析窓を記述し、これを分析したい区間の中心 $t$ までシフトし原音声 $x(\tau )$ に掛けることで信号 ${\tilde {x}}(\tau )$ を取り出す。これは次の式で表される：

{\tilde {x}}(\tau )=x(\tau )w_{a}(\tau -t)

窓を掛けることにより、窓の台以外の区間では信号 ${\tilde {x}}(\tau )$ は $0$ になる。直感的には音声をフェードイン/フェードアウトさせて一部区間のみ音がなるようにしているといえる。

短時間分析では分析区間を動かして変遷を分析するため、区間中心（=分析窓のシフト量）である $t$ を変数と見なす。これにより信号 ${\tilde {x}}(\tau ,t)$ は次の式で表される^[14]：

{\tilde {x}}(\tau ,t)=x(\tau )w_{a}(\tau -t)

なお、分析窓をパラメトリックにする音声分析も様々存在する（例: PSOLA - ウインドウ長が原音声のピッチに依存^[15]）。

手法

フーリエ変換に基づく周波数解析がしばしば利用される。これによりスペクトルやスペクトログラムが得られ、また更なる分析によってf_oやフォルマントの経時変化が得られる。

また、音声波形について、DCT変換を用いて直接数値化する事も行われている。これを更にパターンに当てはめる事で伝送用に特化させたものが音声圧縮アルゴリズムのCELPであり、この数値の相関性を基にして、特定の人物の音声を合成することも可能である。

以下は特定の特徴量を得るために用いられる分析手法の一例である：

スペクトル包絡
- 線形予測符号化（LPC）
- ケプストラム法
非周期性指標
- D4C

Acoustic Unit Discovery

機械学習によりAcoustic Unit (AU) を得ることをAcoustic Unit Discovery; AUD という。典型的なAUDでは教師なし学習を用い、音声信号に繰り返し現れる単位（= AU）を抽出できるようモデルを学習する。学習方法やモデルによりAUがもつ特性は異なる（例: 音素に似た話者独立な特徴量、話者性を持つフォルマント的な特徴量）。AUは音声合成（unit-to-speech, speech resynthesis）や言語モデル（例: GSLM）に利用される。用途によりAUに求められる特性は異なる。

以下は具体的な手法の一例である。

教師なし学習^[16]
- 再構成ベース: VQ-VAE-WaveNet
- 自己教師あり学習ベース: CPC, wav2vec 2.0, HuBERT
ASRモデル

脚注

[脚注の使い方]

出典

^ 音声分析合成システム ... 音声の特徴を活用し、音声をパラメータとして表現する分析法(森勢 2018, p. 53)
^ aperiodicity is defined as the power ratio between the speech signal and the aperiodic component of the signal以下より引用。Morise (2016). “D4C, a band-aperiodicity estimator for high-quality speech synthesis”. Speech Communication. 84: 57–65.
^ 有声音のかすれの程度に相当する非周期性指標（Aperiodicity）(森勢 2018b, p. 608)
^ The breathy voice quality ... The breathiness is closely related to aperiodicity of the speech signal.p.2 より引用。Ohtsuka, Takahiro (2001). “Aperiodicity Control in ARX-Based Speech Analysis-Synthesis Method”. Eurospeech: 1–4. doi:10.21437/Eurospeech.2001-540.
^ 有声音中に含まれる雑音を表現することができず，これが Vocoder 特有の Buzzy な音色として問題視されてきた ... 柔軟に非周期性成分の量を制御できる音声パラメータが必要となる。非周期性指標(森勢 2019, p. 390)
^ LTAS （Long Term Average Spectrum，長時間平均スペクトル）p.190 より引用。羽石, 英里 (2013). “音楽療法士を対象とした発声訓練プログラム”. 音声言語医学. 54 (3): 186–196.
^ 長時間平均スペクトル（Long-term average spectrum, LTAS）（ $X_{L}(f)$ ）を，次式に従って算出した． $X_{L}(f)={\frac {1}{N}}\sum _{i=1}^{N}X_{i}(f)$ p.51 より引用。鳥谷, 輝樹 (2021). “聴覚フィードバックにおける骨導音声の伝達過程に関する研究”. JAIST Repository. http://hdl.handle.net/10119/17479.
^ the mean overall spectrum characteristics during ongoing speech and the singing of a song through the utilization of long-term-average spectrum (LTAS). an LTAS typically stabilizes after some 30-40 seconds of running speech or singing(Cleveland 2001, p. 54)
^ it reveals the sound level, averaged over time along the frequency axis and provides a reproducible representation of overall voice spectral characteristics.(Cleveland 2001, p. 54)
^ The LTAS contour reflects contributions from both the voice source and the resonance or formant characteristics of the voice.(Cleveland 2001, p. 55)
^ peak typically occurs near 500 Hz, presumably because F1 is often located in this frequency range in speech and singing.(Cleveland 2001, p. 55)
^ ^a ^b ^c 音声は時間とともに特徴が変わるため、短時間分析により短時間ごとの性質と時間的な特性の変化を観測することが望ましい。(森勢 2018, p. 19)
^ 短時間の波形を窓関数により切り出(森勢 2018, p. 19)
^ 波形を切り出す演算は以下のようになる。... $y(\tau ,t)=x(\tau )w(\tau -t)$ "(森勢 2018, p. 19)
^ pitch-synchronous analysis windows $h_{m}(n)$ ... Their lengths are ... proportional to the local pitch period,(Moulines 1990, pp. 454–455)
^ Studies on unsupervised speech representation learning can roughly be divided into reconstruction and self-supervised learning methods.以下より引用。Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.