用語集

Voice activity detection

音声活動検出(VAD)とは、音声ストリームのどの部分が話しているか、どの部分が無音または背景ノイズかを識別する技術です。

意味するところ

VADが答えるのは「今、誰かが話していますか?」という狭い問いです。音声を文字起こししたり、話者を特定したりはしません。ソフトウェアはこれを使って無音部分をスキップしたり、処理の開始・終了を判断したり、文字起こしにクリーンな音声を供給したりします。

文字起こしの処理パイプラインでは、VADが有用な前処理として機能します。認識モデルを実行する前に長い無音部分や非音声部分をカットすることで、処理時間を短縮し、背景ノイズによる誤った出力を減らせます。

Autorecとの関係

Autorecの文字起こし処理は、通話の録音音声を対象に行います。実際に話されている部分を検出することで、オンデバイスの文字起こしを効率的に保ち、部屋のノイズが文字起こしに不要なテキストとして現れるのを防ぎます。

Autorecを試す

LinuxおよびWindows向けのローカル優先会議録音ツール。通話を自動検出し、自分のディスクに録音。文字起こしも自分のマシン上で実行。一度20ユーロ。無料版から始められます。

Autorecをダウンロード