文字起こしとAI

autorecはwhisper.cppを使用してローカルで録画を文字起こしし、OpenAI互換API経由でオプションとしてAIサマリーを生成します。

文字起こしの仕組み

録画が終了すると、autorecは音声トラックを抽出します
音声は選択されたWhisperモデルによってお使いのマシン上で完全に処理されます
動画ファイルと一緒に2つの出力ファイルが作成されます：
- .txt — プレーンテキストの文字起こし
- .srt — タイムスタンプ付き字幕ファイル

文字起こし中に音声や動画データがコンピュータから外部に送信されることはありません。

モデルは初回使用時にダウンロードされ、~/.local/share/autorec/models/（Linux）または%LOCALAPPDATA%\autorec\models\（Windows）に保存されます。

モデル	サイズ	速度	精度	最適な用途
tiny	~75 MB	最速	基本的	クイックメモ、低スペックマシン
base	~142 MB	速い	良好	デフォルト — ほとんどのユーザーに推奨
small	~466 MB	中程度	より良い	速度より精度を重視する場合
medium	~1.5 GB	遅い	高い	英語以外の言語、難しい音声
large	~3 GB	最も遅い	最高	最大精度、高性能ハードウェア

AIサマリーはクラウドAPIを使用して、文字起こしテキストからタイトルとサマリーを生成されます。送信されるのはテキストのみで、音声や動画は送信されません。

OpenAI互換のchat completionsエンドポイントを持つあらゆるサービスが利用できます：

文字起こしされた各録画に対して、autorecは以下を生成します：

どちらも動画ライブラリと動画詳細ビューに表示され、録画を再生せずに必要な会議を簡単に見つけることができます。