文字起こしとAI
autorecはwhisper.cppを使用してローカルで録画を文字起こしし、OpenAI互換API経由でオプションとしてAIサマリーを生成します。
文字起こしの仕組み
- 録画が終了すると、autorecは音声トラックを抽出します
- 音声は選択されたWhisperモデルによってお使いのマシン上で完全に処理されます
- 動画ファイルと一緒に2つの出力ファイルが作成されます:
.txt— プレーンテキストの文字起こし.srt— タイムスタンプ付き字幕ファイル
文字起こし中に音声や動画データがコンピュータから外部に送信されることはありません。
Whisperモデル
モデルは初回使用時にダウンロードされ、~/.local/share/autorec/models/(Linux)または%LOCALAPPDATA%\autorec\models\(Windows)に保存されます。
| モデル | サイズ | 速度 | 精度 | 最適な用途 |
|---|---|---|---|---|
| tiny | ~75 MB | 最速 | 基本的 | クイックメモ、低スペックマシン |
| base | ~142 MB | 速い | 良好 | デフォルト — ほとんどのユーザーに推奨 |
| small | ~466 MB | 中程度 | より良い | 速度より精度を重視する場合 |
| medium | ~1.5 GB | 遅い | 高い | 英語以外の言語、難しい音声 |
| large | ~3 GB | 最も遅い | 最高 | 最大精度、高性能ハードウェア |
モデルのダウンロード
- トレイメニューから設定を開きます
- 文字起こしセクションに移動します
- モデルサイズを選択します
- ダウンロードをクリック — モデルは一度ダウンロードされ、今後のすべての文字起こしで再利用されます
AIサマリー
AIサマリーはクラウドAPIを使用して、文字起こしテキストからタイトルとサマリーを生成されます。送信されるのはテキストのみで、音声や動画は送信されません。
セットアップ
- 設定 > AIサマリーを開きます
- APIエンドポイントを入力します(例:
https://api.openai.com/v1) - APIキーを入力します
- モデルを選択します(例:
gpt-4o-mini) - 自動サマリー生成を有効にします
互換性のあるサービス
OpenAI互換のchat completionsエンドポイントを持つあらゆるサービスが利用できます:
- OpenAI —
https://api.openai.com/v1 - OpenRouter —
https://openrouter.ai/api/v1 - ローカルモデル(Ollama、LM Studioなど) — ローカルエンドポイントを使用
生成される内容
文字起こしされた各録画に対して、autorecは以下を生成します:
- タイトル — 会議の短い説明的なタイトル
- サマリー — 議論された要点の簡潔なサマリー
どちらも動画ライブラリと動画詳細ビューに表示され、録画を再生せずに必要な会議を簡単に見つけることができます。