文字起こしとAI

autorecはwhisper.cppを使用してローカルで録画を文字起こしし、OpenAI互換API経由でオプションとしてAIサマリーを生成します。

文字起こしの仕組み

  1. 録画が終了すると、autorecは音声トラックを抽出します
  2. 音声は選択されたWhisperモデルによってお使いのマシン上で完全に処理されます
  3. 動画ファイルと一緒に2つの出力ファイルが作成されます:
    • .txt — プレーンテキストの文字起こし
    • .srt — タイムスタンプ付き字幕ファイル

文字起こし中に音声や動画データがコンピュータから外部に送信されることはありません。

Whisperモデル

モデルは初回使用時にダウンロードされ、~/.local/share/autorec/models/(Linux)または%LOCALAPPDATA%\autorec\models\(Windows)に保存されます。

モデルサイズ速度精度最適な用途
tiny~75 MB最速基本的クイックメモ、低スペックマシン
base~142 MB速い良好デフォルト — ほとんどのユーザーに推奨
small~466 MB中程度より良い速度より精度を重視する場合
medium~1.5 GB遅い高い英語以外の言語、難しい音声
large~3 GB最も遅い最高最大精度、高性能ハードウェア

モデルのダウンロード

  1. トレイメニューから設定を開きます
  2. 文字起こしセクションに移動します
  3. モデルサイズを選択します
  4. ダウンロードをクリック — モデルは一度ダウンロードされ、今後のすべての文字起こしで再利用されます

AIサマリー

AIサマリーはクラウドAPIを使用して、文字起こしテキストからタイトルとサマリーを生成されます。送信されるのはテキストのみで、音声や動画は送信されません。

セットアップ

  1. 設定 > AIサマリーを開きます
  2. APIエンドポイントを入力します(例:https://api.openai.com/v1
  3. APIキーを入力します
  4. モデルを選択します(例:gpt-4o-mini
  5. 自動サマリー生成を有効にします

互換性のあるサービス

OpenAI互換のchat completionsエンドポイントを持つあらゆるサービスが利用できます:

  • OpenAIhttps://api.openai.com/v1
  • OpenRouterhttps://openrouter.ai/api/v1
  • ローカルモデル(Ollama、LM Studioなど) — ローカルエンドポイントを使用

生成される内容

文字起こしされた各録画に対して、autorecは以下を生成します:

  • タイトル — 会議の短い説明的なタイトル
  • サマリー — 議論された要点の簡潔なサマリー

どちらも動画ライブラリと動画詳細ビューに表示され、録画を再生せずに必要な会議を簡単に見つけることができます。