转录与AI
Autorec 使用 whisper.cpp 在本地转录录音,并可选择通过任何 OpenAI 兼容的 API 生成 AI 摘要。
转录工作原理
- 录音结束后,autorec 提取音频轨道
- 音频由选定的 Whisper 模型完全在您的机器上处理
- 在视频旁边生成两个输出文件:
.txt— 纯文本转录稿.srt— 带时间戳的字幕文件
转录过程中,音频或视频数据不会离开您的计算机。
Whisper 模型
模型在首次使用时下载并存储在 ~/.local/share/autorec/models/(Linux)或 %LOCALAPPDATA%\autorec\models\(Windows)中。
| 模型 | 大小 | 速度 | 准确度 | 最适合 |
|---|---|---|---|---|
| tiny | ~75 MB | 最快 | 基础 | 快速笔记、低功耗设备 |
| base | ~142 MB | 快 | 良好 | 默认 — 推荐大多数用户使用 |
| small | ~466 MB | 中等 | 更好 | 准确度比速度更重要时 |
| medium | ~1.5 GB | 慢 | 高 | 非英语语言、困难音频 |
| large | ~3 GB | 最慢 | 最佳 | 最高准确度、高性能硬件 |
下载模型
- 从托盘菜单打开设置
- 进入转录部分
- 选择模型大小
- 点击下载 — 模型下载一次后,所有后续转录都会重复使用
AI 摘要
AI 摘要使用云端 API 从转录文本生成标题和摘要。仅发送文本 — 不发送音频或视频。
设置
- 打开设置 > AI 摘要
- 输入您的 API 端点(例如
https://api.openai.com/v1) - 输入您的 API 密钥
- 选择一个模型(例如
gpt-4o-mini) - 启用自动摘要
兼容服务
任何具有 OpenAI 兼容聊天补全端点的服务均可使用:
- OpenAI —
https://api.openai.com/v1 - OpenRouter —
https://openrouter.ai/api/v1 - 本地模型(Ollama、LM Studio 等)— 使用您的本地端点
生成内容
对于每个转录的录音,autorec 会生成:
- 标题 — 会议的简短描述性标题
- 摘要 — 讨论要点的简洁摘要
两者都会出现在视频库和视频详情视图中,方便您轻松找到需要的会议,无需重新观看。