전사 및 AI
Autorec은 whisper.cpp을 사용하여 녹화 자료를 로컬에서 전사하며, 선택적으로 OpenAI-호환 API를 통해 AI 요약을 생성할 수 있습니다.
전사 작동 방식
- 녹화가 완료되면 autorec이 오디오 트랙을 추출합니다.
- 선택된 Whisper 모델이 오디오를 사용자의 기기에서 전부 처리합니다.
- 영상과 함께 두 개의 출력 파일이 생성됩니다:
.txt— 일반 텍스트 전사본.srt— 타임스탬프가 포함된 자막 파일
전사 과정에서 오디오나 영상 데이터가 사용자의 컴퓨터 밖으로 전송되지 않습니다.
Whisper 모델
모델은 처음 사용 시 다운로드되며 ~/.local/share/autorec/models/ (Linux) 또는 %LOCALAPPDATA%\autorec\models\ (Windows)에 저장됩니다.
| 모델 | 크기 | 속도 | 정확도 | 용도 |
|---|---|---|---|---|
| tiny | ~75 MB | 가장 빠름 | 기본 | 빠른 메모, 저사양 기기 |
| base | ~142 MB | 빠름 | 양호 | 기본값 — 대부분의 사용자에게 권장 |
| small | ~466 MB | 보통 | 더 나은 정확도 | 속도보다 정확도가 중요할 때 |
| medium | ~1.5 GB | 느림 | 높음 | 비영어 언어, 난이도가 높은 오디오 |
| large | ~3 GB | 가장 느림 | 최고 정확도 | 최대 정확도, 고성능 하드웨어 |
모델 다운로드
- 트레이 메뉴에서 설정 열기
- 전사 섹션으로 이동
- 모델 크기 선택
- 다운로드 클릭 — 모델이 한 번 다운로드되면 이후 모든 전사에 재사용됩니다.
AI 요약
AI 요약은 클라우드 API를 사용하여 전사 텍스트에서 제목과 요약을 생성합니다. 텍스트만 전송되며, 오디오나 영상은 전송되지 않습니다.
설정
- 설정 > AI 요약 열기
- API 엔드포인트 입력 (예:
https://api.openai.com/v1) - API 키 입력
- 모델 선택 (예:
gpt-4o-mini) - 자동 요약 활성화
호환 서비스
OpenAI-호환 채팅 완성 엔드포인트를 제공하는 모든 서비스가 작동합니다:
- OpenAI —
https://api.openai.com/v1 - OpenRouter —
https://openrouter.ai/api/v1 - 로컬 모델 (Ollama, LM Studio 등) — 로컬 엔드포인트 사용
생성되는 내용
전사된 각 녹화 자료에 대해 autorec은 다음을 생성합니다:
- 제목 — 회의에 대한 짧은 설명 제목
- 요약 — 논의된 주요 사항에 대한 간결한 요약
둘 다 영상 라이브러리와 영상 상세 보기에 표시되어, 다시 시청하지 않고도 필요한 회의를 쉽게 찾을 수 있습니다.