전사 및 AI

Autorec은 whisper.cpp을 사용하여 녹화 자료를 로컬에서 전사하며, 선택적으로 OpenAI-호환 API를 통해 AI 요약을 생성할 수 있습니다.

전사 작동 방식

녹화가 완료되면 autorec이 오디오 트랙을 추출합니다.
선택된 Whisper 모델이 오디오를 사용자의 기기에서 전부 처리합니다.
영상과 함께 두 개의 출력 파일이 생성됩니다:
- .txt — 일반 텍스트 전사본
- .srt — 타임스탬프가 포함된 자막 파일

전사 과정에서 오디오나 영상 데이터가 사용자의 컴퓨터 밖으로 전송되지 않습니다.

Whisper 모델

모델은 처음 사용 시 다운로드되며 ~/.local/share/autorec/models/ (Linux) 또는 %LOCALAPPDATA%\autorec\models\ (Windows)에 저장됩니다.

모델	크기	속도	정확도	용도
tiny	~75 MB	가장 빠름	기본	빠른 메모, 저사양 기기
base	~142 MB	빠름	양호	기본값 — 대부분의 사용자에게 권장
small	~466 MB	보통	더 나은 정확도	속도보다 정확도가 중요할 때
medium	~1.5 GB	느림	높음	비영어 언어, 난이도가 높은 오디오
large	~3 GB	가장 느림	최고 정확도	최대 정확도, 고성능 하드웨어

모델 다운로드

트레이 메뉴에서 설정 열기
전사 섹션으로 이동
모델 크기 선택
다운로드 클릭 — 모델이 한 번 다운로드되면 이후 모든 전사에 재사용됩니다.

AI 요약

AI 요약은 클라우드 API를 사용하여 전사 텍스트에서 제목과 요약을 생성합니다. 텍스트만 전송되며, 오디오나 영상은 전송되지 않습니다.

설정

설정 > AI 요약 열기
API 엔드포인트 입력 (예: https://api.openai.com/v1)
API 키 입력
모델 선택 (예: gpt-4o-mini)
자동 요약 활성화

호환 서비스

OpenAI-호환 채팅 완성 엔드포인트를 제공하는 모든 서비스가 작동합니다:

OpenAI — https://api.openai.com/v1
OpenRouter — https://openrouter.ai/api/v1
로컬 모델 (Ollama, LM Studio 등) — 로컬 엔드포인트 사용

생성되는 내용

전사된 각 녹화 자료에 대해 autorec은 다음을 생성합니다:

제목 — 회의에 대한 짧은 설명 제목
요약 — 논의된 주요 사항에 대한 간결한 요약

둘 다 영상 라이브러리와 영상 상세 보기에 표시되어, 다시 시청하지 않고도 필요한 회의를 쉽게 찾을 수 있습니다.