용어집
Voice activity detection
음성 활동 감지(VAD)는 오디오 스트림에서 음성이 포함된 부분과 침묵 또는 배경 소음인 부분을 식별하는 기술입니다.
의미
VAD는 '지금 누군가 말하고 있나요?'라는 좁은 질문에 답합니다. 오디오를 녹취하거나 화자 식별을 하지는 않습니다. 소프트웨어는 이를 통해 침묵 구간을 건너뛰거나, 처리 시작/종료 시점을 판단하고, 더 깨끗한 오디오를 녹취 모델에 제공하는 데 사용합니다.
녹취 파이프라인에서 VAD는 유용한 첫 단계입니다. 인식 모델 실행 전에 긴 침묵과 비음성 오디오를 제거함으로써 처리 시간을 줄이고, 배경 소음으로 인한 오류 출력을 줄일 수 있습니다.
Autorec과의 관련성
Autorec의 녹취 단계는 통화 오디오를 기반으로 작동합니다. 음성이 실제로 발생하는 지점을 감지하면 디바이스 내 녹취가 효율적으로 유지되며, 주변 소음이 녹취본의 임의 텍스트로 변환되는 것을 방지할 수 있습니다.
Autorec 사용해 보기
Linux 및 Windows용 로컬 중심 미팅 녹음기. 통화를 자동 감지하고, 사용자의 디스크에 녹음하며, 기기 내에서 전사합니다. 일회성 20유로, 무료 티어로 시작 가능.
Autorec 다운로드