Glossar

Voice activity detection

Spracherkennung (Voice Activity Detection, VAD) ist eine Technik, die erkennt, welche Teile eines Audiostreams Sprache enthalten und welche Stille oder Hintergrundgeräusche sind.

Was das bedeutet

VAD beantwortet eine enge Frage: Spricht gerade jemand? Es transkribiert das Audio nicht und identifiziert auch nicht den Sprecher. Software nutzt es, um stille Phasen zu überspringen, um zu wissen, wann die Verarbeitung beginnen und enden soll, und um saubereres Audio in die Transkription einzuspeisen.

In einer Transkriptions-Pipeline ist VAD ein nützlicher erster Schritt. Indem lange Pausen und nicht-sprachliche Audioanteile vor der Spracherkennung entfernt werden, verkürzt es die Verarbeitungszeit und reduziert falsche Texte durch Hintergrundgeräusche.

Wie das sich auf Autorec bezieht

Der Transkriptionsschritt von Autorec arbeitet mit dem aufgezeichneten Audio Ihres Anrufs. Die Erkennung, wo tatsächlich Sprache vorkommt, hilft dabei, die lokale Transkription effizient zu halten und verhindert, dass Hintergrundgeräusche zu zufälligem Text im Transkript werden.

Autorec ausprobieren

Ein lokal ausgerichteter Meeting-Rekorder für Linux und Windows. Er erkennt Ihre Anrufe automatisch, speichert auf Ihrer Festplatte und transkribiert lokal. Einmalig 20 €, mit kostenloser Stufe zum Start.

Autorec herunterladen