Lokale Transcription für Audio und Video

: Veröffentlicht: 12. August 2025

Grid Class: long

Wir haben ein leichtgewichtiges Windows-Tool gebaut, das Audio- und Videodateien komplett offline transkribiert – ohne Installation, ohne Adminrechte, ohne Cloud. Ideal für sensible Inhalte und alle, die „mal eben“ ein Meeting, Interview oder einen Podcast in Text verwandeln möchten.

Ausgangslage

Viele Meeting-Transkriptionsdienste arbeiten in der Cloud und setzen Bots oder laufende Integrationen voraus. Für gelegentliche Nutzung ist das oft überdimensioniert – und datenschutzrechtlich heikel. Wir wollten eine vertrauenswürdige, lokale Alternative entwickeln, die einfach funktioniert.

Unsere Lösung

Ein kompaktes Windows-Programm mit GUI (Tkinter), das Audio/Video einliest, automatisch in das benötigte Format wandelt und mit Vosk lokal transkribiert. Eine Sprecher-Erkennung ist ebenfalls eingebaut.

100 % lokal: Kein Server, kein Internet, keine Datenübertragung.
Zero-Install: Läuft ohne Installation und ohne Adminrechte (portabel).
Audio & Video: WAV, MP3, MP4, M4A, OGG, MOV, MKV u. v. m.
Mehrsprachig: Deutsch & Englisch integriert.
Sprecher-Erkennung: Weist Textabschnitte erkannten Sprecher:innen zu.
Abbrechen-Button: Sichere Kontrolle bei langen Dateien.
Token-Zählung: Praktisch für nachgelagerte LLM-Zusammenfassungen.

Unter der Haube: Vosk (Offline-ASR) mit Small-Modellen, portables FFmpeg für die Format-Konvertierung, Tkinter für die Desktop-UI, Python mit Threading für reaktionsfähige Oberfläche.

So funktioniert’s

Datei auswählen (Audio oder Video).
Automatische Konvertierung nach Mono/16 kHz WAV.
Transkription startet und zeigt fortlaufende Ergebnisse an.
Sprecher-Labeling bei Aufnahmen.
Ergebnistext direkt weiterverwendbar oder für Zusammenfassungen nutzbar.

Wofür eignet sich das?

Meetings & Workshops (ohne Bot im Call)
Interviews & Podcasts
Recherchen & Diktate
Compliance-sensible Inhalte, die nicht in die Cloud dürfen

Grenzen & Transparenz

Um lokal und performant zu bleiben, nutzen wir kleinere Spracherkennungsmodelle. Das bedeutet:

Der Roh-Text kann stellenweise „komisch“ wirken.
Zusammenfassungen funktionieren dennoch erstaunlich gut, wenn man den Text im Anschluss an ein LLM übergibt.
Sprecher-Erkennung ist experimentell (Clustering auf Basis von Vektoren, Schwellenwert-Tuning).

Hinweis: Keine Gewähr. KI macht Fehler. Bitte Ergebnisse prüfen. Downloadlink auf Anfrage.

Technische Eckdaten

Modelle: vosk-model-small-de-0.15, vosk-model-small-en-us-0.15, optional vosk-model-spk-0.4
Samplerate: 16 kHz Mono
Konvertierung: FFmpeg (portabel)
UI: Tkinter