Ausgangslage
Viele Meeting-Transkriptionsdienste arbeiten in der Cloud und setzen Bots oder laufende Integrationen voraus. Für gelegentliche Nutzung ist das oft überdimensioniert – und datenschutzrechtlich heikel. Wir wollten eine vertrauenswürdige, lokale Alternative entwickeln, die einfach funktioniert.
Unsere Lösung
Ein kompaktes Windows-Programm mit GUI (Tkinter), das Audio/Video einliest, automatisch in das benötigte Format wandelt und mit Vosk lokal transkribiert. Eine Sprecher-Erkennung ist ebenfalls eingebaut.
- 100 % lokal: Kein Server, kein Internet, keine Datenübertragung.
- Zero-Install: Läuft ohne Installation und ohne Adminrechte (portabel).
- Audio & Video: WAV, MP3, MP4, M4A, OGG, MOV, MKV u. v. m.
- Mehrsprachig: Deutsch & Englisch integriert.
- Sprecher-Erkennung: Weist Textabschnitte erkannten Sprecher:innen zu.
- Abbrechen-Button: Sichere Kontrolle bei langen Dateien.
- Token-Zählung: Praktisch für nachgelagerte LLM-Zusammenfassungen.
Unter der Haube: Vosk (Offline-ASR) mit Small-Modellen, portables FFmpeg für die Format-Konvertierung, Tkinter für die Desktop-UI, Python mit Threading für reaktionsfähige Oberfläche.
So funktioniert’s
- Datei auswählen (Audio oder Video).
- Automatische Konvertierung nach Mono/16 kHz WAV.
- Transkription startet und zeigt fortlaufende Ergebnisse an.
- Sprecher-Labeling bei Aufnahmen.
- Ergebnistext direkt weiterverwendbar oder für Zusammenfassungen nutzbar.
Wofür eignet sich das?
- Meetings & Workshops (ohne Bot im Call)
- Interviews & Podcasts
- Recherchen & Diktate
- Compliance-sensible Inhalte, die nicht in die Cloud dürfen
Grenzen & Transparenz
Um lokal und performant zu bleiben, nutzen wir kleinere Spracherkennungsmodelle. Das bedeutet:
- Der Roh-Text kann stellenweise „komisch“ wirken.
- Zusammenfassungen funktionieren dennoch erstaunlich gut, wenn man den Text im Anschluss an ein LLM übergibt.
- Sprecher-Erkennung ist experimentell (Clustering auf Basis von Vektoren, Schwellenwert-Tuning).
Hinweis: Keine Gewähr. KI macht Fehler. Bitte Ergebnisse prüfen. Downloadlink auf Anfrage.
Technische Eckdaten
- Modelle:
vosk-model-small-de-0.15,vosk-model-small-en-us-0.15, optionalvosk-model-spk-0.4 - Samplerate: 16 kHz Mono
- Konvertierung: FFmpeg (portabel)
- UI: Tkinter