• Grid Class: long
Wir haben ein leichtgewichtiges Windows-Tool gebaut, das Audio- und Videodateien komplett offline transkribiert – ohne Installation, ohne Adminrechte, ohne Cloud. Ideal für sensible Inhalte und alle, die „mal eben“ ein Meeting, Interview oder einen Podcast in Text verwandeln möchten.

Ausgangslage

Viele Meeting-Transkriptionsdienste arbeiten in der Cloud und setzen Bots oder laufende Integrationen voraus. Für gelegentliche Nutzung ist das oft überdimensioniert – und datenschutzrechtlich heikel. Wir wollten eine vertrauenswürdige, lokale Alternative entwickeln, die einfach funktioniert.

Unsere Lösung

Ein kompaktes Windows-Programm mit GUI (Tkinter), das Audio/Video einliest, automatisch in das benötigte Format wandelt und mit Vosk lokal transkribiert. Eine Sprecher-Erkennung ist ebenfalls eingebaut.

  • 100 % lokal: Kein Server, kein Internet, keine Datenübertragung.
  • Zero-Install: Läuft ohne Installation und ohne Adminrechte (portabel).
  • Audio & Video: WAV, MP3, MP4, M4A, OGG, MOV, MKV u. v. m.
  • Mehrsprachig: Deutsch & Englisch integriert.
  • Sprecher-Erkennung: Weist Textabschnitte erkannten Sprecher:innen zu.
  • Abbrechen-Button: Sichere Kontrolle bei langen Dateien.
  • Token-Zählung: Praktisch für nachgelagerte LLM-Zusammenfassungen.

Unter der Haube: Vosk (Offline-ASR) mit Small-Modellen, portables FFmpeg für die Format-Konvertierung, Tkinter für die Desktop-UI, Python mit Threading für reaktionsfähige Oberfläche.

So funktioniert’s

  1. Datei auswählen (Audio oder Video).
  2. Automatische Konvertierung nach Mono/16 kHz WAV.
  3. Transkription startet und zeigt fortlaufende Ergebnisse an.
  4. Sprecher-Labeling bei Aufnahmen.
  5. Ergebnistext direkt weiterverwendbar oder für Zusammenfassungen nutzbar.

Wofür eignet sich das?

  • Meetings & Workshops (ohne Bot im Call)
  • Interviews & Podcasts
  • Recherchen & Diktate
  • Compliance-sensible Inhalte, die nicht in die Cloud dürfen

Grenzen & Transparenz

Um lokal und performant zu bleiben, nutzen wir kleinere Spracherkennungsmodelle. Das bedeutet:

  • Der Roh-Text kann stellenweise „komisch“ wirken.
  • Zusammenfassungen funktionieren dennoch erstaunlich gut, wenn man den Text im Anschluss an ein LLM übergibt.
  • Sprecher-Erkennung ist experimentell (Clustering auf Basis von Vektoren, Schwellenwert-Tuning).

Hinweis: Keine Gewähr. KI macht Fehler. Bitte Ergebnisse prüfen. Downloadlink auf Anfrage.

Technische Eckdaten

  • Modelle: vosk-model-small-de-0.15, vosk-model-small-en-us-0.15, optional vosk-model-spk-0.4
  • Samplerate: 16 kHz Mono
  • Konvertierung: FFmpeg (portabel)
  • UI: Tkinter