• Grid Class: long
Wir haben ein leichtgewichtiges Windows-Tool gebaut, das Audio- und Videodateien komplett offline transkribiert – ohne Installation, ohne Adminrechte, ohne Cloud. Ideal für sensible Inhalte und alle, die „mal eben“ ein Meeting, Interview oder einen Podcast in Text verwandeln möchten.

Ausgangslage

Viele Meeting-Transkriptionsdienste arbeiten in der Cloud und setzen Bots oder laufende Integrationen voraus. Für gelegentliche Nutzung ist das oft überdimensioniert – und datenschutzrechtlich heikel. Wir wollten eine vertrauenswürdige, lokale Alternative entwickeln, die einfach funktioniert.

Unsere Lösung

Ein kompaktes Windows-Programm mit GUI (Tkinter), das Audio/Video einliest, automatisch in das benötigte Format wandelt und mit Vosk lokal transkribiert. Eine Sprecher-Erkennung ist ebenfalls eingebaut.

  • 100 % lokal: Kein Server, kein Internet, keine Datenübertragung.
  • Zero-Install: Läuft ohne Installation und ohne Adminrechte (portabel).
  • Audio & Video: WAV, MP3, MP4, M4A, OGG, MOV, MKV u. v. m.
  • Mehrsprachig: Deutsch & Englisch integriert.
  • Sprecher-Erkennung: Weist Textabschnitte erkannten Sprecher:innen zu.
  • Abbrechen-Button: Sichere Kontrolle bei langen Dateien.
  • Token-Zählung: Praktisch für nachgelagerte LLM-Zusammenfassungen.

Unter der Haube: Vosk (Offline-ASR) mit Small-Modellen, portables FFmpeg für die Format-Konvertierung, Tkinter für die Desktop-UI, Python mit Threading für reaktionsfähige Oberfläche.

So funktioniert’s

  1. Datei auswählen (Audio oder Video).
  2. Automatische Konvertierung nach Mono/16 kHz WAV.
  3. Transkription startet und zeigt fortlaufende Ergebnisse an.
  4. Sprecher-Labeling bei Aufnahmen.
  5. Ergebnistext direkt weiterverwendbar oder für Zusammenfassungen nutzbar.

Wofür eignet sich das?

  • Meetings & Workshops (ohne Bot im Call)
  • Interviews & Podcasts
  • Recherchen & Diktate
  • Compliance-sensible Inhalte, die nicht in die Cloud dürfen

Grenzen & Transparenz

Um lokal und performant zu bleiben, nutzen wir kleinere Spracherkennungsmodelle. Das bedeutet:

  • Der Roh-Text kann stellenweise „komisch“ wirken.
  • Zusammenfassungen funktionieren dennoch erstaunlich gut, wenn man den Text im Anschluss an ein LLM übergibt.
  • Sprecher-Erkennung ist experimentell (Clustering auf Basis von Vektoren, Schwellenwert-Tuning).

Hinweis: Keine Gewähr. KI macht Fehler. Bitte Ergebnisse prüfen. Downloadlink auf Anfrage.

Technische Eckdaten

  • Modelle: vosk-model-small-de-0.15, vosk-model-small-en-us-0.15, optional vosk-model-spk-0.4
  • Samplerate: 16 kHz Mono
  • Konvertierung: FFmpeg (portabel)
  • UI: Tkinter

Wir nutzen Cookies auf unserer Website. Einige von ihnen sind essenziell für den Betrieb der Seite, während andere uns helfen, diese Website und die Nutzererfahrung zu verbessern (Tracking Cookies). Sie können selbst entscheiden, ob Sie die Cookies zulassen möchten. Bitte beachten Sie, dass bei einer Ablehnung womöglich nicht mehr alle Funktionalitäten der Seite zur Verfügung stehen.