Zurück zum Blog

Voicr Team · 13. Mai 2026

Voicr vs SuperWhisper: Ein direkter Vergleich

Zwei KI-Diktier-Apps, zwei gegensätzliche Philosophien. Die eine liefert ein anpassbares Framework. Die andere einen klaren Workflow. Hier kommt, welche zu wem passt.

Voicr vs SuperWhisper: Ein direkter Vergleich

Du öffnest den App Store, suchst nach "KI-Diktat Mac", und immer wieder tauchen dieselben zwei Namen auf: Voicr und SuperWhisper. Die Screenshots sehen ähnlich aus. Die Feature-Listen überschneiden sich. Beide versprechen polierten Text aus deiner Stimme.

Installiere beide für zehn Minuten, und der Unterschied wird sofort klar. Die eine fordert dich auf, eine Whisper-Modellgröße auszuwählen, einen eigenen Modus zu konfigurieren, einen API-Schlüssel für dein bevorzugtes LLM einzufügen und deinen Prompt mit XML zu strukturieren. Die andere fordert dich auf, eine Taste gedrückt zu halten und einfach zu sprechen.

Keiner der beiden Ansätze ist falsch. Sie sind für unterschiedliche Menschen gemacht. Hier kommt ein ehrlicher Direktvergleich, wo Voicr und SuperWhisper auseinandergehen, und welches Tool zu welchem Mac-Nutzer passt.

Die Kurzfassung

Falls du den Rest nicht lesen willst: - SuperWhisper ist für Tüftler, die volle Kontrolle über Modell, Prompt und KI-Anbieter wollen. Starke Offline-Geschichte. Steile Konfigurationskurve. Verfügbar für Mac, Windows und iOS. - Voicr ist für Mac-Nutzer, die Polishing und App-spezifische Regeln bereits einsatzbereit wollen. FN halten, sprechen, loslassen, einfügen. Keine Modellauswahl. Keine eigenen API-Schlüssel. Nur Apple Silicon. - Beide transkribieren mit Whisper. Beide unterstützen 100 Sprachen. Sie trennen sich dort, wie viel Setup sie von dir erwarten.

Wofür SuperWhisper gemacht ist

SuperWhisper ist ein konfigurierbares Framework. Lokale Whisper-Modelle für die Transkription, optional Cloud-LLMs für die Nachbearbeitung und ein System aus Custom Modes, in dem du genau festlegst, wie jede Aufgabe ablaufen soll.

Custom Modes sind das Aushängeschild. Du kannst einen Modus für E-Mails anlegen, einen weiteren für Meeting-Notizen, einen für Code-Kommentare und einen vierten für Slack. Jeder Modus hat seinen eigenen Prompt, seine eigenen Formatierungsregeln und seinen eigenen KI-Anbieter. Du kannst OpenAI, Anthropic, Google, Mistral, Groq oder ein lokales Llama anbinden, je nachdem, welcher Modus gerade läuft. Die Dokumentation empfiehlt XML-Tags für jeden Prompt, der länger als ein paar Zeilen ist.

Local-First-Transkription. SuperWhisper lädt Whisper-Modelle auf deinen Rechner. Tiny, Base, Small, Medium, large-v3 und large-v3-turbo sind alle verfügbar, die größeren Modelle hinter dem Pro-Tarif. Auf Apple Silicon läuft large-v3-turbo lokal und die Genauigkeit ist hervorragend. Audio verlässt deinen Laptop für den Transkriptionsschritt nicht. Das Unternehmen ist SOC 2 Type II zertifiziert und HIPAA-konform, was es zur einfacheren Wahl durch interne Sicherheitsprüfungen macht.

Plattformübergreifend. SuperWhisper läuft mit einer Lizenz auf macOS, Windows und iOS. Wenn du zwischen MacBook und Windows-Desktop pendelst, ist das ein echter Vorteil.

Lifetime-Preis. Eine Einmalzahlung ($249.99 zum Zeitpunkt des Schreibens, wobei sich der Preis 2026 verschoben hat) sichert dir den Zugang für immer. Für tägliche Vielnutzer schlägt diese Rechnung im zweiten Jahr die meisten Abos.

Der Preis für all diese Macht: Die Einstellungsfläche ist dicht. Mehrere Reviews vergleichen das Onboarding mit dem "Konfigurieren eines Servers" — die passende Modellgröße wählen, entscheiden, welcher LLM-Anbieter zu welchem Modus passt, Prompts schreiben, Tastenkombinationen debuggen. Einmal eingestellt, ist es mächtig. Das Einstellen kostet ein Wochenende.

Wofür Voicr gemacht ist

Voicr startet vom anderen Ende. Die meisten Menschen wollen ihr Diktiertool nicht selbst zusammenbauen. Sie wollen etwas installieren, das ihre Sprache bereits sauber poliert, im Ton, den die jeweilige App verlangt, mit einer Taste.

Halte überall in macOS FN gedrückt. Voicr nimmt das Audio auf, transkribiert mit Whisper large-v3-turbo, lässt das Ergebnis durch eine KI-Politur laufen und fügt den bereinigten Text in das Eingabefeld ein, in dem du gerade tippst. Kein Fenster öffnet sich. Kein Umweg über die Zwischenablage. Keine andere App, in die du wechseln musst.

Das Polishing übernimmt Voicr für dich. Die KI-Infrastruktur ist bereits verkabelt — keine API-Schlüssel, keine Anbieterauswahl, kein Prompt Engineering. Du entscheidest nicht, welches Modell deine Sprache umschreibt. Die App tut es, mit einem Stil, der so liest, als hättest du dich hingesetzt und sorgfältig getippt.

Smart Rules lösen das App-spezifische Problem, ohne dass du Modi manuell bauen musst. Du weist jeder App einen Schreibstil zu — locker für Slack, formell für Mail, technisch für VSCode, Rohnotizen für Apple Notes — und Voicr erkennt, welche App gerade aktiv ist, und wendet automatisch die passende Regel an. Es gibt eine Oberfläche zum Bearbeiten der Regeln. Kein XML, keine Prompt-Syntax zu lernen.

Pure Dictation Mode ist eine Ein-Klick-Alternative, wenn du rohe Transkription mit korrekter Interpunktion ohne KI-Umschreibung willst. Zitate, Rohnotizen, wortgetreue Aufnahme.

Automatische Spracherkennung erkennt die gesprochene Sprache aus deinem Audio über 100 Sprachen hinweg. Setze die Zielsprache auf Englisch und Voicr übersetzt, während es transkribiert. Auf Deutsch denken, auf Englisch schreiben, ein Tastendruck.

Der Tradeoff ist das Gegenteil von SuperWhisper. Voicr hat eine klare Meinung. Du bekommst das Polishing, das das Team für gut hält. Du kannst die Smart-Rule-Prompts bearbeiten, wenn du den Ton anpassen willst, aber du wählst nicht das Basismodell und betreibst kein lokales Llama. Und es läuft nur auf Apple Silicon Macs — kein Windows, kein iOS.

Wo die Erfahrung auseinandergeht

Drei kurze Szenarien.

Erste Einrichtung

SuperWhisper: installieren, ein Whisper-Modell herunterladen (Größe entscheiden — Tiny, Base, Small, Medium, large-v3-turbo, large-v3 — je nach Hardware und Genauigkeitsbedarf), Einstellungen öffnen, Standardmodus wählen, entscheiden, ob du Cloud-LLM-Polishing willst, einen OpenAI- oder Anthropic-API-Schlüssel einfügen, einen eigenen Prompt schreiben oder importieren, Trigger-Tasten konfigurieren und testen. Plane einen Abend ein.

Voicr: installieren, Mikrofon- und Bedienungshilfen-Berechtigungen erteilen, FN halten, sprechen. Die Smart Rules sind für gängige Apps vorkonfiguriert. Plane zwei Minuten ein.

Eine Slack-Nachricht und eine E-Mail direkt hintereinander schreiben

SuperWhisper: Wenn du zwei eigene Modi eingerichtet hast (einen für Slack, einen für Mail), wechselst du entweder manuell mit einer anderen Tastenkombination zwischen ihnen, oder du verlässt dich auf Super Mode, der die App erkennt und den passenden Prompt wählt. So oder so müssen die Modi vorher existieren.

Voicr: FN in Slack halten, die lockere Version kommt heraus. FN in Mail halten, die E-Mail-Version kommt heraus. Gleiche Taste, anderer Output, weil Smart Rules bereits wissen, in welcher App du bist.

Den Output polieren

SuperWhisper: Der KI-Polishing-Schritt läuft nur, wenn du ein LLM konfiguriert hast. Die lokalen Whisper-Modelle liefern standardmäßig ein rohes Transkript; das Umschreiben verlangt, dass du deinen eigenen API-Schlüssel mitbringst und den LLM-Anbieter pro Nutzung bezahlst. Mehrere Nutzerbewertungen weisen darauf hin, dass Transkripte oft noch manuelle Nachbearbeitung brauchen, wenn du das nicht aktiv einrichtest.

Voicr: Polishing ist standardmäßig an. Füllwörter raus, Grammatik korrigiert, Struktur gestrafft. Du bezahlst keine separate API-Rechnung. Wenn du stattdessen rohen Output willst, ist Pure Dictation Mode einen Schalter entfernt.

Nebeneinander-Darstellung des SuperWhisper-Einstellungspanels voller Modell- und Prompt-Optionen im Vergleich zur einzelnen FN-Geste von Voicr mit poliertem Output

Wenn du in SuperWhisper diktierst und deine Transkripte immer noch roh herauskommen, weil du Custom Modes und einen API-Schlüssel noch nicht eingerichtet hast, ist das Polishing von Voicr genau der Teil, den du ohnehin konfigurieren wolltest. Es ist nur bereits erledigt. FN halten, sprechen, loslassen — die saubere Version steht im Eingabefeld.

Datenschutz und Offline-Modus

Hier gewinnt SuperWhisper tatsächlich, und das verdient eine ehrliche Einordnung.

Die Transkription von SuperWhisper läuft auf einem lokalen Whisper-Modell. Dein Audio verlässt deinen Rechner für den Speech-to-Text-Schritt nicht. Wenn du Cloud-LLM-Polishing nicht aktivierst, bleibt der gesamte Ablauf auf dem Gerät. Für Nutzer in regulierten Branchen, in instabilen Netzen oder mit strikten Datenschutzpräferenzen ist das ein bedeutender Unterschied.

Voicr nutzt Cloud-Transkription und Cloud-Polishing. Audio wird an einen Server gesendet, verarbeitet, das Ergebnis kommt zurück. Es gibt keinen reinen On-Device-Modus. Wenn du Diktat-Audio nicht an einen Server senden kannst oder willst, ist SuperWhisper die sicherere Wahl — und das sollte den Ausschlag geben, unabhängig von allem anderen in diesem Vergleich.

Ein Detail: SuperWhisper hat historisch jede Audioaufnahme standardmäßig auf der Festplatte gespeichert, was eine andere Datenschutzachse ist (lokale Persistenz statt Netzwerkkontakt). Wenn du dich für SuperWhisper entscheidest, lohnt es sich, das aktuelle Verhalten in den Einstellungen zu prüfen, bevor du annimmst, dass "On-Device" gleich "nicht aufgezeichnet" bedeutet.

Preise im Vergleich

Die Listenpreise sind hier nicht das ganze Bild, weil SuperWhispers Polishing davon abhängt, dass du deinen eigenen LLM-Schlüssel mitbringst. Die Gesamtkosten hängen davon ab, welchen Anbieter du anbindest und wie viel du diktierst.

SuperWhisper

SuperWhisper Free läuft mit lokalem Whisper, beschränkt dich aber auf die kleinen Modelle (Tiny und Base) und drei Custom Modes. Pro kostet $8.49/Monat oder $84.99/Jahr, schaltet jede Whisper-Modellgröße frei, hebt die Modus-Obergrenze auf und ermöglicht Cloud-LLM-Nachbearbeitung. Lifetime liegt im aktuellen Listing bei $249.99 einmalig. Zusätzlich zu jedem Tarif bedeutet Cloud-Polishing, dass du OpenAI, Anthropic, Google oder den jeweils angebundenen Anbieter pro Anfrage bezahlst.

Voicr

Der Free-Plan von Voicr umfasst 5.000 Wörter/Monat mit allen Features und ohne Kreditkarte. GO kostet $3/mo für 20.000 Wörter. PRO kostet $10/mo für 100.000 Wörter. Polishing ist in jedem Tarif enthalten, also gibt es keine separate KI-Rechnung obendrauf.

Für Gelegenheitsnutzer sind beide Apps faktisch kostenlos. Für intensives tägliches Diktieren hängt die Rechnung davon ab, ob du lieber einmalig SuperWhisper Lifetime + laufende LLM-Kosten bezahlst oder ein festes monatliches Voicr-Abo mit inkludiertem Polishing. Der Free-Tarif von Voicr kommt der vollen App näher als SuperWhisper Free — keine Modellsperre, keine Obergrenze bei Custom Modes, kein zusätzlicher KI-Anbieter nötig, damit Polishing funktioniert.

Illustration, die Voicrs festen Monatspreis mit einer enthaltenen KI mit dem Preisstapel von SuperWhisper aus separatem Pro-Abo und BYOK-LLM-Kosten vergleicht

Wann SuperWhisper die richtige Wahl ist

Es gibt echte Szenarien, in denen SuperWhisper das bessere Werkzeug ist, und das ohne Zweifel.

Du nutzt Windows oder pendelst zwischen Mac und Windows. Voicr läuft nur auf Apple Silicon Macs. Wenn du eine App über Betriebssysteme hinweg brauchst, deckt SuperWhisper das ab.

Du hast eine harte Offline-Anforderung. Compliance, sensible Inhalte, kein Netzwerk auf einem bestimmten Rechner. Lokale Whisper-Transkription ohne Cloud-LLM ist die größte Stärke von SuperWhisper.

Du willst dein eigenes Modell mitbringen. Ein lokales Llama fürs Polishing betreiben, je nach Aufgabe zwischen GPT und Claude wechseln, XML-getaggte Prompts schreiben wie einen System-Prompt. Dafür ist SuperWhisper gebaut. Voicr nicht.

Du willst Lifetime-Preise. Wenn du jahrelang viel diktierst, kann SuperWhisper Lifetime plus deine eigenen API-Kosten am Ende günstiger sein als ein festes Monatsabo. Lohnt sich nachzurechnen.

Wann Voicr die richtige Wahl ist

Die meisten Mac-Alltagsnutzer landen hier, und auch das verdient eine klare Erklärung.

Du willst keine API-Schlüssel verwalten. Du willst, dass Polishing standardmäßig läuft, nicht als Setup-Schritt.

Du willst eine Taste, die in jeder App das Richtige tut. Kein Moduswechsel, keine manuellen Trigger — nur FN, in Slack klingt es wie Slack, in Mail klingt es wie Mail.

Du arbeitest auf einem Apple Silicon Mac und bleibst dabei. Kein plattformübergreifender Bedarf, keine Windows-Maschine, die auf das gleiche Setup wartet.

Du willst in fünf Minuten starten, nicht in fünf Stunden. Installieren, Berechtigungen erteilen, FN halten. Die Defaults sind gut genug für den sofortigen Einsatz, und Smart Rules kannst du später feinjustieren, wenn du den Ton anpassen willst.

Wenn dieses Profil passt, fühlt sich Voicr an wie die Version von SuperWhisper, die jemand schon für dich eingerichtet hat. Gleiche Whisper-Transkriptionsqualität. Polishing bereits eingebaut. App-Bewusstsein im Kern, nicht aus Custom Modes zusammengesetzt.

Der ehrliche Test

Wenn du wirklich zwischen den beiden schwankst, ist der faire Test, denselben echten Text in beiden zu diktieren. Kein Einzeiler — nimm etwas mit drei bis fünf Sätzen, eine E-Mail oder eine Slack-Antwort. Sprich natürlich, mit den Füllwörtern und Fehlstarts, die du sonst rauseditieren würdest.

Schau dir den Output in jeder App an, bevor du ihn anfasst. Zwei Fragen: 1. Ist der Text schon in einem Zustand, den du absenden würdest? 2. Wusste das Tool, in welcher App du warst?

Wenn SuperWhispers Output absendbar ist, weil du ein Wochenende mit dem Feintuning von Custom Modes und Prompts verbracht hast, ist das ein echtes Ergebnis — bleib dabei. Wenn es immer noch ein rohes Transkript ist, das du aufräumen musst, ist der Unterschied zwischen Voicr und SuperWhisper im Kern der Unterschied zwischen "das Polishing passiert automatisch" und "du wirst das Polishing irgendwann konfigurieren".

Der schnellste Weg, das herauszufinden: Installiere Voicr, setze FN als Trigger und versuche dieselbe E-Mail noch einmal. Wenn du lieber jeden Prompt und jedes Modell selbst kontrollierst, ist SuperWhisper das bessere Werkzeug. Wenn du lieber eine Taste hältst und die polierte Version im Eingabefeld landen siehst, ist Voicr genau das, weshalb du gekommen bist.

Für eine andere Perspektive auf die gleiche Frage — wie sich Voicr gegen Apples eigenes Tool schlägt — siehe den Vergleich Voicr vs Apple Dictation.