Zurück zum Blog
·Produkt

OnType 1.0 - Ihre Stimme, Ihre Tastatur


Wir haben am 31. Januar 2026 damit begonnen, OnType zu bauen. 81 Tage und fast 900 Commits später veröffentlichen wir Version 1.0 - ein macOS-Werkzeug für Spracheingabe, das Ihre Stimme genau dort in Text verwandelt, wo sich Ihr Cursor befindet. Kein App-Wechsel. Kein Warten. Standardmäßig keine Cloud nötig.

OnType ist nicht einfach nur eine Diktier-App. Es sind drei verschiedene Arten zu sprechen, jeweils für einen anderen Moment gebaut. So funktionieren sie.

Tap to speak freely. AI removes fillers and restructures.

Push-to-Talk - Denken, sagen, senden

Der einfachste Modus. Halten Sie Ihren Hotkey gedrückt - standardmäßig Fn -, sprechen Sie und lassen Sie los. Der Text erscheint an Ihrem Cursor in dem Moment, in dem Sie die Taste loslassen. Dank Echtzeit-Streaming sehen Sie jedes Wort während der Erkennung - nicht mit Verzögerung und nicht in einem separaten Fenster.

Hinter den Kulissen steckt viel Latenz-Engineering. Die Audioaufnahme schneidet automatisch die ersten 120 Millisekunden weg - genau die Lücke zwischen Tastendruck und erstem gesprochenen Laut -, damit die ASR-Engine keine Zeit mit Stille oder Tastengeräuschen verliert. Dadurch beginnt die Transkription praktisch in dem Moment, in dem Ihre erste Silbe das Mikrofon erreicht.

Sagen Sie in Slack etwas Kurzes wie "bis später um drei, gleicher Ort". OnType transkribiert das lokal über MLX-optimierte Spracherkennung, die auf der Neural Engine Ihres Apple-Silicon-Macs läuft. Unter 200 ms Latenz. Ihr Audio verlässt die Maschine nie.

see you at three same place

Compose - Chaotische Sprache in sauberen Text verwandeln

Echte Sprache ist unordentlich. Wir sagen "äh" und "halt". Wir beginnen einen Satz, korrigieren uns mitten darin und verlaufen uns. Traditionelles Diktat schreibt jeden Fehlstart treu mit. OnType Compose nicht.

Tippen Sie einmal auf Ihren Hotkey, um die Aufnahme zu starten. Sprechen Sie frei - Füllwörter, Selbstkorrekturen und halbfertige Gedanken inklusive. Tippen Sie erneut, um zu beenden. OnType schickt das rohe Transkript durch eine lokale Umschreibungs-Engine, die versteht, was Sie eigentlich gemeint haben.

So sieht das in der Praxis aus. Sie sagen zum Beispiel:

äh, also wegen des Launches nächste Woche, zuerst müssen wir die Docs aktualisieren, und dann sind die Testfälle noch nicht fertig, warte nein, die Tests sind fertig, es sind die Deploy-Skripte, die wir noch prüfen müssen. und dann braucht die Performance noch etwas Optimierung, ach ja, am wichtigsten ist die Client-Kompatibilität, das hat oberste Priorität. ähm, bei den Docs geht es hauptsächlich darum, die API-Änderungen abzugleichen.

Der Teleprompter im HUD von OnType visualisiert Ihre Sprache in Echtzeit - Füllwörter bekommen eine dezente gewellte Unterstreichung, Selbstkorrekturen erscheinen durchgestrichen, und Sprachbefehle wie "warte, nein" werden blau hervorgehoben. Sie sehen das rohe Chaos in dem Moment, in dem es entsteht.

um so about the launch next week, first we need to update the docs, and then like the test cases aren't done yet, wait no, tests are done, it's the deploy scripts that need checking. and then performance needs some optimization too, oh right, most importantly client compatibility, that's top priority. uh the docs thing is mainly about syncing the API changes.

Wenn Sie dann zum Beenden tippen, schreibt die AI es in etwas um, das man tatsächlich verwenden kann:

Launch-Vorbereitung für nächste Woche:
1. Client-Kompatibilität testen (oberste Priorität)
2. Deploy-Skripte verifizieren
3. API-Änderungen mit der Dokumentation abgleichen
4. Performance optimieren

Wie die Rewrite-Engine Sie versteht

Die AI entfernt nicht einfach nur Füllwörter. Sie erkennt drei unterschiedliche Arten von Selbstkorrektur und behandelt jede anders:

  • Expliziter Rückzug - wenn Sie "warte, nein" oder "es muss heissen" sagen, verwirft die Engine alles vor dem Korrektursignal und behaelt nur die korrigierte Version.
  • Überschreiben durch Wiederholung - wenn Sie eine Phrase neu beginnen und mit Änderungen erneut sagen, ersetzt die zweite Version die erste.
  • Inline-Anmerkung - wenn Sie einen Begriff klarstellen ("hier bezieht sich 'pie' auf PI"), ersetzt die Engine das Original durch die korrigierte Version und entfernt die Meta-Erklärung.

Sie korrigiert auch ASR-Fehler, indem sie über Kontext nachdenkt. Homophone, die akustisch plausibel klingen, aber semantisch keinen Sinn ergeben - etwa "refrigeration", wenn über KI-Modelle gesprochen wird und "intelligence" gemeint ist -, werden automatisch berichtigt. Markennamen, die als ähnlich klingende Wörter erkannt wurden, werden wieder hergestellt, wenn der Kontext es stuetzt.

Szenenbewusstes Umschreiben

OnType erkennt, welche App Sie gerade verwenden, und passt die Umschreibungsstrategie entsprechend an. Eine schnelle Nachricht in WeChat bekommt nur minimale Eingriffe - Füllwörter entfernen und Fehler korrigieren. Ein längerer Gedanke in Notion wird aktiv in logische Absätze umstrukturiert, mit dem Hauptpunkt am Anfang. Meeting-Notizen in Linear werden in Stichpunkte und Themenblöcke überführt. Ein KI-Prompt in Claude wird für bessere Prompt-Qualität optimiert - Absicht klären, Kontext von Anweisungen trennen, Einschränkungen explizit machen.

Das funktioniert in Chinesisch, Englisch, Japanisch, Koreanisch, Französisch, Spanisch, Deutsch und Italienisch. Die Prompts sind szenenbewusst - sie wissen, ob Sie eine E-Mail entwerfen, Meeting-Notizen machen oder Code-Kommentare schreiben - und passen Ton und Struktur entsprechend an.

Translate - In einer Sprache sprechen, in einer anderen schreiben

Manchmal müssen Sie in einer Sprache schreiben, in der Sie gerade nicht denken. Mit OnType Translate sprechen Sie natürlich in einer Sprache und bekommen einen ausformulierten Text in einer anderen.

Tippen Sie zum Starten, sprechen Sie Ihren Satz und halten Sie beim Beenden Shift gedrückt. Der Punkt im HUD wird blau und signalisiert, dass der Übersetzungsmodus aktiv ist. Loslassen - und das übersetzte Ergebnis erscheint an Ihrem Cursor.

我想订明天上午到北京的航班,不对,是改签,不是订新的

我想订明天上午到北京的航班,不对,是改签,不是订新的

→ Ich möchte meinen Flug nach Peking auf morgen Vormittag umbuchen.

Auf Geschwindigkeit getrimmt

OnType ist von niedriger Latenz besessen. Das Streaming-HUD zeigtbestätigten Text - also Worte, bei denen die ASR-Engine sicher ist - neben vorläufigem Text, der sich noch ändern kann. Während Sie sprechen, wächst die HUD-Pille und scrollt sanft weiter, sodass immer die neuesten Worte sichtbar bleiben. Sie starren nicht auf einen statischen "Listening..."-Hinweis. Sie sehen Ihre Worte in Echtzeit entstehen.

Im Push-to-Talk-Modus liegt die Lücke zwischen dem Loslassen des Hotkeys und dem Erscheinen von Text am Cursor typischerweise unter einer Sekunde. Im Compose-Modus bleibt die End-to-End-Verzögerung selbst mit der vollständigen KI-Rewrite-Pipeline meist unter zwei Sekunden. Erreicht wird das durch eine chunkbasierte Rewrite-Runtime, die Transkriptsegmente verarbeitet, während sie eintreffen, statt auf das Ende der gesamten Aufnahme zu warten.

Privacy by design

Der Standardpfad ist vollständig offline. Wir liefern quantisierte MLX-Modelle aus, die auf der Neural Engine von Macs ab M1 laufen. Whisper-ähnliche Genauigkeit mit hardwarebeschleunigter Geschwindigkeit. Für Nutzer, die die schwersten Modelle benötigen oder auf Intel-Macs arbeiten, stehen Cloud-Engine-Anbieter optional zur Verfügung - aber der lokale Pfad bleibt immer da, immer privat und immer sofort verfügbar.

OnType enthält außerdem eine selbst entwickelte Engine für Inverse Text Normalization. "dreitausend Dollar" wird zu "$3,000". Daten, Währungen und Zahlen werden automatisch passend zu Ihrer Locale formatiert. Und Sprachbefehle wie "neue Zeile" oder "Doppelpunkt" werden in Echtzeit in tatsächliche Tastaturaktionen umgesetzt.

Wie wir hierhin gekommen sind

Das Projekt begann als Swift-Prototyp mit Fokus auf ein hartes Problem: transkribierten Text in jeder macOS-App verlässlich am Cursor einzufügen. Wir bauten eine dreistufige Insertions-Pipeline - Accessibility API, Tastatursimulation, Clipboard-Fallback - und testeten sie in Browsern, Terminals, Design-Tools und IDEs.

Von dort aus wuchs der Umfang. Echtzeit-Streaming über WebSocket. Mehrere ASR-Anbieter für die Cloud Engine - DashScope, Volcengine, OpenAI. Ein IME-Bundle für Apps ohne direkte Einfügeunterstützung. Eine WebView-basierte Einstellungsoberfläche mit den interaktiven Überblicks-Demos, die Sie oben sehen. Onboarding-Flows, die Nutzer durch die erforderlichen Berechtigungen führen. Sparkle-Auto-Updates. Sentry-Fehlerberichte. Eine eigens kompilierte Zig-Bibliothek für finite-state transducers zur Textersetzung.

Version 1.0 ist ein Fundament, keine Ziellinie. Wir arbeiten bereits an besserem Umgang mit gemischter Sprache, reichhaltigeren Compose-Modi und tieferen Integrationen mit den Werkzeugen, die Entwickler am häufigsten verwenden.

Preise

OnType kann kostenlos heruntergeladen werden. Jeder neue Nutzer erhaelt 14 Tage Zugang zur Cloud Engine, um die volle Erfahrung auszuprobieren. Danach bleibt die lokale Verarbeitung für immer kostenlos. Für unbegrenzte Cloud Engine, priorisierten Support und fruehen Zugriff auf neue Funktionen kostet OnType Pro bei jährlicher Abrechnung 8 Dollar pro Monat.

OnType 1.0 herunterladen - macOS 15 oder neuer, Apple Silicon oder Intel.