Zurück zum Blog
·Unternehmen

Warum Ihre Sprachdaten Ihr Gerät niemals verlassen sollten


Wenn Sie einen Cloud-Diktierdienst verwenden, verlässt Ihre Stimme Ihren Computer. Sie wird über das Internet in ein Rechenzentrum übertragen, von einem Server verarbeitet, den Sie nicht kontrollieren, und der Text kommt zurück. Das Audio selbst - Ihre echte Stimme - kann gespeichert, protokolliert oder für das Training von Modellen genutzt werden. Sie können nicht verifizieren, was damit geschieht, sobald es weg ist.

Das ist keine theoretische Sorge. Große Technologieunternehmen haben bestätigt, dass menschliche Reviewer Aufnahmen von Sprachassistenten zur Qualitätssicherung anhören. Cloud-ASR-Anbieter behalten Audio für Modellverbesserungen regelmäßig ein, solange Sie dem nicht ausdrücklich widersprechen - und selbst dann stecken die Aufbewahrungsrichtlinien oft in Nutzungsbedingungen, die sich ohne Vorankündigung ändern.

Wir haben OnType gebaut, damit dieses Problem vollständig verschwindet.

Stimme ist biometrische Information

Ihre Stimme ist nicht wie eine Textnachricht oder eine Suchanfrage. Sie enthält biometrische Information - für Sie einzigartige Stimmmuster, Emotionen, Akzent und Sprechtempo. Sie ist auf eine Weise identifizierbar, die getippter Text schlicht nicht ist.

Wenn ein Cloud-Diktierdienst Ihr Audio verarbeitet, erhält er nicht nur die gesprochenen Worte, sondern auch eine biometrische Signatur, mit der man Sie identifizieren, profilieren und verfolgen kann. Zusammengeführte Sprachdaten über mehrere Sitzungen hinweg ergeben einen immer genaueren Fingerabdruck.

Für Privatpersonen ist das ein Datenschutzproblem. Für Fachleute, die mit vertraulichen Mandanten- oder Kundendaten arbeiten - Anwälte, Ärztinnen und Ärzte, Finanzberater -, ist es ein Compliance-Risiko.

Die drei Probleme der Cloud-Verarbeitung

1. Sie verlieren die Kontrolle über Ihre Daten

Sobald Audio Ihr Gerät verlässt, vertrauen Sie auf die Infrastruktur, die Mitarbeiter und die Richtlinien des Anbieters. Datenlecks treffen selbst Unternehmen mit hohem Sicherheitsniveau. Gerichtliche Anordnungen können die Offenlegung gespeicherter Audiodaten erzwingen. Und bei Unternehmensübernahmen können Ihre Daten bei Organisationen landen, deren Datenschutzstandards nicht denen des ursprünglichen Anbieters entsprechen.

2. Latenz ist Physik

Cloud-Verarbeitung führt einen nicht wegzuoptimierenden Netzwerk-Roundtrip ein. Selbst mit schneller Verbindung kommen 100 bis 300 Millisekunden Latenz zusätzlich zur Verarbeitungszeit dazu. Bei langsameren Verbindungen oder hinter VPNs wird es noch schlechter. Und wenn Sie offline sind - im Flugzeug, in einer Gegend mit schlechtem Empfang oder einfach bewusst ohne Verbindung -, funktioniert Cloud-Diktat überhaupt nicht.

On-Device-Verarbeitung eliminiert das Netzwerk vollständig. Die Spracherkennung von OnType läuft auf der Neural Engine von Apple Silicon-Macs mit unter 200 ms Latenz. Sie funktioniert identisch, egal ob Sie mit dem Internet verbunden sind oder nicht.

3. Sie bezahlen für fremde Rechenleistung

Cloud-ASR ist teuer im Betrieb. Anbieter geben diese Kosten über Abostufen, Minutenpreise oder Nutzungslimits an Nutzer weiter. Je mehr Sie es verwenden, desto mehr zahlen Sie - und desto mehr Audio senden Sie auf deren Server.

On-Device-Verarbeitung nutzt Hardware, die Sie bereits besitzen. Die Neural Engine Ihres Macs ist bereits da, speziell für Machine-Learning-Inferenz gebaut und bereit, genutzt zu werden. Die lokale Engine von OnType bleibt für immer kostenlos - keine Nutzungslimits, kein Abo für grundlegende Spracheingabe.

Wie OnType alles lokal hält

OnType liefert quantisierte MLX-Modelle mit, die für Apple Silicon optimiert sind. Wenn Sie Ihren Hotkey gedrückt halten und sprechen, wird das Audio vom Mikrofon Ihres Macs erfasst, von der lokalen Spracherkennungs-Engine verarbeitet und als Text an der Cursorposition eingefügt. Zu keinem Zeitpunkt verlassen Audio- oder Transkriptionsdaten Ihr Gerät.

Die technische Architektur ist direkt: Audiopuffer -> MLX-Inferenz auf der Neural Engine -> Textnormalisierung -> Cursor-Einfügung. In diesem Pfad gibt es keinen Netzwerk-Stack. Keine Telemetrie über den Inhalt Ihrer Sprache. Keinen Server, der kompromittiert werden kann.

Für Nutzerinnen und Nutzer, die Zugang zu den leistungsstärksten Cloud-Modellen wollen - etwa in extrem lauten Umgebungen oder mit sehr spezialisierter Terminologie -, bietet OnType optional eine Cloud Engine. Der Standardpfad ist jedoch immer lokal, immer privat und immer offline verfügbar.

Privatsphäre als Architektur, nicht als Richtlinie

Die meisten Cloud-Dienste versprechen Datenschutz über Richtlinien: "Wir sehen uns Ihre Daten nicht an." Das ist eine rechtliche Zusicherung, keine technische. Sie kann geändert, gebrochen oder übersteuert werden.

On-Device-Verarbeitung schafft Privatsphäre über Architektur. Es gibt keine Daten, die kompromittiert werden können, weil die Daten nie weggehen. Es gibt keine Richtlinie, die geändert werden könnte, weil es keine serverseitige Sammlung gibt, die geregelt werden müsste. Diese Garantie ist strukturell - sie wird durch das Fehlen eines Netzpfads erzwungen, nicht durch ein Versprechen in einem Dokument mit Nutzungsbedingungen.

Deshalb haben wir OnType auf diese Weise gebaut. Nicht, weil Cloud-Verarbeitung grundsätzlich schlecht wäre - sie hat echte Vorteile bei Genauigkeit und Modellgröße. Sondern weil Stimme zu persönlich, zu identifizierend und zu sensibel ist, um einer Infrastruktur zu vertrauen, die Sie nicht kontrollieren.

Ihre Stimme sollte auf Ihrem Gerät bleiben. Das sollte keine Option sein, die Sie erst aktiv einschalten müssen. Es sollte der Standard sein.

OnType ausprobieren - Spracheingabe für macOS direkt auf dem Gerät, für lokale Verarbeitung dauerhaft kostenlos.