なぜ音声データはデバイスの外に出るべきではないのか
クラウド型のディクテーションサービスを使うと、あなたの声は コンピュータの外へ出ます。インターネットを通ってデータセンターへ送られ、 自分では管理できないサーバーで処理され、テキストだけが戻ってきます。 その音声そのものが保存されるかもしれないし、ログに残るかもしれないし、 モデル学習に使われるかもしれません。一度外へ出たあとで何が起きるかを、 利用者は検証できません。
これは仮定の話ではありません。大手テック企業は、品質確認のために 人間のレビュー担当者が音声アシスタントの録音を聞くことがあると 公表しています。クラウド ASR プロバイダも、明示的にオプトアウトしない限り、モデル改善のために 音声を保持することが一般的です。しかもその保持ポリシーは、 いつの間にか変わる利用規約の奥に埋もれがちです。
私たちは、この問題を根本から消すために OnType を作りました。
音声は生体データである
音声はテキストメッセージや検索クエリとは違います。そこには、 あなた固有の発声パターン、感情状態、アクセント、話すリズムといった 生体情報が含まれます。単なる文字列より、はるかに識別可能性が高いのです。
クラウド型ディクテーションサービスが音声を処理するということは、 話した内容だけでなく、あなたを識別・プロファイリング・追跡しうる 生体シグネチャも受け取るということです。複数セッションにまたがって 集約された音声データは、ますます詳細な指紋を作っていきます。
個人にとってはプライバシーの問題であり、顧客の機密情報を扱う 弁護士、医師、ファイナンシャルアドバイザーのような専門職にとっては、 コンプライアンス上のリスクです。
クラウド処理の 3 つの問題
1. データの主導権を失う
音声がデバイスを離れた時点で、利用者はプロバイダの基盤、従業員、 ポリシーを信頼するしかありません。どれほどセキュリティ意識の高い企業でも 情報漏えいは起こりえます。保存済み音声の開示を法的に求められることもあります。 企業買収が起これば、元のプロバイダとは異なるプライバシー基準を持つ 新しい主体へデータが移る可能性もあります。
2. レイテンシは物理法則
クラウド処理には、どうしてもネットワーク往復時間が入ります。 高速回線でも、処理時間に加えて 100〜300ms ほどの遅延が乗ります。遅い回線や VPN 越しならさらに悪化します。 そして、飛行機の中や電波の弱い場所、あるいは意図的に オフラインにしている状況では、クラウド型ディクテーションは そもそも使えません。
オンデバイス処理なら、ネットワーク自体が経路から消えます。OnType の音声認識は Apple Silicon Mac の Neural Engine 上で動き、 レイテンシは 200ms 未満です。インターネット接続の有無に関係なく、 同じように動作します。
3. 他人の計算資源に払い続けることになる
クラウド ASR は運用コストが高い領域です。プロバイダはそのコストを、 サブスクリプション、分単位課金、使用量上限といった形でユーザーへ転嫁します。 使えば使うほど料金は増え、そのたびにより多くの音声を相手のサーバーへ送ることになります。
オンデバイス処理は、すでに自分が持っているハードウェアを使います。 Mac の Neural Engine は、機械学習推論のために用意されているのに、 ただ待っているだけです。OnType のオンデバイスエンジンは永久無料で、 基本的な音声入力に使用量制限もサブスクリプションも要りません。
OnType がすべてをローカルに保つ仕組み
OnType には Apple Silicon 向けに最適化した量子化 MLX モデルが同梱されています。ホットキーを押して話すと、音声は Mac のマイクで取り込まれ、オンデバイス音声認識エンジンで処理され、 テキストとしてカーソル位置へ挿入されます。この経路のどの時点でも、 音声や書き起こしデータがマシンの外へ出ることはありません。
技術アーキテクチャは単純です。音声バッファ → Neural Engine 上での MLX 推論 → テキスト正規化 → カーソル挿入。ここにネットワークスタックは 存在しません。話した内容に関するテレメトリもありません。侵害される サーバー自体がありません。
もちろん、より強力なクラウドモデルを使いたい人もいます。たとえば、 非常に騒がしい環境や、専門用語が多い場面です。そのため OnType にはオプションとして Cloud Engine もあります。ただし、標準の経路は 常にローカル、常にプライベート、常にオフライン利用可能です。
プライバシーはポリシーではなくアーキテクチャで担保する
多くのクラウドサービスは、ポリシーによってプライバシーを約束します。 「あなたのデータは見ません」という形です。しかしそれは法的な約束であり、 技術的な保証ではありません。変更されることも、破られることも、 上書きされることもあります。
オンデバイス処理が提供するのは、アーキテクチャによるプライバシーです。 データが外へ出ない以上、侵害される対象もありません。サーバー側収集が 存在しない以上、それを規定するポリシー変更も起きません。保証は構造的です。 利用規約の一文ではなく、ネットワーク経路そのものが欠けていることによって 成立します。
私たちが OnType をこの形で作ったのはそのためです。クラウド処理が 本質的に悪いからではありません。精度や扱えるモデルサイズの面では、 正当な利点があります。ただ、音声はあまりにも個人的で、 識別性が高く、センシティブすぎる。自分で制御できない基盤に委ねるには 重すぎるデータだと考えています。
あなたの声は、あなたのデバイスに残るべきです。それはオプトインする 追加機能ではなく、標準であるべきです。
OnType を試す — macOS 向けオンデバイス音声入力。 ローカル処理は永久無料です。