2026年4月23日·公司

為什麼你的語音資料絕不該離開裝置

當你使用雲端聽寫服務時，你的語音會離開電腦。它會穿過網際網路到達資料中心，在一臺你無法控制的伺服器上被處理，然後文字再傳回給你。音訊本身，也就是你真實的聲音，可能會被儲存、記錄，或者被拿去訓練模型。一旦它離開，你根本無法驗證後面發生了什麼。

這不是假設。大型科技公司已經公開確認，人工稽覈員會監聽語音助手錄音，用於品質保障。雲端 ASR 提供商通常也會保留音訊以改進模型，除非你明確選擇退出。即便如此，這些保留策略往往埋在服務條款裡，而且條款還可能在沒有明顯通知的情況下變更。

我們打造 OnType，就是為了讓這個問題徹底消失。

語音是一種生物識別資料

你的聲音不像簡訊或搜尋查詢。它攜帶生物識別資訊，包括你獨有的發聲模式、情緒狀態、口音和語速節奏。它的可識別性遠高於純文字。

當雲端聽寫服務處理你的音訊時，它拿到的不只是你說出的詞，而是一份可被用於識別、畫像和追蹤你的生物特徵簽名。跨多次會話聚合後的語音資料，只會讓這份指紋越來越詳細。

對普通個人來說，這是隱私問題。對處理客戶機密資訊的專業人士，比如律師、醫生、財務顧問，這還是合規風險。

一旦音訊離開裝置，你就只能信任服務商的基礎設施、員工和政策。即使是最重視安全的公司也會遭遇資料外洩。法院傳票可以要求披露已儲存的音訊。而公司被收購時，你的資料也可能被轉交給隱私標準完全不同的新實體。

雲端處理引入了不可消除的網路往返。即使在很快的連線上，你也會在處理時間之外額外增加 100 到 300 毫秒延遲。連線更慢、或者掛著 VPN 時，延遲會更糟。更現實的是，只要你離線，比如在飛機上、訊號差的地方，或者只是主動斷網，雲端聽寫就完全不可用。

裝置端處理則徹底消除了網路。OnType 的語音識別執行在 Apple Silicon Mac 的 Neural Engine 上，延遲低於 200 毫秒。無論你是否聯網，它的工作方式都完全一樣。

執行雲端 ASR 很貴。服務商會透過訂閱套餐、按分鐘計費或用量上限，把這部分成本轉嫁給使用者。你用得越多，付得越多，而發到他們伺服器上的音訊也越多。

裝置端處理使用的是你已經買下來的硬體。你 Mac 裡的 Neural Engine 本來就是為機器學習推理準備的，就等著被用起來。OnType 的裝置端引擎永久免費，基礎語音輸入不設使用上限，也不要求訂閱。

OnType 內建了針對 Apple Silicon 最佳化的量化 MLX 模型。當你按住熱鍵說話時，音訊由 Mac 麥克風採集，交給裝置端語音識別引擎處理，然後直接作為文字插入游標位置。整個過程中，音訊和轉寫資料都不會離開這臺機器。

技術架構其實很直接：音訊緩衝區 → Neural Engine 上的 MLX 推理 → 文字規範化 → 游標插入。這條鏈路裡沒有網路棧，沒有針對語音內容的遙測，也沒有一臺會被攻破的伺服器。

對於想使用最強雲模型的使用者，比如在極嘈雜環境中工作、或者有專業術語識別需求時，OnType 也提供可選的 Cloud Engine。但預設路徑始終是本地、私密、並且離線可用的。

大多數雲服務透過政策承諾隱私，比如“我們不會查看你的資料”。這是一種法律承諾，不是技術保證。它可以被修改、被突破，也可能被覆蓋。

裝置端處理提供的是架構層面的隱私。因為資料從未離開，所以根本不存在可以被攻破的資料副本。因為沒有伺服器端採集，所以也不存在需要靠政策治理的收集行為。這個保證是結構性的，它不是寫在服務條款裡的承諾，而是直接由“沒有網路路徑”這件事強制做到的。

這就是我們為什麼這樣構建 OnType。不是因為雲端處理天然就壞，它在準確率和模型規模上確實有合理優勢；而是因為語音過於私人、過於可識別、也過於敏感，不應該被輕易交給你無法控制的基礎設施。

你的聲音就該留在你的裝置上。這不該是一個需要你主動開啟的選項，而應該是預設值。

試試 OnType：適用於 macOS 的裝置端語音輸入，本地處理永久免費。