返回部落格
·公司

為什麼你的語音資料絕不該離開裝置


當你使用雲端聽寫服務時,你的語音會離開電腦。它會穿過網際網路到達資料中心, 在一臺你無法控制的伺服器上被處理,然後文字再傳回給你。音訊本身, 也就是你真實的聲音,可能會被儲存、記錄,或者被拿去訓練模型。 一旦它離開,你根本無法驗證後面發生了什麼。

這不是假設。大型科技公司已經公開確認,人工稽覈員會監聽語音助手錄音, 用於品質保障。雲端 ASR 提供商通常也會保留音訊以改進模型,除非你明確選擇退出。 即便如此,這些保留策略往往埋在服務條款裡,而且條款還可能在沒有明顯通知的情況下變更。

我們打造 OnType,就是為了讓這個問題徹底消失。

語音是一種生物識別資料

你的聲音不像簡訊或搜尋查詢。它攜帶生物識別資訊,包括你獨有的發聲模式、 情緒狀態、口音和語速節奏。它的可識別性遠高於純文字。

當雲端聽寫服務處理你的音訊時,它拿到的不只是你說出的詞, 而是一份可被用於識別、畫像和追蹤你的生物特徵簽名。 跨多次會話聚合後的語音資料,只會讓這份指紋越來越詳細。

對普通個人來說,這是隱私問題。對處理客戶機密資訊的專業人士, 比如律師、醫生、財務顧問,這還是合規風險。

雲端處理的三個問題

1. 你失去了對資料的控制權

一旦音訊離開裝置,你就只能信任服務商的基礎設施、員工和政策。 即使是最重視安全的公司也會遭遇資料外洩。法院傳票可以要求披露已儲存的音訊。 而公司被收購時,你的資料也可能被轉交給隱私標準完全不同的新實體。

2. 延遲是物理現實

雲端處理引入了不可消除的網路往返。即使在很快的連線上, 你也會在處理時間之外額外增加 100 到 300 毫秒延遲。 連線更慢、或者掛著 VPN 時,延遲會更糟。更現實的是,只要你離線, 比如在飛機上、訊號差的地方,或者只是主動斷網,雲端聽寫就完全不可用。

裝置端處理則徹底消除了網路。OnType 的語音識別執行在 Apple Silicon Mac 的 Neural Engine 上,延遲低於 200 毫秒。無論你是否聯網, 它的工作方式都完全一樣。

3. 你在為別人的算力持續買單

執行雲端 ASR 很貴。服務商會透過訂閱套餐、按分鐘計費或用量上限, 把這部分成本轉嫁給使用者。你用得越多,付得越多,而發到他們伺服器上的音訊也越多。

裝置端處理使用的是你已經買下來的硬體。你 Mac 裡的 Neural Engine 本來就是為機器學習推理準備的,就等著被用起來。OnType 的裝置端引擎永久免費,基礎語音輸入不設使用上限,也不要求訂閱。

OnType 如何把一切都留在本地

OnType 內建了針對 Apple Silicon 最佳化的量化 MLX 模型。 當你按住熱鍵說話時,音訊由 Mac 麥克風採集,交給裝置端語音識別引擎處理, 然後直接作為文字插入游標位置。整個過程中,音訊和轉寫資料都不會離開這臺機器。

技術架構其實很直接:音訊緩衝區 → Neural Engine 上的 MLX 推理 → 文字規範化 → 游標插入。這條鏈路裡沒有網路棧,沒有針對語音內容的遙測, 也沒有一臺會被攻破的伺服器。

對於想使用最強雲模型的使用者,比如在極嘈雜環境中工作、 或者有專業術語識別需求時,OnType 也提供可選的 Cloud Engine。 但預設路徑始終是本地、私密、並且離線可用的。

把隱私做成架構,而不是政策

大多數雲服務透過政策承諾隱私,比如“我們不會查看你的資料”。 這是一種法律承諾,不是技術保證。它可以被修改、被突破,也可能被覆蓋。

裝置端處理提供的是架構層面的隱私。因為資料從未離開, 所以根本不存在可以被攻破的資料副本。因為沒有伺服器端採集, 所以也不存在需要靠政策治理的收集行為。這個保證是結構性的, 它不是寫在服務條款裡的承諾,而是直接由“沒有網路路徑”這件事強制做到的。

這就是我們為什麼這樣構建 OnType。不是因為雲端處理天然就壞, 它在準確率和模型規模上確實有合理優勢;而是因為語音過於私人、 過於可識別、也過於敏感,不應該被輕易交給你無法控制的基礎設施。

你的聲音就該留在你的裝置上。這不該是一個需要你主動開啟的選項, 而應該是預設值。

試試 OnType:適用於 macOS 的裝置端語音輸入, 本地處理永久免費。