2026年4月23日·公司

为什么你的语音数据绝不该离开设备

当你使用云端听写服务时，你的语音会离开电脑。它会穿过互联网到达数据中心，在一台你无法控制的服务器上被处理，然后文字再返回给你。音频本身，也就是你真实的声音，可能会被存储、记录，或者被拿去训练模型。一旦它离开，你根本无法验证后面发生了什么。

这不是假设。大型科技公司已经公开确认，人工审核员会监听语音助手录音，用于质量保障。云端 ASR 提供商通常也会保留音频以改进模型，除非你明确选择退出。即便如此，这些保留策略往往埋在服务条款里，而且条款还可能在没有明显通知的情况下变更。

我们构建 OnType，就是为了让这个问题彻底消失。

语音是一种生物识别数据

你的声音不像短信或搜索查询。它携带生物识别信息，包括你独有的发声模式、情绪状态、口音和语速节奏。它的可识别性远高于纯文本。

当云端听写服务处理你的音频时，它拿到的不只是你说出的词，而是一份可被用于识别、画像和追踪你的生物特征签名。跨多次会话聚合后的语音数据，只会让这份指纹越来越详细。

对普通个人来说，这是隐私问题。对处理客户机密信息的专业人士，比如律师、医生、财务顾问，这还是合规风险。

一旦音频离开设备，你就只能信任服务商的基础设施、员工和政策。即使是最重视安全的公司也会遭遇数据泄露。法院传票可以要求披露已存储的音频。而公司被收购时，你的数据也可能被转交给隐私标准完全不同的新实体。

云端处理引入了不可消除的网络往返。即使在很快的连接上，你也会在处理时间之外额外增加 100 到 300 毫秒延迟。连接更慢、或者挂着 VPN 时，延迟会更糟。更现实的是，只要你离线，比如在飞机上、信号差的地方，或者只是主动断网，云端听写就完全不可用。

设备端处理则彻底消除了网络。OnType 的语音识别运行在 Apple Silicon Mac 的 Neural Engine 上，延迟低于 200 毫秒。无论你是否联网，它的工作方式都完全一样。

运行云端 ASR 很贵。服务商会通过订阅套餐、按分钟计费或用量上限，把这部分成本转嫁给用户。你用得越多，付得越多，而发到他们服务器上的音频也越多。

设备端处理使用的是你已经买下来的硬件。你 Mac 里的 Neural Engine 本来就是为机器学习推理准备的，就等着被用起来。OnType 的设备端引擎永久免费，基础语音输入不设使用上限，也不要求订阅。

OnType 内置了针对 Apple Silicon 优化的量化 MLX 模型。当你按住热键说话时，音频由 Mac 麦克风采集，交给设备端语音识别引擎处理，然后直接作为文字插入光标位置。整个过程中，音频和转写数据都不会离开这台机器。

技术架构其实很直接：音频缓冲区 → Neural Engine 上的 MLX 推理 → 文本规范化 → 光标插入。这条链路里没有网络栈，没有针对语音内容的遥测，也没有一台会被攻破的服务器。

对于想使用最强云模型的用户，比如在极嘈杂环境中工作、或者有专业术语识别需求时，OnType 也提供可选的 Cloud Engine。但默认路径始终是本地、私密、并且离线可用的。

大多数云服务通过政策承诺隐私，比如“我们不会查看你的数据”。这是一种法律承诺，不是技术保证。它可以被修改、被突破，也可能被覆盖。

设备端处理提供的是架构层面的隐私。因为数据从未离开，所以根本不存在可以被攻破的数据副本。因为没有服务器端采集，所以也不存在需要靠政策治理的收集行为。这个保证是结构性的，它不是写在服务条款里的承诺，而是直接由“没有网络路径”这件事强制实现的。

这就是我们为什么这样构建 OnType。不是因为云端处理天然就坏，它在准确率和模型规模上确实有合理优势；而是因为语音过于私人、过于可识别、也过于敏感，不应该被轻易交给你无法控制的基础设施。