为什么你的语音数据绝不该离开设备
当你使用云端听写服务时,你的语音会离开电脑。它会穿过互联网到达数据中心, 在一台你无法控制的服务器上被处理,然后文字再返回给你。音频本身, 也就是你真实的声音,可能会被存储、记录,或者被拿去训练模型。 一旦它离开,你根本无法验证后面发生了什么。
这不是假设。大型科技公司已经公开确认,人工审核员会监听语音助手录音, 用于质量保障。云端 ASR 提供商通常也会保留音频以改进模型,除非你明确选择退出。 即便如此,这些保留策略往往埋在服务条款里,而且条款还可能在没有明显通知的情况下变更。
我们构建 OnType,就是为了让这个问题彻底消失。
语音是一种生物识别数据
你的声音不像短信或搜索查询。它携带生物识别信息,包括你独有的发声模式、 情绪状态、口音和语速节奏。它的可识别性远高于纯文本。
当云端听写服务处理你的音频时,它拿到的不只是你说出的词, 而是一份可被用于识别、画像和追踪你的生物特征签名。 跨多次会话聚合后的语音数据,只会让这份指纹越来越详细。
对普通个人来说,这是隐私问题。对处理客户机密信息的专业人士, 比如律师、医生、财务顾问,这还是合规风险。
云端处理的三个问题
1. 你失去了对数据的控制权
一旦音频离开设备,你就只能信任服务商的基础设施、员工和政策。 即使是最重视安全的公司也会遭遇数据泄露。法院传票可以要求披露已存储的音频。 而公司被收购时,你的数据也可能被转交给隐私标准完全不同的新实体。
2. 延迟是物理现实
云端处理引入了不可消除的网络往返。即使在很快的连接上, 你也会在处理时间之外额外增加 100 到 300 毫秒延迟。 连接更慢、或者挂着 VPN 时,延迟会更糟。更现实的是,只要你离线, 比如在飞机上、信号差的地方,或者只是主动断网,云端听写就完全不可用。
设备端处理则彻底消除了网络。OnType 的语音识别运行在 Apple Silicon Mac 的 Neural Engine 上,延迟低于 200 毫秒。无论你是否联网, 它的工作方式都完全一样。
3. 你在为别人的算力持续买单
运行云端 ASR 很贵。服务商会通过订阅套餐、按分钟计费或用量上限, 把这部分成本转嫁给用户。你用得越多,付得越多,而发到他们服务器上的音频也越多。
设备端处理使用的是你已经买下来的硬件。你 Mac 里的 Neural Engine 本来就是为机器学习推理准备的,就等着被用起来。OnType 的设备端引擎永久免费,基础语音输入不设使用上限,也不要求订阅。
OnType 如何把一切都留在本地
OnType 内置了针对 Apple Silicon 优化的量化 MLX 模型。 当你按住热键说话时,音频由 Mac 麦克风采集,交给设备端语音识别引擎处理, 然后直接作为文字插入光标位置。整个过程中,音频和转写数据都不会离开这台机器。
技术架构其实很直接:音频缓冲区 → Neural Engine 上的 MLX 推理 → 文本规范化 → 光标插入。这条链路里没有网络栈,没有针对语音内容的遥测, 也没有一台会被攻破的服务器。
对于想使用最强云模型的用户,比如在极嘈杂环境中工作、 或者有专业术语识别需求时,OnType 也提供可选的 Cloud Engine。 但默认路径始终是本地、私密、并且离线可用的。
把隐私做成架构,而不是政策
大多数云服务通过政策承诺隐私,比如“我们不会查看你的数据”。 这是一种法律承诺,不是技术保证。它可以被修改、被突破,也可能被覆盖。
设备端处理提供的是架构层面的隐私。因为数据从未离开, 所以根本不存在可以被攻破的数据副本。因为没有服务器端采集, 所以也不存在需要靠政策治理的收集行为。这个保证是结构性的, 它不是写在服务条款里的承诺,而是直接由“没有网络路径”这件事强制实现的。
这就是我们为什么这样构建 OnType。不是因为云端处理天然就坏, 它在准确率和模型规模上确实有合理优势;而是因为语音过于私人、 过于可识别、也过于敏感,不应该被轻易交给你无法控制的基础设施。
你的声音就该留在你的设备上。这不该是一个需要你主动开启的选项, 而应该是默认值。
试试 OnType:面向 macOS 的设备端语音输入, 本地处理永久免费。