macOS 语音输入完全指南
普通人的打字速度大约是每分钟 40 个词,平均说话速度则在 130 到 150 词之间。这个差距就是语音输入存在的原因,也是越来越多 Mac 用户每年开始采用它的原因。
但“Mac 上的语音输入”其实可能指完全不同的东西。Apple 自带听写功能。第三方工具则从云端转写服务,到完全在本地运行的语音引擎都有。 有些工具在所有应用里都能用,有些只支持特定应用。有些会把你的音频发到服务器, 有些则把所有内容都保留在本地。
这篇指南会把这些都讲清楚:现在有哪些方案、每种方式是怎么工作的, 以及你该如何判断哪一种更适合自己的需求。
Apple 自带听写
每台 Mac 都带有听写功能,位置在“系统设置 → 键盘 → 听写”。打开后, 按下麦克风键(或双击 Fn)就可以开始说话。它在大多数原生文本输入框里都能工作。
但它的限制很快就会暴露出来:
- 应用支持并不稳定。 听写依赖标准的 macOS 文本输入系统。Electron 应用、基于 Web 的编辑器,以及很多开发者工具, 要么根本不支持,要么只支持一部分。
- 没有改写和清理能力。 你说什么,它就给你什么, 填充词、改口、半句废话都会原样保留。
- 依赖云端。 增强型听写(本地处理选项)在 macOS Ventura 中被移除了。现在的系统听写默认会把音频发送到 Apple 的服务器。
- 没有实时反馈。 你是对着空气说话,然后等结果返回。 中间没有流式转写界面。
如果你只是在 Apple 自家的应用里快速记几句话,自带听写已经够用。 但只要需求再复杂一点,它的上限很快就会出现。
挑选语音输入工具时该看什么
如果你在评估第三方方案,真正重要的维度是这些:
- 能在哪里用。 系统级支持意味着你可以在 Slack、 VS Code、浏览器、终端里直接说话,任何你平时会打字的地方都能用。 有些工具则只能在特定应用或它自己的窗口里工作。
- 音频在哪里处理。 云端处理意味着你的语音会离开这台机器。 设备端处理则把所有内容都留在本地。这会直接影响隐私、延迟和离线可用性。
- 延迟。 从你开口到看到文字出现之间的时间差。 低于 1 秒会感觉是即时的。超过 2 秒就会打断思路。
- 文本清理能力。 原始转写会包含所有 "um" 和没说完的半句话。更高级的工具会提供 AI 改写,把凌乱口语整理成干净文本。
- 语言支持。 你能不能在一句话中途在英文和中文之间切换? CJK 文本规范化是否正确处理数字、货币和标点?
第三方工具版图
以云端为主的工具
像 Otter.ai 和 Wispr Flow 这样的服务,会把音频发送到云端服务器处理。由于服务器侧模型更大, 它们通常能提供很高的准确率,但也要求你保持联网、引入网络延迟, 并且把音频交给第三方基础设施。
基于文件的转写工具
像 MacWhisper 这样的工具,主要用于转写已经录好的音频,比如会议、播客、采访。 它们在这个场景下非常强,但它们不是实时语音输入工具。 你不能按住一个键说话,然后让文字直接出现在光标位置。
设备端、实时语音输入
这是最新的一类。OnType 通过 MLX 在你的 Mac Apple Silicon 芯片上本地运行语音识别。音频不会离开设备。 无论当前焦点在哪个应用里,文字都会在你说话时实时出现,而且是系统级可用。
这类方案过去的历史问题是准确率:设备端模型通常明显弱于云端模型。 但这个差距已经大幅缩小。经过优化的推理框架现在可以在 Neural Engine 上以硬件加速速度运行 Whisper 级别的模型, 在零网络延迟的前提下提供接近云服务的准确率。
如何把语音输入调到最好用
麦克风选择
MacBook 自带麦克风勉强够用。外接麦克风,即使只是一个基础 USB 麦克风,也能减少背景噪音、提升识别准确率。如果你使用 AirPods 或蓝牙耳机,要注意蓝牙的 HFP 配置会在录音时切换到较低质量的编码。 改用非蓝牙输入设备可以避开这个问题。
自然说话
现代语音识别最适合自然语速和自然表达。你不需要像机器人一样逐字吐词, 也不用刻意放慢。就像跟同事说话那样就行。好的语音输入工具会自动处理标点、 数字和格式,比如 "three thousand dollars" 会变成 "$3,000", 而 "new line" 会直接插入真正的换行。
让模式匹配任务
更高级的工具通常会提供多种输入模式。短消息适合快速听写, 长文本适合 Compose 或改写模式,让 AI 帮你整理口语; 双语工作流则适合翻译模式。让模式和任务对上号, 是最快提升结果质量的办法。
常见使用场景
语音输入并不只适合打字慢的人。 开发者会用它来口述代码注释、AI prompt 和文档,而不用切换思维上下文。 写作者可以以 3 倍于打字的速度起草内容。 法律从业者会用它记录案件笔记、起草合同,而设备端处理可以满足客户保密要求。对于有 无障碍需求的用户来说,语音输入甚至是他们与电脑交互的主要方式。
开始使用
如果你想试试零云端依赖的设备端语音输入,可以下载 OnType。在任何运行 macOS 15 或更高版本的 Apple Silicon Mac 上,设备端引擎都是免费的。我们的 快速上手指南会带你完成安装和第一次听写。