macOS 語音輸入完全指南
普通人的打字速度大約是每分鐘 40 個詞,平均說話速度則在 130 到 150 詞之間。這個差距就是語音輸入存在的原因,也是越來越多 Mac 使用者每年開始採用它的原因。
但“Mac 上的語音輸入”其實可能指完全不同的東西。Apple 內建聽寫功能。第三方工具則從雲端轉寫服務,到完全在本地執行的語音引擎都有。 有些工具在所有應用裡都能用,有些只支援特定應用。有些會把你的音訊發到伺服器, 有些則把所有內容都保留在本地。
這篇指南會把這些都講清楚:現在有哪些方案、每種方式是怎麼工作的, 以及你該如何判斷哪一種更適合自己的需求。
Apple 內建聽寫
每臺 Mac 都帶有聽寫功能,位置在“系統設定 → 鍵盤 → 聽寫”。開啟後, 按下麥克風鍵(或雙擊 Fn)就可以開始說話。它在大多數原生文字輸入框裡都能工作。
但它的限制很快就會暴露出來:
- 應用支援並不穩定。 聽寫依賴標準的 macOS 文字輸入系統。Electron 應用、基於 Web 的編輯器,以及很多開發者工具, 要麼根本不支援,要麼只支援一部分。
- 沒有改寫和清理能力。 你說什麼,它就給你什麼, 填充詞、改口、半句廢話都會原樣保留。
- 依賴雲端。 增強型聽寫(本地處理選項)在 macOS Ventura 中被移除了。現在的系統聽寫預設會把音訊送到 Apple 的伺服器。
- 沒有即時回饋。 你是對著空氣說話,然後等結果返回。 中間沒有流式轉寫介面。
如果你只是在 Apple 自家的應用裡快速記幾句話,內建聽寫已經夠用。 但只要需求再複雜一點,它的上限很快就會出現。
挑選語音輸入工具時該看什麼
如果你在評估第三方方案,真正重要的維度是這些:
- 能在哪裡用。 系統級支援意味著你可以在 Slack、 VS Code、瀏覽器、終端機裡直接說話,任何你平時會打字的地方都能用。 有些工具則只能在特定應用或它自己的視窗裡工作。
- 音訊在哪裡處理。 雲端處理意味著你的語音會離開這臺機器。 裝置端處理則把所有內容都留在本地。這會直接影響隱私、延遲和離線可用性。
- 延遲。 從你開口到看到文字出現之間的時間差。 低於 1 秒會感覺是即時的。超過 2 秒就會打斷思路。
- 文字清理能力。 原始轉寫會包含所有 "um" 和沒說完的半句話。更高階的工具會提供 AI 改寫,把凌亂口語整理成乾淨文字。
- 語言支援。 你能不能在一句話中途在英文和中文之間切換? CJK 文字規範化是否正確處理數字、貨幣和標點?
第三方工具版圖
以雲端為主的工具
像 Otter.ai 和 Wispr Flow 這樣的服務,會把音訊送到雲端伺服器處理。由於伺服器側模型更大, 它們通常能提供很高的準確率,但也要求你保持聯網、引入網路延遲, 並且把音訊交給第三方基礎設施。
基於檔案的轉寫工具
像 MacWhisper 這樣的工具,主要用於轉寫已經錄好的音訊,比如會議、Podcast、採訪。 它們在這個場景下非常強,但它們不是即時語音輸入工具。 你不能按住一個鍵說話,然後讓文字直接出現在游標位置。
裝置端、即時語音輸入
這是最新的一類。OnType 透過 MLX 在你的 Mac Apple Silicon 晶片上本地執行語音識別。音訊不會離開裝置。 無論目前焦點在哪個應用裡,文字都會在你說話時即時出現,而且是系統級可用。
這類方案過去的歷史問題是準確率:裝置端模型通常明顯弱於雲端模型。 但這個差距已經大幅縮小。經過最佳化的推理框架現在可以在 Neural Engine 上以硬體加速速度執行 Whisper 級別的模型, 在零網路延遲的前提下提供接近雲服務的準確率。
如何把語音輸入調到最好用
麥克風選擇
MacBook 內建麥克風勉強夠用。外接麥克風,即使只是一個基礎 USB 麥克風,也能減少背景噪音、提升識別準確率。如果你使用 AirPods 或藍芽耳機,要注意藍芽的 HFP 設定會在錄音時切換到較低品質的編碼。 改用非藍芽輸入裝置可以避開這個問題。
自然說話
現代語音識別最適合自然語速和自然表達。你不需要像機器人一樣逐字吐詞, 也不用刻意放慢。就像跟同事說話那樣就行。好的語音輸入工具會自動處理標點、 數字和格式,比如 "three thousand dollars" 會變成 "$3,000", 而 "new line" 會直接插入真正的換行。
讓模式匹配任務
更高階的工具通常會提供多種輸入模式。短訊息適合快速聽寫, 長文字適合 Compose 或改寫模式,讓 AI 幫你整理口語; 雙語工作流則適合翻譯模式。讓模式和任務對上號, 是最快提升結果品質的辦法。
常見使用場景
語音輸入並不只適合打字慢的人。 開發者會用它來口述程式碼註釋、AI prompt 和文件,而不用切換思維上下文。 寫作者可以以 3 倍於打字的速度起草內容。 法律從業者會用它記錄案件筆記、起草合約,而裝置端處理可以滿足客戶保密要求。對於有 無障礙需求的使用者來說,語音輸入甚至是他們與電腦互動的主要方式。
開始使用
如果你想試試零雲端依賴的裝置端語音輸入,可以下載 OnType。在任何執行 macOS 15 或更高版本的 Apple Silicon Mac 上,裝置端引擎都是免費的。我們的 快速上手指南會帶你完成安裝和第一次聽寫。