macOS の音声入力完全ガイド
平均的な人のタイピング速度は 1 分あたり約 40 語。話す速度は 130〜150 語ほどです。この差こそが音声入力の存在理由であり、 Mac ユーザーの採用が毎年増えている理由でもあります。
ただし、「Mac で音声入力」と言っても意味するものはさまざまです。 Apple 純正のディクテーションもあれば、サードパーティ製ツールもあります。 クラウドで文字起こしするものも、完全にオンデバイスで処理するものもあり、 全アプリで動くものもあれば、一部のアプリだけで使えるものもあります。 音声をサーバーへ送るものもあれば、すべてローカルで完結するものもあります。
このガイドでは、その全体像を扱います。何が利用可能で、 それぞれがどう動き、どの選択肢が自分の用途に合うのかを整理します。
Apple 標準のディクテーション
すべての Mac には、システム設定 → キーボード → ディクテーションに標準機能があります。有効にしてマイクキー (または Fn を 2 回押し)を使えば、多くのネイティブなテキスト入力欄で 話し始められます。
ただし、制約はすぐに見えてきます。
- アプリ対応が不安定。 ディクテーションは macOS 標準のテキスト入力システムに依存しています。Electron アプリ、 Web ベースのエディタ、多くの開発者向けツールでは、非対応か、 対応していても中途半端なことがよくあります。
- リライトや整形がない。 話したものがそのまま 出ます。フィラーも言い直しも、そのままです。
- クラウド依存。 オンデバイス版の Enhanced Dictation は macOS Ventura で廃止されました。現在の ディクテーションは、標準では音声を Apple のサーバーへ送ります。
- リアルタイムの見返りがない。 話したあとは 結果を待つしかなく、ストリーミングで書き起こしを確認する表示は ありません。
Apple 純正アプリで短いメモを取る程度なら十分です。ただ、それ以上を 求めるとすぐに限界に当たります。
音声入力ツールを見るときの判断軸
サードパーティ製ツールを比較するとき、本当に重要なのは次の観点です。
- どこで使えるか。 システム全体で使えるなら、 Slack、VS Code、ブラウザ、ターミナルなど、普段文字を打つ あらゆる場所で使えます。ツールによっては専用ウィンドウか、 特定アプリでしか動きません。
- 音声をどこで処理するか。 クラウド処理なら、 あなたの声はマシンの外へ出ます。オンデバイス処理なら、すべて ローカルです。これはプライバシー、レイテンシ、オフライン可用性に 直結します。
- レイテンシ。 話してから文字が見えるまでの遅延です。 1 秒未満なら即時に感じられます。2 秒を超えると、思考の流れが 途切れ始めます。
- テキスト整形。 生の文字起こしには、 「あの」「えっと」や途中で切れた文が含まれます。高度なツールは AI リライトで、散らかった話し言葉を読みやすいテキストへ変えます。
- 言語対応。 英語と中国語を文中で切り替えられるか。 CJK の数値、通貨、句読点などの正規化をきちんと扱えるか。
サードパーティ製ツールの分類
クラウド中心のツール
Otter.ai や Wispr Flow のようなサービスは、音声をクラウドサーバーへ送って処理します。 大規模なサーバー側モデルのおかげで高い精度を出しやすい一方、 インターネット接続が必要で、ネットワーク遅延が入り、 音声は第三者の基盤を経由します。
ファイルベースの文字起こし
MacWhisper のようなツールは、録音済み音声の文字起こし向けです。会議、 ポッドキャスト、インタビューの処理には非常に向いていますが、 リアルタイムの音声入力ツールではありません。キーを押しながら話して、 その場でカーソル位置にテキストが出る、という使い方はできません。
オンデバイスのリアルタイム音声入力
これは比較的新しいカテゴリです。OnType は MLX を使い、Mac の Apple Silicon チップ上でローカルに音声認識を実行します。 音声はデバイスの外へ出ません。しかも、現在フォーカスされている アプリに対して、話している最中からリアルタイムでテキストが現れます。 システム全体で使えます。
これまでの弱点は精度でした。オンデバイスモデルはクラウドモデルより かなり劣ることが多かったからです。ただ、その差は急速に縮まっています。 最適化された推論フレームワークにより、Whisper クラスのモデルを Neural Engine 上でハードウェア加速付きで動かせるようになり、 クラウド並みの精度を、ネットワーク遅延ゼロで実現できるようになっています。
音声入力をうまく使うための設定
マイクの選び方
MacBook 内蔵マイクでも最低限は使えます。ただ、外付けマイク (基本的な USB マイクでも十分です)を使うと、背景ノイズが減り、 認識精度が上がります。AirPods や Bluetooth ヘッドホンを使う場合は、録音中に Bluetooth の HFP プロファイルへ切り替わり、音質が落ちる点に注意してください。 Bluetooth 以外の入力デバイスを選ぶと、この問題を避けられます。
自然に話す
最新の音声認識は、不自然にゆっくり、ロボットのように発音する必要は ありません。普段同僚に話すように自然に話すほうがうまくいきます。 良い音声入力ツールは、句読点、数値、書式を自動処理します。 「three thousand dollars」は「$3,000」に変わり、 「new line」は実際の改行になります。
作業に合ったモードを選ぶ
高度なツールは複数の入力モードを持っています。短いメッセージには クイックディクテーション。長文には、AI が話し言葉を整える Compose や Rewrite モード。バイリンガルな作業には翻訳モード。作業に合った モードを選ぶことが、結果を最も早く改善する近道です。
よくある利用シーン
音声入力は「タイピングが遅い人のためのもの」ではありません。 開発者 は、 コードコメント、AI プロンプト、ドキュメントを、思考コンテキストを 切り替えずに入力するために使います。 ライター は、 タイピングの 3 倍近い速度で下書きを進めます。 法務の専門家 は、 クライアントの機密保持要件を満たせるオンデバイス処理を前提に、 案件メモや契約書のドラフトへ使います。さらに、 アクセシビリティ上のニーズがある人にとっては、音声入力がコンピュータとの主要な接点になります。
始めるには
クラウド依存ゼロのオンデバイス音声入力を試したいなら、 OnType をダウンロード してください。Apple Silicon 搭載で macOS 15 以降の Mac なら、オンデバイスエンジンを無料で使えます。 セットアップと最初のディクテーションは、 スタートガイド で確認できます。