OnType 1.0 — あなたの声が、そのままキーボードになる
私たちが OnType の開発を始めたのは 2026 年 1 月 31 日でした。 そこから 81 日、約 900 コミットを経て、バージョン 1.0 を リリースします。これは、カーソルがある場所にそのまま声を 文字として入力できる macOS 向け音声入力ツールです。 アプリ切り替えは不要。待ち時間も最小。標準ではクラウドも不要です。
OnType は単なるディクテーションアプリではありません。 話し方の違う 3 つのモードを持ち、それぞれ特定の場面に合わせて 設計されています。以下で順に紹介します。
Push-to-Talk — 思いついたら、そのまま送る
もっともシンプルなモードです。ホットキー (デフォルトは Fn)を押したまま話し、離すとテキストが すぐにカーソル位置へ入ります。リアルタイムストリーミングなので、 結果を待って別ウィンドウで確認する必要はありません。 認識された言葉が、その場で見えていきます。
その裏側では、レイテンシを削るためのかなり細かな実装をしています。 録音時には、キーを押してから実際に話し始めるまでの約 120ms を自動で トリミングし、ASR エンジンが無音や打鍵ノイズに時間を使わないように しています。結果として、最初の音節がマイクに入った瞬間から 文字起こしが始まる感覚になります。
たとえば Slack で「3時に、いつもの場所で会おう」と一言話すだけで、OnType は Apple Silicon Mac の Neural Engine 上で動く MLX 最適化済み音声認識により、 ローカルで文字起こしします。レイテンシは 200ms 未満。 音声がマシンの外へ出ることはありません。
see you at three same place
Compose — 散らかった話し言葉を、読める文章にする
実際の話し言葉は整理されていません。「えっと」や「あの」が入り、 話しながら言い直し、途中で脱線します。従来のディクテーションは その揺れまで忠実に文字にします。OnType Compose はそうしません。
ホットキーを 1 回タップして録音を開始し、自由に話してください。 フィラー、自己修正、半端な考えのままで構いません。もう一度タップして 終了すると、OnType は生の書き起こしをオンデバイスの リライトエンジンに通し、あなたが本当に伝えたかった内容へ整えます。
実際には次のように使えます。たとえば、こう話したとします。
えっと来週のローンチだけど、まず docs を更新して、そのあと、 あ、テストケースはまだ終わってなくて、いや違う、テストは終わってて、 確認が必要なのは deploy script だった。あとパフォーマンスの最適化も必要で、 あ、でも一番大事なのはクライアント互換性。そこが最優先。docs の更新は 主に API 変更との同期だね。
OnType HUD のテレプロンプターは、その話し言葉をリアルタイムで 可視化します。フィラーには控えめな波線、自己修正には取り消し線、 「いや違う」のような修正コマンドには青いハイライトが付きます。 話しながら、どれだけ生の情報が流れているかが見えます。
um so about the launch next week, first we need to update the docs, and then like the test cases aren't done yet, wait no, tests are done, it's the deploy scripts that need checking. and then performance needs some optimization too, oh right, most importantly client compatibility, that's top priority. uh the docs thing is mainly about syncing the API changes.
そして終了後、AI がそれを実用的な形へ書き直します。
来週のローンチ準備:
1. クライアント互換性テスト(最優先)
2. デプロイスクリプトの確認
3. API 変更に合わせたドキュメント同期
4. パフォーマンス最適化
リライトエンジンが意図を理解する仕組み
この AI は、単にフィラーを削除しているだけではありません。 自己修正を 3 種類に分け、それぞれ異なる処理をしています。
- 明示的な撤回 — 「いや違う」「正しくは」と言った場合、修正シグナルより前の内容を 捨て、修正版だけを残します。
- 反復による上書き — 言い直しながら少しずつ修正した場合、後から出たバージョンを 優先します。
- 文中注釈 — 「ここで言う PI は pie じゃなくて PI のこと」のように補足した場合、 元の語を正しい形に置き換え、補足説明そのものは落とします。
さらに文脈から ASR の誤認識も補正します。音としては近いが意味として おかしい単語、たとえば AI モデルの文脈で出てくる 「refrigeration」のような語は、本来の「intelligence」に 自動で修正されます。ブランド名が似た音の別単語に誤認識された場合も、 文脈が十分なら元に戻します。
利用シーンに応じたリライト
OnType は現在どのアプリを使っているかを検出し、それに合わせて リライト方針を変えます。WeChat の短いメッセージなら、 介入は最小限でフィラー除去と誤り修正だけ。Notion の長文メモなら、 要点が先に来るよう論理的な段落へ再構成します。Linear の会議メモなら、 箇条書きとトピック単位の整理を行います。Claude での AI プロンプトなら、意図を明確にし、文脈と指示を分け、制約を はっきり書いた形へ最適化します。
これは中国語、英語、日本語、韓国語、フランス語、スペイン語、 ドイツ語、イタリア語で動作します。プロンプトはシーン認識付きで、 メール作成中なのか、会議メモなのか、コードコメントなのかを見て、 トーンや構造を調整します。
Translate — 話す言語と書く言語を分ける
いつも考えている言語と、実際に書きたい言語が一致しない場面があります。 OnType Translate なら、ひとつの言語で自然に話し、別の言語で整った テキストを出力できます。
タップして録音を開始し、文を話します。終了時に Shift を押しながら 操作すると、HUD のドットが青くなり、翻訳モードが有効であることを 示します。離すと、翻訳済みの結果がカーソル位置へ入ります。
我想订明天上午到北京的航班,不对,是改签,不是订新的
我想订明天上午到北京的航班,不对,是改签,不是订新的
→ 明日の午前に北京へ向かう便を変更したいです。
速度のために設計した
OnType は低レイテンシに強くこだわっています。ストリーミング HUD には、ASR エンジンが確定と判断した confirmed テキストと、まだ変わる可能性のある provisional テキストが同時に表示されます。 話すにつれて HUD のピルは伸び、なめらかにスクロールしながら常に 最新の語を見せ続けます。静的な「Listening...」表示を見つめるのではなく、 言葉が現れる過程そのものを見られます。
Push-to-Talk モードでは、ホットキーを離してからカーソル位置に テキストが出るまでの遅延は通常 1 秒未満です。Compose モードでも、 AI リライトの全パイプラインを通してなお、エンドツーエンドの遅延は たいてい 2 秒未満に収まります。これは、録音が終わるのを待ってから 一括処理するのではなく、到着した書き起こしチャンクごとに処理する チャンク型ランタイムを使っているからです。
プライバシーを設計段階から組み込む
標準の経路は完全オフラインです。私たちは量子化済み MLX モデルを同梱し、M1 以降の Mac の Neural Engine 上で動かしています。 Whisper クラスの精度を、ハードウェア加速された速度で実現します。 より重いモデルが必要な人や Intel Mac を使う人向けには Cloud Engine も用意していますが、オンデバイス経路は常に存在し、常にプライベートで、 常に即時です。
OnType には独自実装の inverse text normalization(ITN) エンジンも含まれています。「three thousand dollars」は 「$3,000」に変わり、日付・通貨・数値はロケールに合わせて自動整形されます。 「new line」や「colon」のような音声コマンドも、 リアルタイムで実際のキーボード操作へ変換されます。
ここまで来るまで
このプロジェクトは、ひとつの難題に集中した Swift プロトタイプとして始まりました。macOS のあらゆるアプリで、 文字起こししたテキストを確実にカーソル位置へ挿入することです。 私たちは 3 層の挿入パイプライン (Accessibility API、キーボードシミュレーション、 クリップボード fallback)を作り、ブラウザ、ターミナル、 デザインツール、IDE で検証しました。
そこからスコープは広がりました。WebSocket によるリアルタイム ストリーミング。Cloud Engine 向けの複数 ASR プロバイダ(DashScope、Volcengine、OpenAI)。 直接挿入をサポートしないアプリ向けの IME バンドル。 上のインタラクティブデモを含む WebView ベースの設定 UI。 権限付与を案内するオンボーディング。Sparkle による自動更新。 Sentry のエラー収集。テキスト置換のための、独自 Zig 実装有限状態トランスデューサライブラリ。
バージョン 1.0 はゴールではなく土台です。すでに、混在言語音声の より良い処理、より豊かな compose モード、そして開発者が日常的に使う ツールとのより深い連携に取り組んでいます。
価格
OnType は無料でダウンロードできます。新規ユーザーには全員、 Cloud Engine をフル体験できる 14 日間のアクセスが付きます。 その後も、オンデバイス処理は永久に無料です。Cloud Engine の無制限利用、優先サポート、新機能への先行アクセスが必要な場合、 OnType Pro は年額課金で月あたり 8 ドルです。
OnType 1.0 をダウンロード — macOS 15 以降、 Apple Silicon または Intel に対応。