Saisie vocale sur macOS : le guide complet
Une personne moyenne tape environ 40 mots par minute. Elle parle en moyenne entre 130 et 150. Cet écart explique pourquoi la saisie vocale existe — et pourquoi de plus en plus d'utilisateurs Mac l'adoptent chaque année.
Mais "saisie vocale sur Mac" peut désigner des choses très différentes. Apple fournit sa propre dictée. Les outils tiers vont des services de transcription cloud à des moteurs vocaux entièrement locaux. Certains fonctionnent dans toutes les applications, d'autres seulement dans des apps spécifiques. Certains envoient votre audio vers des serveurs, d'autres gardent tout en local.
Ce guide couvre l'ensemble — ce qui existe, comment chaque approche fonctionne et comment décider laquelle correspond à vos besoins.
La dictée intégrée d'Apple
Chaque Mac dispose d'une fonction de dictée dans Réglages Système → Clavier → Dictée. Activez-la, appuyez sur la touche microphone (ou double-cliquez sur Fn), puis commencez à parler. Elle fonctionne dans la plupart des champs de texte natifs.
Les limites apparaissent vite :
- Prise en charge des apps irrégulière. La dictée repose sur le système standard de saisie de texte de macOS. Les apps Electron, les éditeurs web et beaucoup d'outils pour développeurs ne la prennent pas en charge, ou seulement partiellement.
- Aucune réécriture ni nettoyage. Ce que vous dites est ce que vous obtenez — avec les hésitations, les faux départs et tout le reste.
- Dépendance au cloud. Enhanced Dictation (l'option sur l'appareil) a été supprimée dans macOS Ventura. La dictée actuelle envoie l'audio vers les serveurs d'Apple par défaut.
- Pas de retour en temps réel. Vous parlez dans le vide et attendez le résultat. Il n'y a pas d'affichage de transcription en streaming.
Pour des notes rapides dans les apps Apple, la dictée intégrée fait l'affaire. Pour quelque chose de plus exigeant, vous en atteindrez vite les limites.
Ce qu'il faut regarder dans un outil de saisie vocale
Si vous évaluez des options tierces, ce sont les dimensions qui comptent réellement :
- Où cela fonctionne. La prise en charge à l'échelle du système signifie que vous pouvez dicter dans Slack, VS Code, votre navigateur, un terminal — partout où vous tapez normalement. Certains outils ne fonctionnent que dans des apps spécifiques ou dans leur propre fenêtre.
- Où l'audio est traité. Le traitement cloud signifie que votre voix quitte votre machine. Le traitement sur l'appareil garde tout en local. Cela affecte la confidentialité, la latence et la disponibilité hors ligne.
- Latence. Le délai entre le moment où vous parlez et celui où vous voyez le texte. En dessous d'une seconde, cela paraît instantané. Au-delà de deux secondes, vous perdez le fil.
- Nettoyage du texte. Une transcription brute inclut chaque "euh" et chaque phrase inachevée. Les outils avancés proposent une réécriture IA qui transforme une parole brouillonne en texte propre.
- Prise en charge des langues. Pouvez-vous passer de l'anglais au chinois au milieu d'une phrase ? La normalisation du texte CJK est-elle bien gérée — nombres, devises, ponctuation ?
Le paysage des outils tiers
Les outils orientés cloud
Des services comme Otter.ai et Wispr Flow envoient l'audio vers des serveurs cloud pour le traitement. Ils offrent souvent une précision élevée grâce à de gros modèles côté serveur, mais exigent une connexion internet, ajoutent de la latence réseau et font passer votre audio par une infrastructure tierce.
La transcription basée sur des fichiers
Des outils comme MacWhisper sont conçus pour transcrire de l'audio enregistré — réunions, podcasts, entretiens. Ils excellent dans ce rôle, mais ce ne sont pas des outils de saisie vocale en temps réel. Vous ne pouvez pas maintenir une touche, parler et voir le texte apparaître à votre curseur.
La saisie vocale locale en temps réel
C'est la catégorie la plus récente. OnType exécute la reconnaissance vocale localement sur la puce Apple Silicon de votre Mac via MLX. L'audio ne quitte jamais l'appareil. Le texte apparaît en temps réel pendant que vous parlez, dans l'application qui a le focus — à l'échelle du système.
Le compromis historique concernait la précision — les modèles locaux étaient auparavant sensiblement moins performants que les modèles cloud. Cet écart s'est considérablement réduit. Les frameworks d'inférence optimisés exécutent désormais des modèles de niveau Whisper sur le Neural Engine à des vitesses accélérées par le matériel, avec une précision rivalisant avec les services cloud, sans latence réseau.
Configurer la saisie vocale pour de meilleurs résultats
Choix du microphone
Le microphone intégré du MacBook est correct. Un microphone externe — même un simple modèle USB — réduit le bruit de fond et améliore la précision de reconnaissance. Si vous utilisez des AirPods ou un casque Bluetooth, notez que le profil HFP de Bluetooth bascule l'audio vers un codec de qualité inférieure pendant l'enregistrement. Choisir un périphérique d'entrée non Bluetooth évite cela.
Parole naturelle
La reconnaissance vocale moderne fonctionne mieux avec une parole naturelle. Vous n'avez pas besoin d'articuler comme un robot ni de ralentir. Parlez comme vous le feriez avec un collègue. Les bons outils de saisie vocale gèrent automatiquement la ponctuation, les nombres et le formatage — "trois mille dollars" devient "3 000 $", et "nouvelle ligne" insère un véritable retour à la ligne.
Adapter le mode à la tâche
Les outils avancés proposent plusieurs modes de saisie. Dictée rapide pour les messages courts. Mode Compose ou réécriture pour les contenus longs où l'IA nettoie votre parole. Mode traduction pour les flux de travail bilingues. Associer le bon mode à la bonne tâche est la façon la plus rapide d'améliorer vos résultats.
Cas d'usage courants
La saisie vocale ne s'adresse pas uniquement aux personnes qui ne tapent pas vite. Les développeurs l'utilisent pour dicter des commentaires de code, des prompts IA et de la documentation sans changer de contexte mental. Les auteurs rédigent à une vitesse trois fois supérieure à leur frappe. Les juristes l'utilisent pour les notes de dossier et la rédaction de contrats, là où le traitement local répond aux exigences de confidentialité client. Et pour les utilisateurs ayant des besoins d'accessibilité, la saisie vocale est le moyen principal d'interagir avec leur ordinateur.
Bien démarrer
Si vous voulez essayer la saisie vocale locale sans dépendance au cloud, téléchargez OnType. L'utilisation avec le moteur local est gratuite sur tout Mac Apple Silicon exécutant macOS 15 ou une version ultérieure. Notre guide de démarrage vous accompagne pour l'installation et votre première dictée.