Dictado por voz con IA en Mac: cómo funciona de verdad

Miras el cursor parpadeando en un correo en blanco. Sabes lo que quieres decir. Solo que no te apetece teclearlo.

El dictado en Mac existe desde 2012 y la mayoría de la gente lo dio por perdido hace años. Lo que ha cambiado en los últimos 18 meses es el dictado por voz con IA en Mac. La vieja experiencia de "hablar al micrófono y ver aparecer un muro de erratas" ha sido sustituida sin hacer ruido por algo que se parece de verdad a escribir.

Esta es la parte que casi ningún artículo cuenta. La transcripción ya no es lo difícil, ese problema está resuelto. Lo que ha cambiado es la capa que viene después: la que coge tus pensamientos sueltos y los convierte en texto limpio antes de que lleguen a la pantalla. Este artículo recorre el proceso completo, paso a paso, para que veas qué hace tu Mac entre el momento en que empiezas a hablar y el momento en que aparece texto pulido en tu borrador.

Por qué el dictado en Mac por fin se siente usable

Dos cifras explican por qué la gente está volviendo al dictado. Una persona escribe a teclado unas 40 palabras por minuto de media. Hablando, ronda las 150. Es decir, cuatro palabras dichas en el tiempo que cuesta teclear una.

Pero el problema nunca fue la velocidad. El problema era el resultado. El dictado antiguo te devolvía una transcripción literal de cada "eh", cada empezar otra vez, cada "espera, no, quita eso". Ahorrabas 30 segundos dictando y perdías 90 limpiándolo.

Las apps modernas de dictado con IA arreglaron esto añadiendo un segundo paso. La voz pasa por transcripción, como antes. Después se la pasa a un modelo de lenguaje que la reescribe como lo haría un buen editor. Fuera muletillas. Gramática corregida. Frases terminadas. Cuando el texto aparece en pantalla, lee como algo que habrías escrito en un buen día.

Los cinco pasos detrás del dictado por voz con IA en Mac

El proceso es corto. Cinco pasos, la mayoría invisibles: 1. Captura, donde tu Mac recoge tu voz. 2. Transcripción, donde el audio se convierte en texto bruto. 3. Pulido, donde un modelo de IA limpia ese texto bruto. 4. Aplicar contexto, donde el estilo de escritura se adapta al sitio al que va el texto. 5. Entrega, donde el texto pulido aterriza en tu cursor.

Cada paso tiene su propio modelo, sus propias concesiones y sus propios puntos en los que puede fallar. Merece la pena verlos de uno en uno.

Paso 1: Captura, cómo tu Mac recoge tu voz

Esta parte no tiene mucho misterio. Pulsas un atajo (FN, Option+Space o el que use la app) y el micrófono empieza a escuchar. La app graba el audio en memoria, normalmente a 16 bits y 16 kHz, el formato que espera el modelo de transcripción.

La mayoría de apps modernas de dictado para Mac no usan detección de actividad de voz para iniciar y parar. Usan el atajo. Mantienes pulsado para hablar, sueltas para parar. El motivo es la fiabilidad. La detección de voz con el micro abierto en una cafetería es una lotería. Una tecla no.

Durante la captura pasan algunas cosas que no ves. El audio se almacena en un búfer, a menudo se le aplica supresión de ruido usando el framework de audio integrado de Apple, y se divide en fragmentos. Si hablas más tiempo que la duración del fragmento, normalmente 30 segundos, la app puede partir la grabación antes de mandarla al siguiente paso.

Paso 2: Transcripción, cómo Whisper convierte el sonido en palabras

Aquí es donde la mayoría de apps de dictado con IA para Mac coinciden en una misma tecnología: el modelo Whisper de OpenAI. Whisper es un sistema de reconocimiento de voz entrenado con unas 5 millones de horas de audio en 99 idiomas. La versión actual, large-v3, ronda un 2,7 % de tasa de error por palabra en audio en inglés limpio y entre un 8 y un 12 % en grabaciones reales con ruido.

En cristiano: habla con naturalidad y se transcribirán bien entre el 92 y el 97 % de las palabras de salida. Es una categoría de precisión muy distinta a la del motor de dictado original de Apple, y por eso despegaron las apps de terceros.

Esto es, a grandes rasgos, lo que Whisper le hace a tu audio: - Trocea la grabación en fragmentos de 30 segundos. - Convierte cada fragmento en un espectrograma, una representación visual del sonido por frecuencias y tiempo. - Mete el espectrograma en una red neuronal que ha aprendido a asociar patrones de audio con palabras. - Predice también el idioma, la puntuación y dónde terminan las frases.

El modelo puede ejecutarse localmente en tu Mac (Apple Silicon lo lleva sin problema) o en la nube. Local es privado y funciona sin conexión. En la nube es más rápido en hardware antiguo y permite modelos más grandes. Muchas apps te dejan elegir.

Lo que obtienes al final de este paso es una transcripción en bruto. Con signos de puntuación, bastante acertada, a menudo un poco desordenada. Aquí es donde se detiene el dictado integrado de Apple. Las apps interesantes no se quedan ahí.

Paso 3: Pulido, la capa que lo cambió todo

Este es el paso que llevó el dictado en Mac de "más o menos útil" a "llevo semanas sin escribir un correo a mano".

Después de la transcripción, el texto en bruto se envía a un modelo de lenguaje, normalmente de la categoría de GPT-4 o Claude, con una instrucción del tipo: ``` Reescribe esto como texto pulido y profesional. Elimina muletillas y arranques en falso. Mantén el sentido. No añadas nada. ```

Esto es lo que pasa en la práctica.

Lo que dijiste

*"Vale, eh, quería hacer un seguimiento de, eh, la propuesta de la semana pasada. Creo que, no sé, deberíamos tirar por la opción dos. Sí, la opción dos. ¿Me puedes, me puedes mandar el contrato para el viernes?"*

Lo que llega a tu portapapeles

*"Siguiendo con la propuesta de la semana pasada, me gustaría tirar adelante con la opción dos. ¿Podrías enviarme el contrato antes del viernes?"*

Mismo sentido. Otra lectura completamente distinta. Y todo ocurrió en menos de dos segundos.

Ilustración de antes y después que muestra a la izquierda un texto hablado lleno de muletillas y a la derecha el mismo texto convertido en una versión limpia y pulida

Esta es la parte difícil de explicar hasta que la pruebas. Dejas de pensar en cómo suenas. Dejas de autoeditarte mientras hablas. Simplemente dices lo que quieres decir, como se lo dirías a un compañero, y lo que sale es la versión que habrías escrito tú si hubieras tenido tiempo.

Si ya estás dictando pero pierdes tiempo limpiando el resultado, este es justo el hueco que cubre Voicr. Mantienes FN pulsado, hablas como te dé la gana y lo que aterriza en el portapapeles ya está pulido. Sin una segunda pasada, sin ese "tengo que arreglar esa frase", solo texto limpio listo para pegar.

Paso 4: Conciencia del contexto, distintos estilos para distintas apps

Este paso es más reciente. Y es también lo que separa a las mejores apps de dictado para Mac de las que se quedan en correctas.

Un tono formal y educado es lo correcto para un correo a un cliente. Queda raro en un mensaje de Slack a un compañero. No pega en un comentario de código. Una buena app de dictado detecta en qué aplicación estás y se ajusta.

El mecanismo es sencillo. La app mira qué aplicación tiene el foco. Busca la regla de estilo que has guardado para esa app. Y mete esa regla dentro del prompt que se envía al modelo de pulido.

Una regla para Slack podría decir: ``` Mantén un tono informal y breve. Nada de jerga corporativa. Usa contracciones. Una o dos frases cortas como mucho. ``` Una regla para el correo podría decir: ``` Escribe en un tono profesional. Frases completas. Añade un saludo y una despedida si el contenido lo justifica. ```

La misma entrada de voz. Dos salidas muy distintas según qué ventana esté abierta. Tú no cambias nada. Solo hablas y sale el tono adecuado.

Paso 5: Entrega, cómo el texto aterriza donde lo necesitas

El último paso es el que más ha costado afinar. Tienes el texto pulido. ¿Cómo llega ahora al campo de texto que tienes activo?

Hay dos enfoques habituales: 1. Vía portapapeles. La app copia el texto pulido al portapapeles y luego dispara un comando de pegar (Cmd+V) a través de las APIs de Accesibilidad de macOS. Rápido, fiable y funciona en casi cualquier app. 2. Inyección de pulsaciones. La app simula que escribe cada carácter uno a uno, usando una herramienta como AppleScript o el mismo framework de Accesibilidad. Más lento, pero funciona en apps que bloquean el pegado (algunas webs de banca, ciertos escritorios remotos, gestores de contraseñas).

La mayoría de apps van por defecto al pegado por portapapeles y recurren a la inyección de pulsaciones solo cuando hace falta. El resultado, desde tu lado: el texto aparece en el cursor medio segundo después de soltar el atajo. Sin cambiar de app, sin paso de copiar, sin revisar nada.

Diagrama del proceso de cinco pasos que muestra captura, transcripción, pulido, aplicar contexto y entrega como círculos conectados

Procesamiento local o en la nube: qué está pasando de verdad

Una pregunta que sale mucho: ¿a dónde va mi voz?

Hay dos opciones reales. Procesamiento local ejecuta el modelo Whisper en tu Mac. Tu audio no sale del dispositivo. En Apple Silicon (a partir del M1), Whisper local va lo bastante rápido para dictar en tiempo real, normalmente con menos de un segundo de latencia. La pega: el paso de pulido suele seguir yendo a un modelo en la nube, porque ejecutar localmente un modelo de lenguaje de 70.000 millones de parámetros no es realista para la mayoría de portátiles. Algunas apps ofrecen un modo totalmente local con un modelo de pulido más pequeño, a costa de algo de calidad.

Procesamiento en la nube envía tanto el audio como el paso de pulido a una API remota. Más rápido en Macs antiguos, admite los modelos más grandes y precisos. La pega es la privacidad. Tu voz sale del dispositivo, aunque se borre inmediatamente después de la transcripción.

Para la mayoría de la gente, "Whisper local, pulido en la nube" es la mejor opción por defecto. Para quien trabaja con material sensible (notas médicas, borradores legales, datos internos de empresa), totalmente local compensa esa pequeña pérdida de calidad. Una buena app te deja elegir por grabación o fijar un valor por defecto.

En qué sigue tropezando el dictado con IA

Hablemos claro. El proceso es bueno. No es perfecto.

Los homófonos todavía fallan. "Hay", "ahí" y "ay" se aciertan la mayoría de las veces, pero no siempre. El paso de pulido suele detectarlos por contexto, pero no si la frase de alrededor es ambigua.

Los nombres propios y la jerga van a salto de mata. Whisper ha visto la mayoría de nombres comunes y términos técnicos, pero se atragantará con cualquier cosa muy especializada. Nombres de fármacos, nombres de librerías de código, el apellido raro de tu compañera. Algunas apps te dejan añadir un diccionario personalizado que se acopla al prompt.

Los entornos ruidosos bajan la precisión rápido. Whisper aguanta sorprendentemente bien el ruido de cafetería, pero un teléfono sonando a medio metro o alguien hablando al lado se acabará comiendo palabras de tu transcripción.

Los monólogos largos se desvían. El modelo brilla en ráfagas de 10 a 30 segundos. Pasados unos 90 segundos, a veces pierde el hilo, repite fragmentos o se salta frases cortas. La solución es parar y reanudar la grabación por trozos.

Estos límites importan cuando estás empezando. Ninguno es un motivo para descartarlo si sabes que existen. Si estás eligiendo entre opciones, nuestra guía de las mejores apps de voz a texto para Mac repasa cómo manejan estas concesiones las apps principales.

Cómo empezar a usar hoy el dictado por voz con IA en tu Mac

Tres pasos prácticos, por orden.

1. Elige una tarea para dictar cada día durante una semana. El correo es un buen punto de partida; es donde mayor ratio de conversión tecleo-a-voz hay (de todos modos sueles pensar antes de escribir). No intentes dictarlo todo de golpe. Lo dejarás.

2. Acostúmbrate a hablar solo. Las primeras veces que dictes te dará cosa hablar en voz alta en una habitación en silencio. Se pasa en unos cuatro días.

3. Elige una app y comprométete. Hay buenas opciones en todos los rangos de precio, desde el dictado integrado de Apple hasta herramientas de Whisper de código abierto y apps con el proceso completo. Si lo que buscas es el flujo pulido de transcribir-y-pegar que se describe arriba, Voicr hace justo eso. Mantienes FN, hablas, pegas. Whisper para la transcripción, un modelo de lenguaje potente para el pulido y estilos de escritura por app que se adaptan al sitio donde tengas el cursor. El plan gratuito te da 5.000 palabras al mes sin tarjeta de crédito.

El proceso detrás de todo esto por fin es lo bastante bueno como para que el dictado deje de ser un apaño. Ya no cambias calidad por velocidad. Tienes las dos cosas. Lo difícil es solo decidir dejar de teclear.