Cómo los LLM hacen que la voz a texto sea de verdad útil

Seguramente probaste la voz a texto una vez, te rendiste y volviste al teclado. Le pasó a casi todo el mundo. Lo curioso es que normalmente no tenía nada que ver con que las palabras salieran mal.

El reconocimiento de voz alcanzó la precisión hace años. Los modelos modernos transcriben el habla limpia con cerca del 95 % de acierto. La razón por la que dictar seguía pareciendo inútil es que una transcripción exacta de cómo hablas de verdad es un desastre. Los grandes modelos de lenguaje son la pieza que arregló eso, y cambiaron para qué sirve la voz a texto.

Durante casi toda su historia, la voz a texto se juzgó por una sola cosa: ¿acertó las palabras? Resultó ser la pregunta equivocada. Acertar las palabras nunca fue lo que se interponía entre tú y escribir con la voz. Esto es lo que de verdad cambió.

La voz a texto nunca fue un problema de transcripción

Durante décadas, todos los equipos de reconocimiento de voz persiguieron el mismo número: la tasa de error por palabra, o WER. Cuenta cuántas palabras acierta mal el sistema. Cuanto más baja, mejor, y todo el campo se optimizó para eso.

En su mayoría lo lograron. Whisper, de OpenAI, transcribe audio limpio con una tasa de error de palabra de aproximadamente el 2,7 %. En grabaciones reales más caóticas, como una reunión, una cafetería o una llamada de teléfono, se acerca más al 8 al 12 %. Los transcriptores humanos rondan el 4 al 6 %. La diferencia es pequeña y sigue reduciéndose.

Así que la precisión quedó resuelta, más o menos. Pero pregúntale a cualquiera que dejó de dictar en 2018 por qué lo dejó y casi nadie dice "demasiadas erratas". Dicen que resultaba engorroso, o que el resultado necesitaba tanta limpieza que no merecía la pena.

Esa es la pista. El cuello de botella nunca fue la transcripción. Era todo lo que pasa después de que las palabras ya están correctas.

Cómo es una transcripción en bruto de tu habla

Esto es lo que nadie te advierte: no hablas con frases limpias. Nadie lo hace.

Cuando hablas de forma natural, retrocedes, empiezas de nuevo, dejas frases a medias y sueltas "eh", "o sea" y "sabes". Tu cerebro edita todo eso sobre la marcha y ni te das cuenta. Un motor de transcripción se da cuenta de todo y lo escribe absolutamente todo.

Pongamos que dictas un mensaje rápido a un compañero. De un transcriptor puro, vuelve con esta pinta:

*"vale eh quería preguntarte por lo lo de ayer, el informe, me lo puedes eh mandar cuando tengas un momento, sin prisa ni nada"*

Todas las palabras están bien. Y a la vez es inservible. Tardarías más en arreglar eso de lo que ahorraste al decirlo. Este es el momento exacto en el que la mayoría de la gente abandonó el dictado para siempre.

Comparación lado a lado de una transcripción de voz en bruto llena de muletillas a la izquierda y un mensaje limpio y pulido a la derecha

Lo que de verdad aportan los grandes modelos de lenguaje

Un transcriptor responde a una pregunta: ¿qué sonidos hizo esta persona? Un modelo de lenguaje responde a otra distinta: ¿qué quiso decir esta persona y cómo debería leerse?

Esa segunda pregunta lo es todo. Un LLM toma la transcripción caótica y la reescribe como lo haría un editor cuidadoso. Quita las muletillas, termina tus frases a medias, corrige la gramática y conserva intacto tu significado. El mensaje de arriba se convierte en:

*"Hola, ¿me puedes mandar el informe de ayer cuando tengas un momento? Sin prisa."*

Misma intención, legible a la primera. La transcripción no mejoró en nada aquí. Lo que cambió es la segunda capa que se asienta encima, haciendo la edición que de otro modo harías tú.

Esto es más que un truco de producto. Los investigadores lo están estudiando directamente. Un artículo de 2024 de la conferencia ACM CHI llamado Rambler descubrió que dejar que la gente hable de forma suelta y usar un LLM para remodelar la "esencia" producía mejores textos con menos esfuerzo que escribir a mano o dictar en bruto. Hablar es como pensamos en voz alta. El modelo se encarga de la parte que nuestro cerebro suele saltarse.

Otros trabajos apuntan en la misma dirección. Estudios sobre el refinamiento de transcripciones basado en LLM muestran que pasar el habla por un modelo de lenguaje después del reconocimiento reduce errores y mejora la legibilidad, sobre todo en homófonos y frases que dependen del contexto que un transcriptor simple no puede resolver por sí solo.

El contexto es la otra mitad

Limpiar una transcripción es el primer trabajo. Saber qué tipo de texto querías es el segundo, y ahí es donde la cosa se pone interesante.

"Mándame la presentación antes de que acabe el día" vale para un mensaje de Slack a un compañero. Es demasiado seco para un correo a un cliente. Las palabras están bien; el registro está desajustado. Un modelo de lenguaje puede leer esa situación y ajustar el tono, porque entiende el contexto, no solo el sonido.

En la práctica, la misma frase hablada puede salir informal en una app y pulida en otra. Tú no cambias cómo hablas. El modelo cambia cómo escribe, según hacia dónde va el texto.

Esto es exactamente lo que hacen las Smart Rules de Voicr. Configuras una vez un tono relajado para Slack y uno formal para el correo, y Voicr detecta en qué app estás y aplica el estilo correcto automáticamente. Mantén pulsado FN, di lo que sea, y la versión que llega a tu portapapeles ya encaja allí donde estás a punto de pegarla.

El cambio de verdad: dejas de hablarle a una máquina

El dictado antiguo te obligaba a actuar. Tenías que hablar con frases terminadas, decir "coma" y "punto y aparte" en voz alta y abandonar tus hábitos normales al hablar. Estabas haciendo la edición en tu cabeza, en tiempo real, mientras hablabas. Era agotador, y por eso nunca cuajó.

La voz a texto basada en LLM te quita ese trabajo de encima. Puedes divagar. Puedes cambiar de idea a mitad de una frase. Puedes hablar como le explicarías algo a un amigo, y la versión limpia aparece igualmente.

Suena a poca cosa. Es toda la diferencia entre manejar una herramienta y simplemente pensar en voz alta.

La velocidad también es real. La mayoría hablamos a unas 150 palabras por minuto y escribimos a unas 40. Un estudio de Stanford descubrió que dictar en un móvil era tres veces más rápido que escribir, con menos errores. Pero la velocidad dejó de ser el principal atractivo en cuanto el resultado mejoró. El atractivo real es que ya no pierdes el hilo de tus pensamientos por culpa del teclado. Profundizamos en esas cuentas en por qué tu voz es más rápida que tu teclado.

Dónde los LLM todavía fallan con la voz a texto

Esto es genuinamente mejor, no magia. La misma inteligencia que limpia tu texto también puede excederse, y conviene saber dónde.

Puede cambiar tu significado. Cuando un modelo "arregla" una frase, a veces suaviza un detalle que querías o se equivoca al adivinar tu intención. Cuanto más técnico o inusual sea tu fraseo, mayor es el riesgo. Dale un repaso rápido a cualquier cosa importante antes de enviarla.

Los nombres y la jerga aún lo despistan. La transcripción maneja bien las palabras comunes y se atasca con nombres propios, nombres de producto y términos especializados. Un modelo puede adivinar por el contexto, pero escribirá mal con total seguridad el apellido de tu colega.

Los homófonos no están del todo resueltos. "Haya", "halla" y "allá" suelen salir bien porque el contexto ayuda, pero no siempre.

Añade un instante de latencia. Un transcriptor puro es casi instantáneo. Ejecutar un segundo modelo para pulir cuesta desde una fracción de segundo hasta un par de segundos. Merece la pena por la calidad, pero no es gratis.

Ninguno de estos es un impedimento serio una vez que sabes que existen. Son la razón por la que mantener el hábito de repasar antes de enviar sigue mereciendo la pena. Si quieres la imagen completa de cómo funciona este flujo de principio a fin, escribimos una guía paso a paso del dictado por voz con IA en Mac.

Diagrama que muestra dos capas apiladas: una capa de transcripción que convierte el sonido en palabras y una capa de lenguaje que convierte las palabras en texto limpio

Qué significa esto para cómo escribes

El modelo mental que vale la pena recordar es que la voz a texto son ahora dos herramientas apiladas:

1. Una capa de transcripción que convierte el sonido en palabras precisas. 2. Una capa de lenguaje que convierte esas palabras en un texto que de verdad se lee bien.

La transcripción pura sigue siendo la opción correcta cuando necesitas un registro exacto. Entrevistas, notas legales, cualquier cosa donde cada "eh" importe. Para todo lo demás, como correos, mensajes, documentos y notas, la capa de pulido es lo que hace que hablar sea más rápido que escribir en vez de simplemente más caótico.

Así que cuando elijas una herramienta, la pregunta de verdad no es "qué precisa es la transcripción". Casi todas están cerca ya. La pregunta es "qué buena es la capa de encima". Nuestra comparativa de las mejores apps de voz a texto para Mac desglosa cuáles hacen bien esa parte.

Cómo probar la voz a texto pulida por LLM

La forma más rápida de notar la diferencia es dictar tu próximo correo en lugar de escribirlo y luego mirar lo que aparece en el borrador. No será la transcripción en bruto que recuerdas de hace años. Se leerá como si lo hubieras escrito tú en un buen día.

Si quieres eso sin tener que enlazar varias herramientas, Voicr hace las dos capas en un solo paso. Mantén pulsado FN, habla como quieras, suelta, y un texto pulido llega a tu portapapeles listo para pegar. Usa Whisper para la transcripción y un modelo de lenguaje para la limpieza, con estilos por app para que el tono encaje allí donde escribas. El plan gratuito son 5.000 palabras al mes, sin tarjeta de crédito.

La voz a texto por fin funciona como siempre debería haberlo hecho. No porque las máquinas oigan mejor, sino porque por fin se les da bien entender lo que querías decir.