Hablar con un asistente virtual siempre ha tenido ese valle inquietante: un pequeño retraso de milisegundos que nos recuerda constantemente que estamos interactuando con un servidor remoto y no con una inteligencia real. Apple es consciente de que, para que su asistente deje de ser una herramienta secundaria y se convierta en un compañero fluido, debe aprender a responder antes de que terminemos de pensar. El último avance de sus investigadores apunta precisamente ahí: al corazón de la conversación humana. Por eso es clave trabajar en la mejora de la velocidad con Siri.
El fin de la «muleta» de Google: La autonomía de Cupertino
A pesar de que Apple ha integrado recientemente soluciones externas como Google Gemini para cubrir sus carencias en IA generativa, el objetivo final de Tim Cook siempre ha sido la autosuficiencia. Un nuevo «paper» de investigación de Apple Research revela un camino viable para mejorar velocidad en Siri. Lo harían a través de una reingeniería de cómo el modelo procesa el habla.
Actualmente, la mayoría de las IAs generan voz basándose en «tokens» fonéticos individuales. El problema es que este método por autorregresión introduce una latencia intrínseca: el sistema duda qué sonido elegir entre miles de opciones casi idénticas. Esto provoca esas pausas antinaturales o pronunciaciones extrañas que todos hemos sufrido. Apple propone sustituir este sistema por los Acoustic Similarity Groups (ASGs).
Grupos de Similitud Acústica: ¿Cómo funciona el cerebro de la nueva Siri?
La técnica de los ASG no intenta adivinar el siguiente sonido desde cero, sino que agrupa los tokens de voz según su similitud acústica percibida. Es, en esencia, como si Siri organizara su vocabulario en «clanes» de sonidos parecidos. Además, esta agrupación también ayuda a mejorar el rendimiento y velocidad de Siri notablemente.
- Búsqueda Probabilística: En lugar de analizar cada fonema por separado, la IA realiza una búsqueda dentro de estos grupos solapados, lo que acelera drásticamente la toma de decisiones. Esta estrategia demuestra cómo mejora la velocidad de Siri.
- Adiós a la latencia: Al reducir el abanico de opciones inmediatas mediante estos grupos, Siri puede llegar al token adecuado mucho más rápido.
- Textura humana: Al haber solapamiento entre los grupos ASG, la transición entre sonidos es más suave, evitando el efecto «robot» que ocurre cuando los tokens no encajan perfectamente.
Comparado con los modos de voz avanzada de ChatGPT o Google Gemini, el enfoque de Apple parece centrado en la eficiencia local. Esto sugiere que Apple busca que estas conversaciones fluidas ocurran directamente en el chip de tu iPhone (On-device AI). Así, garantizan privacidad y una respuesta instantánea que no dependa de tu conexión a 5G.
Si Apple logra implementar esto con éxito en iOS 19 o 20, Siri finalmente saldrá del «valle inquietante» para entrar en el terreno de la ciencia ficción que nos prometieron hace una década. Al final, el secreto para que una máquina suene humana no era tener más potencia, sino aprender a agrupar los susurros y las pausas de la misma forma que lo hace nuestro cerebro. Sin duda, la mejora velocidad Siri buscando respuestas reales será clave para que la experiencia sea completamente natural. Veremos si esta vez Siri entiende que «pon una alarma» no significa «busca en la web».
Puedes seguir a HardwarePremium en Facebook, Twitter (X), Instagram, Threads, BlueSky o Youtube. También puedes consultar nuestro canal de Telegram para estar al día con las últimas noticias de tecnología.
FAQ:
¿Qué son los Acoustic Similarity Groups (ASG)? Es una técnica de Apple que agrupa sonidos similares para que la IA decida más rápido cómo pronunciar una palabra, reduciendo el retraso en la respuesta. Así, mejora la velocidad de Siri y la interacción entre usuario y asistente.
¿Significa esto que Siri dejará de usar Google Gemini? Apple sigue usando Gemini para tareas complejas de conocimiento general, pero este avance busca que la voz y la interacción básica de Siri sean de tecnología propia y mucho más rápidas.
¿Cuándo veremos esta mejora en el iPhone? Al ser una investigación reciente, es probable que se integre en las próximas versiones de Apple Intelligence (posiblemente iOS 19 o 20), lo que supondrá una mejora significativa en velocidad Siri.
¿Hará esto que Siri suene menos robótica? Sí, el uso de ASG permite que los sonidos fluyan mejor entre sí, eliminando pronunciaciones extrañas y saltos de tono.
¿Funcionará sin internet? El enfoque de Apple siempre es el procesamiento en el dispositivo, por lo que esta técnica está diseñada para ser lo suficientemente eficiente como para correr en el motor neuronal del iPhone.



