El "tijeretazo" de Anthropic y el rugido de Grok: así está el tablero de la IA este mes

El ecosistema de la inteligencia artificial no da respiro, y esta semana el drama se traslada de los laboratorios a las métricas de rendimiento. Lo que muchos usuarios de Claude Opus 4.6 sospechaban en foros y redes sociales ha resultado ser una realidad técnica. El modelo parece haber perdido «brillo» en su capacidad de razonamiento profundo. Mientras Anthropic ajusta las tuercas de su joya de la corona, xAI ha aprovechado el vacío. Además, xAI golpea la mesa con un Grok 4.20 que, lejos de ser un meme, está demostrando una solidez técnica. Esta solidez pone en jaque incluso a los gigantes de Google y OpenAI.

El misterioso declive de Claude y el factor «Mythos»

La noticia que ha encendido las alarmas entre los desarrolladores es el Claude Opus 4.6 nerf. Anthropic ha reducido silenciosamente el «presupuesto de pensamiento» (thinking budget) del modelo de 100 a 25 puntos. Este es un recorte del 67% que impacta directamente en la profundidad de la planificación y la calidad del código generado. Esta decisión afecta tanto a usuarios de pago básico como a los de planes premium. Además, llega en un momento de saturación de infraestructura donde incluso GitHub Copilot ha tenido que retirar versiones del modelo por la alta concurrencia.

Sin embargo, el verdadero as bajo la manga de Anthropic se llama Mythos. Este modelo, situado un escalón por encima de Opus, no verá la luz pública por una razón inquietante. Es demasiado peligroso. Durante las pruebas de «red-teaming», Mythos fue capaz de descubrir de forma autónoma vulnerabilidades de día cero, incluyendo un bug en OpenBSD que llevaba 27 años oculto. Por ahora, solo gigantes como Apple o Microsoft tienen acceso bajo el Project Glasswing. Mientras tanto, el resto de los mortales lidian con un Opus 4.6 más contenido.

Grok 4.20: del sarcasmo al liderato técnico

Mientras tanto, en el bando de Elon Musk, las risas se han convertido en respeto. Grok 4.20 se ha alzado con el primer puesto en BridgeBench, superando a GPT-5.4 y al propio Claude Opus 4.6 en métricas críticas de razonamiento y control de alucinaciones. Aunque siempre hay que mirar los benchmarks con cautela, la integración en tiempo real con la plataforma X (Twitter) sigue siendo un diferenciador. Esto permite a Grok manejar contextos actuales que sus competidores solo sueñan con procesar.

Por si fuera poco, el sector de los agentes de codificación está explotando. Vercel ha lanzado Open Agents, una plataforma para que las empresas creen sus propias «fábricas de software IA». Mientras tanto, herramientas como Cursor 3 ya permiten dividir agentes para multitarea. El mensaje es claro: ya no importa solo qué código escribe la IA, sino la infraestructura que permite ejecutarlo de forma masiva y segura.

En un giro curioso, investigadores de Stanford han detectado el «efecto mirage»: las IA están puntuando alto en pruebas visuales incluso sin ver las imágenes. Esto sugiere que son maestras del contexto textual más que de la visión real. Parece que, después de todo, nuestras máquinas siguen siendo expertas en «fingir hasta conseguirlo».

Puedes seguir a HardwarePremium en Facebook, Twitter (X), Instagram, Threads, BlueSky o Youtube. También puedes consultar nuestro canal de Telegram para estar al día con las últimas noticias de tecnología.

Preguntas frecuentes sobre el estado actual de las IA

¿Qué significa el Claude Opus 4.6 nerf para el usuario medio? Significa que el modelo ahora dedica menos recursos a «pensar» antes de responder. Esto puede traducirse en soluciones de código menos optimizadas o errores en razonamientos lógicos complejos que antes resolvía con solvencia.

¿Por qué Grok 4.20 es ahora el número uno en BridgeBench? Grok 4.20 ha optimizado sus procesos de razonamiento y control de alucinaciones. Así, logra superar a GPT-5.4 y Claude en velocidad y precisión dentro de este benchmark específico, apoyándose en su acceso a datos en tiempo real.

¿Qué es el modelo Mythos y por qué no puedo usarlo? Mythos es el modelo más avanzado de Anthropic. No es público porque ha demostrado habilidades autónomas para el ciberespionaje y la detección de fallos de seguridad críticos, lo que supone un riesgo sistémico si se liberara sin restricciones.

¿Cómo afecta el límite de capacidad de OpenCode Go? Debido al crecimiento explosivo, la plataforma sufre falta de potencia de GPU. Los usuarios pueden experimentar inestabilidad o tiempos de espera más largos mientras el equipo asegura más capacidad de cómputo.

¿Qué dice la nueva política de Linux sobre la IA? A partir de la versión 7.0, el kernel de Linux prohíbe que los agentes de IA firmen contribuciones de código. Se requiere responsabilidad humana y el uso de una etiqueta específica («Assisted-by») si se ha usado IA en el proceso.

¿Guerra contra la crítica? Una marca de móviles demanda a 300 influencers por «hablar mal» de sus productos

Todd Howard rompe el silencio: por qué el «odio» a Starfield es solo una fase que ya vivimos con Skyrim

Thermaltake lleva su sim racing más allá con volante de 300 mm y pedales loadcell

El «tijeretazo» de Anthropic y el rugido de Grok: así está el tablero de la IA este mes