NVIDIA acelera DiffusionGemma y lleva la IA local a RTX

DiffusionGemma, el modelo abierto experimental de Google DeepMind, ya tiene el apoyo de NVIDIA para correr más rápido en local. La compañía lo ha optimizado para GeForce RTX, la plataforma RTX PRO y los sistemas DGX Spark, con soporte desde PCs locales hasta la nube.

La parte relevante está en el enfoque técnico. En vez de generar texto palabra a palabra, DiffusionGemma produce bloques completos en paralelo. Eso cambia el tipo de carga que soporta la GPU y encaja con tareas interactivas de un solo usuario, como chats, agentes o asistentes en el dispositivo.

DiffusionGemma cambia la forma de generar texto

El modelo trabaja sobre Gemma 4 y usa una arquitectura mixture-of-experts de 26.000 millones de parámetros, aunque activa 3.800 millones por paso. Según la información difundida por NVIDIA, puede denoiser hasta 256 tokens por paso en lugar de predecir uno detrás de otro.

Esa diferencia se nota en latencia y en el tipo de trabajo que puede asumir. El texto deja de salir en secuencia estricta y pasa a refinarse por bloques. Para usos locales y de baja espera, eso importa más que una mejora marginal en una prueba aislada.

Hasta 256 tokens por paso en paralelo.
Base Gemma 4 con 26.000 millones de parámetros.
3.800 millones de parámetros activos por paso.
Licencia Apache 2.0 y pesos abiertos.

Las cifras de NVIDIA apuntan a RTX PRO, DGX Spark y GeForce RTX

La propia NVIDIA sitúa a DiffusionGemma en 1.000 tokens por segundo en una sola GPU H100 Tensor Core, 150 tokens por segundo en DGX Spark y hasta 2.000 tokens por segundo en DGX Station. La empresa habla de un rendimiento hasta 4 veces superior frente a un modelo autorregresivo equivalente en ese mismo escenario de usuario único.

El modelo está pensado para funcionar sin nube y sin coste por token, con soporte de salida en Hugging Face Transformers, vLLM y Unsloth. También llega con opciones de ajuste y despliegue local mediante NVIDIA NeMo y playbooks preparados para DGX Spark, RTX PRO y DGX Station.

En el caso de GeForce RTX, NVIDIA indica que ya había movido parte de su estrategia hacia sistemas locales y ligeros, y aquí vuelve a insistir en la misma dirección. Además, el acceso inicial pasa por Hugging Face o por las APIs alojadas en build.nvidia.com.

Lo que queda en la práctica: soporte local y despliegue desde el primer día

La novedad no es solo el modelo. También pesa el paquete de compatibilidad: day-zero support en Hugging Face Transformers, vLLM y Unsloth. Para NVIDIA, eso reduce la fricción de adopción en entornos de desarrollo y pruebas.

En la lista de hardware compatible aparecen DGX Spark —con 128GB de memoria unificada—, DGX Station —con 748GB de memoria coherente— y configuraciones con RTX PRO 6000. Para GeForce RTX, el soporte con llama.cpp llegará más adelante. Y si el recorrido de NVIDIA con IA local sigue esa línea, ya vimos señales parecidas en la apuesta de PCs para agentes de IA.

Puedes seguir a HardwarePremium en Facebook, Twitter (X), Instagram, Threads, BlueSky o Youtube. También puedes consultar nuestro canal de Telegram para estar al día con las últimas noticias de tecnología.

FAQ

¿Qué hace distinto a DiffusionGemma frente a un LLM habitual?

DiffusionGemma no genera texto token a token como la mayoría de modelos autoregresivos. Produce bloques en paralelo y puede denoiser hasta 256 tokens por paso.

¿En qué hardware ha optimizado NVIDIA DiffusionGemma?

La compañía lo ha ajustado para GeForce RTX, la plataforma RTX PRO y sistemas DGX Spark. También lo sitúa en DGX Station y en la GPU H100 Tensor Core para sus cifras de rendimiento.

¿Qué cifras de rendimiento da NVIDIA para este modelo?

NVIDIA habla de 1.000 tokens por segundo en una H100, 150 tokens por segundo en DGX Spark y hasta 2.000 tokens por segundo en DGX Station. La compañía lo presenta como hasta 4 veces más rápido que un modelo autoregresivo equivalente en uso de un solo usuario.

¿Qué soporte de software tiene desde el lanzamiento?

DiffusionGemma llega con soporte de primer día en Hugging Face Transformers, vLLM y Unsloth. NVIDIA también menciona ajuste con NeMo y acceso a las APIs alojadas en build.nvidia.com.

Android 17 beta 4 estrena Screen Reactions y corrige fallos graves

MSI muestra en Computex 2026 una gama MEG, MPG y DIY muy cargada

Matt Booty confirma que The Elder Scrolls VI sigue en marcha

Comentarios