Jensen Huang, CEO de Nvidia, ha admitido que el reciente fallo de diseño en los chips Blackwell fue “100% culpa de Nvidia”. La compañía ya ha corregido el problema y los chips renovados están listos para entrar en producción masiva. Durante una entrevista con Reuters, Huang aclaró que el socio de producción de Nvidia, TSMC, no tuvo responsabilidad en el error y desestimó los rumores de tensiones entre las empresas, calificándolos como “fake news”. Nvidia asume el error en Blackwell.
Un error crítico, pero solucionado rápidamente
El fallo en la arquitectura Blackwell afectó los rendimientos de producción de los GPU B100 y B200. El problema radicaba en una desalineación en las propiedades térmicas de los componentes, lo que ocasionaba que el sistema se deformara y fallara. Nvidia asume el error en Blackwell, junto con TSMC, realizó modificaciones en las capas superiores de metal y en los puntos de contacto del silicio para solucionar el inconveniente.
Es importante destacar que este tipo de problemas no son inusuales en la industria de los semiconductores. Empresas como Intel han enfrentado fallos similares, como ocurrió con Sapphire Rapids, que requirió múltiples revisiones para corregir más de 500 errores. Sin embargo, la rapidez con la que Nvidia resolvió el problema en Blackwell es digna de mención. Nvidia asume el error en Blackwell.
Nvidia demuestra capacidad de respuesta
La capacidad de Nvidia para corregir el error en poco tiempo refleja su fuerte compromiso con la calidad y la innovación. Comparado con generaciones anteriores, como Hopper, que no enfrentó problemas tan significativos, Blackwell destaca por su enfoque más ambicioso, utilizando la tecnología CoWoS-L de TSMC. Esta solución avanzada permite tasas de transferencia de datos de hasta 10 TB/s, lo que supone una ventaja competitiva para Nvidia en el mercado de la inteligencia artificial.
A pesar de la rápida corrección, Nvidia todavía deberá enviar algunas unidades de los chips con bajo rendimiento para satisfacer la alta demanda de proveedores de servicios en la nube como AWS y Google en 2024. Esto plantea interrogantes sobre si los centros de datos optarán por esperar los nuevos chips mejorados o asumirán el riesgo de usar versiones menos optimizadas.
Con los chips renovados programados para producción en octubre y envíos previstos para principios de 2025, Nvidia busca consolidar su liderazgo en el sector, dejando atrás este traspié. Nvidia asume el error en Blackwell.