Cofundador, CEO, primer accionista y estratega de la estrategia tecnológica de Nvidia, Jensen Huang es todo eso, y además una estrella mediática. En marzo, 11.000 personas abarrotaron el centro de convenciones de San José para asistir (a 2.500 dólares per capita) a la conferencia GTC. Fue allí donde Huang presentó los futuros sistemas B100 [Blackwell] destinados a suceder a los exitosos chips H1200 y H200, que han hecho subir la fiebre por la inteligencia artificial generativa. Duplicarán las prestaciones de sus antecesores, pero esto no bastaría para explicar por qué Huang es jaleado con igual devoción que Taylor Swift. Una comparación que puede ser chocante, pero es lo que hay.
Alguien dirá que el estrellato es pasajero, que se debe a una cotización bursátil imparable: ya es la tercera compañía más valiosa de las bolsas neoyorquinas, con más de 2 billones de dólares de capitalización, siete veces más en dieciocho meses. O bien a que sus plataformas H100 y H200 [Hopper] en el mercado desde 2022 y 2023, se venden a precios de escándalo, son muy rentables y quienes las demandan tendrán que hacer cola en una lista poblada de grandes nombres con poderosas agendas y excelente relación con Huang.
Ya puestos, hay quien opina que las cosas podrían empeorar (o mejorar, hay para todos los gustos), cuando Nvidia ponga a la venta Blackwell B100, que promete hacer mucho más sencillas las funciones de inferencia en las que se basa la IA generativa para obtener respuestas. En hipótesis sospechosa, podría ser la parte más vulnerable de la oferta de Nvidia, en opinión de unos competidores convencidos de que Huang corre demasiado porque ellos no consiguen atraparlo.
La sensación que transmitió Huang es otra. En el último trimestre fiscal, Nvidia obtuvo el 40% de su facturación de clientes deseosos de hacer tareas de inferencia. Según el CEO, el 40% de inferencia se suma al 60% de aprendizaje, una proporción que considera ideal en la coyuntura actual del mercado.
Hubo otros temas y otros ponentes y compañías con mucho que contar, pero la información acabó monopolizada por el anuncio que Huang se reservaba para la ocasión. Es lo que pasa cuando tienes una estrella en escena.
Al grano: el tamaño de los Blackwell es el doble que el de los Hopper, lo que implica mayor potencia de proceso. A modo de ejemplo: harían falta 2.000 Blackwell y 4 MW de potencia eléctrica para entrenar una versión del modelo que alimenta ChatGPT, frente a 8.000 Hopper y 15 MW para hacer el mismo trabajo en el mismo tiempo. No sólo OpenAI está en lista de espera, sino que gigantes como Microsoft y Google comparten su impaciencia. Otro gran cliente, Elon Musk, se ha deshecho en elogios al asegurar que “actualmenteno hay mejor hardware para IA que el de Nvidia”. Pero Tesla ha tenido que ponerse a la cola.
Si Blackwell es realmente tan potente como dice Huang, no se sabrá hasta que esté disponible, en torno a finales de año. Una cosa puede darse por segura: no será barato. Los Hopper completos cuestan hasta 30.000 dólares y de los Blackwell se espera que dupliquen esa tarifa, un supuesto que la empresa no confirma. Da igual lo que cuesten, ya que toda la producción está vendida de antemano. Que sea el doble de potente que Hopper tampoco es relevante, porque básicamente un Blackwell está formado por dos Hopper unidos entre sí.
La unión de dos (o más) chips en un sustrato común es una práctica habitual en la industria, que les da el nombre de chiplets. AMD, por ejemplo, vende procesadores compuestos por varios chips sobre un mismo sustrato, fabricados por TSMC o por GlobalFoundries, desde que Lisa Su ocupa su cargo de CEO de la compañía y ordenó un giro en los procedimientos de diseño. También Intel lo intenta desde hace tiempo, aunque “trocear” un chip inicialmente monolítico para hacerlo modular – y que sea más potente y más fácil de fabricar – tampoco es algo trivial.
No es necesario añadir que el chip Blackwell es extremadamente complejo, con 208.000 millones de transistores. Para su fabricación, TSMC utiliza una tecnología de proceso mejorada de 4 nanómetros, llamada 4NP, presumiblemente porque la 3N de 3 nanómetros, de la que TSMC lleva tres años hablando, todavía no está perfeccionada y mucho menos para el nivel de complejidad que requiere NVidia.
Esto ha hecho que, en la práctica, el Blackwell sea el resultado de unir dos Hopper, ciertamente muy mejorados en su diseño pero que no deja de ser un atajo: emparejar 104.000 millones de transistores con 104.000 millones de transistores. La pega es que probablemente le reste prestaciones por muy depurada que fuera la tecnología de interconexión utilizada en el encapsulado del chip. Este es en parte fruto de la tecnología incorporada tras la adquisición en 2019 de la firma israelí Mellanox, por la que pujó intensamente hasta derrotar a Intel, la otra candidata.
En las dos últimas décadas, la capacidad de computación de las unidades de proceso central y de proceso gráfico (conocidas como CPU y GPU, respectivamente) ha aumentado en un factor de 90.000x, pero el ancho de banda de las memorias DRAM (la parte esencial de los procesadores) sólo se ha multiplicado por 30x y y también el incremento del ancho de banda de las interconexiones es de 30x, aproximadamente. Aunque ha habido muchas mejoras en la interconexión de los chips estos últimos años, los especialistas consideran que los procesadores no pueden alcanzar más que una parte de su potencial debido a que les falta memoria mucho más rápida. Y que, yendo al fondo de la cuestión, sería necesario renovar la arquitectura de funcionamiento físico de los sistemas de computación.
Al mismo tiempo, cada vez es más costoso y laborioso fabricar los transistores de los chips, porque el mayor nivel de integración hace que la tasa de defectos sobre chips buenos sea muy elevada. Aparte, la maquinaria de fabricación de los chips es mucho más cara conforme aumenta su densidad, sin que compense ni sea rentable hacer chips más integrados: su tamaño puede reducirse, pero a un coste más alto por transistor que el de aquellos que sustituyen.
Hace veinte o treinta años, esto no era así: se cumplía perfectamente la ley de Moore en el sentido de que a mayor integración, menor coste (porque el chip era más pequeño) y más prestaciones. Al mismo tiempo, el consumo energético del chip bajaba drásticamente al aumentar la integración, cuando ahora hay que tener mucho cuidado en que no haya zonas muy calientes que fundan el chip o consuman energía en exceso.
Para lograr una mayor integración en los chips y limitar los defectos de fabricación, la alternativa más clara es hacer chips pequeños y juntarlos entre sí. El inconveniente, mientras no se encuentre una solución, es que en la interconexión entre chips se pierden muchas prestaciones, aparte de que tampoco es sencillo fabricar módulos e interconectarlos, especialmente si se parte de un diseño monolítico, como está sufriendo ahora mismo Intel.
En cualquier caso, a Nvidia no le quedaba otro remedio que unir dos Hopper modificados – a la vez que mejorados – para hacer el Blackwell, porque con Hopper ya había llegado prácticamente al tamaño máximo que se puede fabricar con la prácticamente al chip más grande que se puede fabricar con la tecnología de integración más sofisticada en este momento, la ultravioleta extrema (EUV) de la holandesa ASML. Según los especialistas, el límite para transistores que se puedan grabar en una oblea de silicio es de 26 por 33 milímetros; es decir, un chip de unos 850 milímetros cuadrados como máximo.
Se podría pensar que todo se reduce a poner dos, tres, cuatro o más chips de 850 mm2 e interconectarlos para obtener más prestaciones. No es así: la base interpuesta para colocar los chips interconectados no puede superar los 2.500 mm2 y aun así, con las más sofisticadas técnicas de los chips modulares. No parece que se pueda repetir la jugada y poner tres Hopper en un futuro: dos sería el máximo, exigiendo una fabricación y una interconexión extremadamente sofisticadas.
Por tanto, NVidia no sólo ha tenido que innovar en el diseño interno y circuitería de transistores de su chip para conseguir el máximo de prestaciones, sino también en el sistema de interconexión de los dos chips y de la conexión con el resto de la plataforma. Existen distintos sistemas de interconexión de chiplets en estos momentos, pero todos tienen ventajas e inconvenientes sin que ninguno sea ideal.
En el caso de Nvidia, lo que ha hecho la compañía es trabajar codo con codo con su fabricante de chips de referencia, la taiwanesa TSMC, para que le fabrique los Blackwell. Según subraya Huang en una entrevista publicada en Wired, habla continuamente, casi a diario, con TSMC, sea el presidente Morris Chang, el consejero delegado Mark Liu u otros directivos. Con una ventaja que no pierde importancia: todos ellos son taiwaneses
Hay que tener en cuenta que el procesador gráfico, sea el Hopper o el Blackwell, es una pequeña parte (ciertamente esencial) de un superordenador para GenAI [es un acrónimo en inglés, pero parecería de uso ineludible sorry]. Jensen Huang cuenta que hay unos 35.000 componentes en cada uno de estos superordenadores, de los cuales únicamente ocho están fabricados por TSMC (lo que puede costar más que todo el resto). El reto de NVidia, aparte del diseño de Blackwell, es lograr que el conjunto del superordenador sea lo más eficiente posible, tanto a nivel de las interconexiones varias entre chips y módulos de proceso y memoria como del software que hace funcionar al conjunto, también de Nvidia.
Desde el punto de vista de Nvidia, la ventaja está en tener un mercado cautivo, porque no sirve de mucho tener Blackwell sin todo lo que le rodea; lo que cuenta es el conjunto. No puede decirse que el éxito de NVidia le viniera de un día para otro, aunque ciertamente su facturación, beneficios y valor de las acciones se haya disparado en los últimos dos años hasta niveles indecibles. Las tarjetas gráficas de Nvidia empezaron a salir a mediados de los años 2000 y fueron un gran éxito con los aceleradores Kepler K10 y K20 lanzados en mayo de 2012, con años muy difíciles entre medias, que a punto estuvieron de acabar con la compañía.
La perseverancia de Jensen Huang y su equipo más el esfuerzo continuado hicieron lo impensable, que la generación Pascal de 2016 y la Volta de 2017 la catapultaran como artífice de los sistemas de referencia para las redes neuronales de aprendizaje profundo de los años siguientes, que sentaron las bases de la era de la GenAI actual. Un esfuerzo tan tremendo que ahora dice Huang que no volvería a hacerlo con lo que sabe ahora. Tampoco da la menor señal de querer jubilarse: todo lo contrario, trabaja como el que más en la empresa y despacha a diario con 40 altos directivos para estar al tanto de todo lo que ocurre en la inteligencia artificial que promete cambiarlo todo (o casi todo, para no exagerar).
[Informe de Lluís Alonso]