La carrera de la supercomputacion prosigue, aunque los puestos de cabeza parezcan detenidos: El Capitán, Frontier y Aurora residen en laboratorios gubernamentales de Estados Unidos y los trres han sido suministrados por HPE con tecnología Cray. Hay movimientos en el pelotón, pero lo más significativo es la noticia de que el número dos tendrá sustituto en 2029 y también será de HPE. A saber qué ocurrirá de aquí a entonces, pero la compañía se ha anticipado a la actualización del ránking Top500 con dos anuncios que confirman su posición de liderazgo. El Oak Ridge National Laboratory (ORNL) acogerá el Discovery, sucesor el exaescala Frontier, instalado en el mismo ORNL. No ha sido la única novedad de la semana.

HPE también se afianzará en la escena de la Inteligencia Artificial (IA), algo que lleva tiempo reclamando, con su nuevo clúster de IA Lux. La tendencia de los proveedores de servicios cloud en favor de esta categoría de sistemas hace que su mercado se ensanche.
La herencia de sus adquisiciones pasadas, como la de SGI 275 millones de dólares en 2016 y especialmente, la de Cray por 1.300 millones en 2019, siguen dando alegrías a HPE. Hasta la fecha, la compañía contaba en su haber con sendos superordenadores de exaescala basados en la arquitectura Cray EX4000, todos ellos dependientes del Departamento de Energía (DoE) de Estados Unidos.
Discovery es la puesta de largo del sistema de exaescala GX5000, que pasa por ser el sucesor de la línea Cray Shasta EX3000, presentado en la Conferencia Internacional de Supercomputación SC2018 y comercializado a partir de 2019. Aquella línea se ampliaría en la SC2022 con los equipos EX4000. Según directivos del fabricante, este nuevo superordenador está dirigido a IA, HPC y computación cuántica y podrá aumentar la productividad de algunas aplicaciones hasta en diez veces, con aplicaciones prácticas en el campo de la medicina de precisión, la investigación del cáncer, la energía nuclear y el sector aeroespacial.
En vísperas de la SC25 de Saint Louis de esta semana, la carta de presentación del bautizado GX5000 desvelaba que ofrecerá un 127% más de potencia de cómputo y hasta 25 kilovatios por slot de cómputo, con cada una de ellos adaptados a diferentes partes de TDP (Thermal Design Power). En conjunto, el sistema será un 42% más pequeño que su predecesor y sus primeros elementos comenzarán a entregarse a principios de 2027.
Con esta noticia, el tándem HPE-AMD vuelve a cobrar protagonismo, si bien es cierto que podria pensarse que el diseño del GX5000 era anterior. Su antecedente inmediato es el bastidor Helios, creado conjuntamente por AMD y Meta para competir con el rack Oberon de Nvidia. No puede pasarse por alto que, con diferentes planteamientos, HPE no esta sola en la carrera de la supercomputación. Mientras Helios pretende ser más compacto e incluir todo, en los planes de Nvidia acerca de su futuro Kyber se prevé separar la energía y refrigeración en un rack y el cómputo y la red en otro contiguo.
El Discovery de HPE tendrá un diseño propio y entre las diferencias frente a los racks Oberon de Nvidia y Helios de AMD destaca que GX5000 no cuenta con una red de escalamiento vertical para crear una estructura de memoria entre los aceleradores GPU del rack. Este planteamiento podría implicar que, al usar un escalamiento horizontal entre GPU para las cargas de trabajo de IA o HPC, no pudiera incorporar interconexiones de memoria para GPU o XPU cuando estén disponibles.
En todo caso, Discovery sí contará con los próximos procesadores Epyc Venice de AMD y sus GPU Instinct MI430X, que no verán la luz hasta el año que viene. Lo que todavía no ha precisado la compañía es cuántos nodos o CPU y GPU se utilizarán para construir el nuevo equipo, tampoco cuánta memoria tendrá. En cuanto a la conectividad, HPE hará valer su tecnología Slingshot, asegurando que superará los 200 Gbps de la serie 200. A fin de cuentas, el año pasado presentó Slingshot 400 y avanzó que este otoño lo incluiría en sistemas Cray EX Shasta. A falta de confirmación, los expertos apuntan a que Discovery podría llegar a 800 Gbps o, incluso, 1,6 Tbps.
Paralelamente, HPE también ha anunciado un nuevo clúster de almacenamiento distribuido basado en el software de código abierto Distributed Asynchronous Object Storage (DAOS), que introdujo por vez primera en el sistema Aurora junto a Intel. De hecho, Intel transfirió a finales de 2024 su equipo de desarrollo de DAOS a HPE, después de que el fabricante de chips cancelara su tecnología de memoria Optane en 2022.
De este modo, ahora la compañía que preside Antonio Neri cuenta con su primer sistema de almacenamiento construido en fábrica – Cray Storage Systems K3000 all-flash– con DAOS integrado, capaz de ejecutar hasta 75 millones de operaciones de E/S por segundo (IOPS) por rack de almacenamiento, un 39% más que otros sistemas y cuatro veces más rendimiento que los siguientes 30 sistemas de almacenamiento en la lista IO 500, según HPE.
La multinacional sostiene que con la incorporación de K3000, Discovery tendrá un 300% más de IOPS por bastidor de almacenamiento en comparación con Frontier, lo que agiliza la ejecución de aplicaciones de IA se ejecuten con mayor productividad. La capacidad de un rack K3000 depende del número de nodos de almacenamiento en el rack, con una configuración mínima de cuatro nodos de almacenamiento y un máximo de 40, capaz de ofrecer una capacidad bruta máxima de 12,32 PB. Adicionalmente, Discovery también utilizará los sistemas de almacenamiento de supercomputación Lustre Cray E2000.
Como ya es habitual en estos sistemas, los GX5000 también cuentan con la próxima generación de refrigeración líquida. Lo verdaderamente novedoso, según la compañía, es que la refrigeración líquida alcanza a todos los componentes: no sólo a CPU, GPU y memoria, sino también a los interruptores. La temperatura, pasará de los actuales 25ºC a 40ºC, adaptándose así a los requisitos energéticos dictados por la Unión Europea.
El otro gran anuncio de HPE es Lux, un clúster de IA basado en el servidor HPE ProLiant Compute XD685, refrigerado por líquido directo y que funciona con tecnología AMD, incluidas sus GPU Instinct MI355X, sus CPU Epyc y sus DPU Pensando. Está pensado para ofrecer acceso multi-tenant tipo cloud a las denominadas IA factories soberanas, esto es, las infraestructuras propias destinadas entrenamiento e inferencia, principalmente. Su puesta en funcionamiento en el ORNL se espera para principios de 2026 y podría destinarse a resolver problemas de investigación como la fusión, la fisión, los materiales, la cuántica, la fabricación avanzada y la red.
Discovery está llamado a convertirse en piedra angular de lo que el DoE llama American AI Stack, es decir, la infraestructura nacional que apoya la investigación científica y las aplicaciones ligadas a la seguridad y la resiliencia nacionales, según destacó Chris Wright, Secretario de Energía de la actual administración. En el marco de estas políticas, el Centro de Ciencias Cuánticas (QSC), con sede en el ORNL, recibirá 125 millones de dólares hasta 2030 para el desarrollo de sistemas informáticos híbridos que vinculen tecnologías cuánticas y de supercomputación.
La investigación se centrará en cinco áreas, como el diseño de arquitecturas de computación de alto rendimiento aceleradas cuánticamente (QHPC), el desarrollo de un sistema de software abierto para éstas, algoritmos cuánticos, aplicaciones científicas que pueden usar computadoras cuánticas tolerantes a fallas y una base de datos experimental para validar tales aplicaciones contra materiales del mundo real.
Ese parece ser el próximo horizonte: la convergencia de HPC y cuántica y, en esa misma línea, otros centros reciben fondos federales, como el centro Q-NEXT del Argonne National Laboratory, el Centro de Codiseño para la Ventaja Cuántica (C2QA) del Brookhaven National Laboratory, el Acelerador de Sistemas Cuánticos (QSA) del Lawrence Berkeley National Laboratory y el Centro de Materiales y Sistemas Cuánticos Superconductores (SQMS) de Fermilab.
HPE no está dispuesta a perder el tren cuántico. De hecho, recientemente anunció la creación de la Quantum Scaling Alliance, una iniciativa global liderada por Masoud Mohseni, director de HPE Quantum en HPE Labs, y el Premio Nobel de Física 2025 y CTO de Qolab John Martinis, con el objetivo de conseguir que la computación cuántica sea escalable y aplicable en diversos sectores de actividad.
Contra lo que es habitual, los diez primeros superordenadores de la lista Top500 no han variado sobre la anterior edición, pero varios de ellos se han reforzado con ampliaciones de capacidad. El Capitán, primero del ranking y alojado en el Lawrence Livermore Laboratory, aumenta su ventaja relativa al alcanzar los 1.809 exaflops. Este es uno de los seis representantes de HPE Cray entre los diez líderes.
El párrafo anterior podría dar una falsa idea de estabilidad. La evolución de la lista – que se recopila desde 1993 – refleja una rápida innovación arquitectónica en los últimos años a la vez que una batalla entre las marcas clásicas – Cray la que más y la ascendente Nvidia. En cuanto a los procesadores, AMD parece haber ganado la primacía ante los problemas de Intel. Cuatro de los quinientos han alcanzado la exaescala. En cambio, la lista ha perdido valor como síntoma geopolítico desde que China decidiera no proporcionar información sobre sus desarrollos en computación de alto rendimiento.
En la cuarta plaza se mantiene el Jupiter Booster, del consorcio EuroHPC e instalado en el campus de Jülich (Alemania) al que las mejoras incorporadas en el último semestre convierten en el primero a exascala en Europa. Se trata de un BullSequana XH3000 equipado con superchips GH200 de Nvidia y es la joya de la empresa Eviden, segregada del grupo Atos. Por cierto, durante la conferencia, Eviden y AMD anunciaron que ya están desarrollando el superordenador Alice Recoque, destinado al consorcio Euro HPC cuyos objetivos científicos son la modelización del clima y la investigación sobre materiales avanzados.
[informe de David Bollero]
