19/12/2024

AWS quisiera librarse de la muleta de Nvidia

Las prisas y urgencias con las que fue anunciada y predicada la IA generativa parecían haber dejado en una posición contextual a Amazon, a pesar de sus méritos para ocupar un primer plano. Desde luego, era un actor bien posicionado para aprovechar el tirón de lo que poco a poco se va configurando como un nuevo mercado. Pero, a diferencia de la rutilante OpenAI, del papel de Microsoft como padrino inicial o del impulso dado por Google a los LLM, sorprendía que el gigante global del comercio electrónico (y de la nube) se conformara con una inversión / alianza con Anthropic y su intenso trabajo previo sobre la IA analítica. Hasta noviembre, en la conferencia re:Invent, de AWS en Las Vegas.

Formalmente, re:Invent es un multitudinario punto de encuentro entre la industria y Amazon Web Services (AWS), pero lo que dicho y visto en Las Vegas no quedará en Las Vegas. Al contrario, la buena nueva se ha extendido por el mundo: Amazon acaba de auparse a la primera línea de la IA generativa con un enfoque muy suyo. La demanda de cargas de trabajo de la llamada GenAI  está teniendo un impacto en los servicios cloud, un negocio del que AWS es cómodo líder, por lo que esta rama de la corporación se ha propuesto una redefinición que le asegure la capacidad de absorber esa demanda y defender su posición. A saber: 78.770 millones de dólares de ingresos en nueve meses de 2024 y 29.202 millones de beneficio operativo.

Esa es la misión de Mark Garman, recientemente ascendido a CEO de Amazon Web Services. Se ha prodigado en entrevistas para darse a conocer y en todas ha subrayado que la IA es un catalizador de su negocio como suministrador de servicios cloud, debió a que muchas empresas, tras reconocer el potencial de los modelos de IA, migran sus datos y aplicaciones a un entorno escalable y flexible como es el de AWS. “Este es el viento de cola que estamos recibiendo [y que] nos estimula a seguir invirtiendo en la IA generativa. A este objetivo fue monográficamente dedicada la edición de re: Invent de noviembre.

El esfuerzo es integral. AWS ha lanzado una batería de novedades, que serán motivo de otra crónica el mes próximo. En esta ocasión, vaya un anticipo del proyecto de un superordenador distribuido que la compañía piensa ofrecer como servicio. Cuando exista. Asimismo, se han presentado nuevas herramientas para desarrolladores, cuya finalidad es la gestión de cargas de trabajo en el tratamiento de modelos y de inferencia (la parte más operativa de la IA, quizás depreciada por la celebridad de los modelos lingüísticos). Gracias a la plataforma Bedrock, los clientes podrán trabajar con diferentes modelos, como Claude, de Anthropic, pero también con Llama, de Meta, sin excluir otros.

Decididamente, lo más llamativo está en el hardware, con la presentación del chip Trainium 2, cuyo rendimiento declarado es cuatro veces superior a la anterior generación – Trainium 1, obviamente – de 2020, el primero empleado para entrenar. Hubo antes otro chip, Inference, y todos han sido diseñados por Annapurna Labs, empresa israelí que Amazon adquirió por 350 millones de dólares.

El nuevo chip está diseñado para ayudar en el entrenamiento y el despliegue de grandes modelos, que son el motor de las aplicaciones de IA generativa actuales. Anthropic y Adobe, que ya han incorporado este hardware en sus operaciones, habrían conseguido entre un 30% y un 40% de ventaja en el balance precio-rendimiento con respecto a los aceleradores de IA. Esto podría suponer según la documentación un ahorro de millones de dólares en entrenamiento y operación.

La idea de Amazon es facilitar el entrenamiento de modelos de gran tamaño usando para ello su nube. Ha reunido un conjunto de 64 bits, bautizado como UltraServer, que se puede destinar a modelos muy grandes. Utiliza la tecnología NeuronLink, propiedad de AWS, para interconectar los Trainium 2. La compañía ha asegurado que estos servidores gigantes alcanzan picos de cómputo de 83,2 petaflops, suficiente para los modelos en desarrollo actualmente, que ya superan el billón [en español] de parámetros. El siguiente paso es el Trainium 3, que aparecerá durante el año entrante y multiplicará por cuatro el rendimiento de los Ultra Server.

Estos servidores son la unidad fundamental para el superordenador que AWS está construyendo en secreto bajo la denominación de Project Ranier. El cluster constará de cientos de miles de Trainium 2 conectados con una tecnología de redes de baja latencia propia de AWS. Se trataría, ya se ha dicho, de una megaestructura distribuida, destinada a entrenar las próximas generaciones de modelos de IA. Y que estará diseminada por múltiples localizaciones, pero Amazon se ha cuidado mucho de que las conexiones entre cada instalación usen un método de facturación propia de ultra alta velocidad en la transferencia de datos.

La complejidad es digna de reseña. AWS tiene que asegurarse de que la conexión entre los chips y los servidores sea óptima, a lo que se suma  la interconexión entre ubicaciones dispersas. Son muchos, pues, los puntos en los que el sistema puede perder eficiencia. Pero con este enfoque distribuido se adquieren ventajas: entre ellas, será más fácil encontrar fuentes de energía en distintos lugares para operar el sistema y se reducen las necesidades de refrigeración. Al dividirse en partes, será menos el calor que habrá que  disipar. Anthropic ha servido de apoyo en el diseño de chips y se espera que sea uno de los primeros externos en probar Project Rainer.

Cuando sea así, la startup tendrá a su disposición una capacidad de cómputo cinco veces superior a la que tiene ahora entre manos. Se entiende tanto mimo entre ambas compañías: una nueva inyección  de Amazon en Anthropic por valor de otros 4.000 millones de dólares, completa una  completan una inversión total de 8.000 millones que deja muy atrás la participación de Google, también socio inicial de los hermanos Amodei.

4.000 millones son peccata minuta para Amazon, si se tiene en cuenta que cerrará este año con un desembolso de 75.000 millones de los que una parte significativa irá a parar a los centros de datos y está previsto que la cifra aumente en 2025. De fondo está la intención de librarse al menos parcialmente de la dependencia de Nvidia, acosada por una demanda disparada y un atasco en la cadena de suministro.

Los gigantes tecnológicos empiezan a hartarse de la lista de espera de Nvidia, así como de su capacidad para imponer precios de sus GPU. Startups como Groq fabricante de GPU (no confundir con Grok, de Elon Musk), Cerebras o SambaNova Systems trabajan en productos que aspiran a competir con Nvidia. Y, al igual que Amazon, Microsoft y Google invierten en sus propios chips de IA para ganar autonomía de suministro.

Otro factor va en detrimento de Nvidia: el punto fuerte de esta es el entrenamiento de modelos de IA, pero las necesidades de cómputo podrían virar hacia la inferencia. A esta se le asignan más recursos en los modelos de razonamiento, como GPT o1, apodado Strawberry, que emplean más tiempo en procesar la consulta. Además, ya existen alternativas de chips, como LPU (language processing unit) y RDU (reconfigurable dataflow unit), que son más eficientes en este tipo de tarea que las GPU.

Lo cierto es que, ahora mismo, ninguna de las grandes tecnológicas puede permitirse el dejar de hacer pedidos a Nvidia, pero la tendencia a ganar autonomía es cada vez más notoria. Pese a ello, Amazon ha construido un cluster en colaboración con este fabricante, que cuenta con 20.000 GPU. Las previsiones para el mercado de semiconductores dedicados a la IA apuntan alto en una visión global: en 2024 se han gastado 117.500 millones de dólares y para 2027 se espera una inversión de 193.300 millones, según IDC. Y esto en un negocio que puede calificarse como incipiente.

La misma firma de análisis indica que el 95% del mercado de chips para IA pertenece a Nvidia. Y, por ahora,  los suyos forman la base ineludible de los superodenadores orientados a IA que construyen xAI o Meta. La startup de Elon Musk ha juntado 100.000 tarjetas Hopper AI en Memphis para construir  su máquina Colossus, pero espera que pronto lleguen a 200.000 y el próximo verano, a 300.000. Por su lado, la compañía fundada por  Mark Zuckerberg también entrena sus próximos modelos con un cluster de gran tamaño.

La diferencia entre ambos rivales y Amazon reside en que esta se propone ofrecer capacidad a terceros. En todo caso, de lo que no cabe duda es de que en estos proyectos de supercordenadores su principal rasgo es el tamaño. Como referencia, OpenIA entrenó la versión de ChatGPT que apareció a finales de 2022 (GPT 3.5) con 10.000 chips de Nvidia, pero prevé que la siguiente generación de modelos de IA se entrenará con un mínimo de 100.000 Blackwells.

Las inversiones necesarias son astronómicas. Los chips Blackwell harán su debut en el mercado muy pronto y se prevé que lo hagan por 30.000 dólares cada uno. Un cluster con 100.000 unidades costaría 3.000 millones, sin contar con el coste de los dispositivos  para la  interconexión y otro equipamiento, a lo que habria que sumar la  infraestructura energética. La escala es tal que en los círculos de la futura administración Trump ya hablan de un “Proyecto Manhattan” para la IA. Aunque la inversión vendrá en su mayor parte del sector privado, no podría hacerse sin el apoyo gubernamental en cuestiones vitales como la regulación y la energía.

En este revuelo, los chips de AWS y su superordenador distribuido pueden verse como formas de flexibilizar el acceso al entrenamiento de modelos, la misma filosofía que la compañía ha tenido siempre con los servicios de su nube. Es un enfoque que favorece a la industria de la IA, pero no hay que subestimar las rencillas de alto copete. Que Donald Trump le tenga manía a Jeff Bezos está relacionado con su condición de dueño del Washington Post, no con Amazon, pero la decisión de no recomendar un candidato a presidente – rompiendo la tradición del diario – ha propiciado un acercamiento justo a tiempo: el fundador de Amazon ha ofrecido – como otros magnates de esta industria, vulnerable a la regulación – donar un millón de dólares para la financiación del acto inaugural del 20 de enero. Al final, lo que menos importa es lo que cada uno piense del otro sino cuánto dinero estará en juego los próximos cuatro años. Que empezarán el 20 de enero.


Contacto Suscríbete RSS


Sobre el autor. Copyright © 2024 El dominio norbertogallego.com es propiedad y está administrado por Diandro SL. B85905537. Creative Commons