A pesar de lo que sugiere su nombre, Cloudera nunca fue una empresa consagrada al negocio de “la nube”. Nació en 2008 de un animoso proyecto de código abierto – Hadoop – y destinada a explotar otro concepto que estaba en auge en esos años, big data (tanto que se escribía con mayúsculas: Big Data). En los años siguientes, cotizó en bolsa durante un tiempo, se fusionó con Hortoworks, de parecida raíz y finalmente se retiró de la bolsa. Desde 2021, está controlada por dos gestoras de fondos de inversión, una de ellas la célebre KKR. Nunca ha dejado de crecer, resume Charles Sansbury, CEO desde hace quince meses. Quien ha estado en Madrid, parada de una conferencia itinerante, Evolve.
Charles Sansbury
En tal contexto, Sansbury concedió al autor de este blog una entrevista en la que se atrevió a relativizar algunos eslóganes que circulan por la industria acerca de dos asuntos clave: la nube y la inteligencia artificial. Confirmó que la analítica escalable de grandes volúmenes de datos sigue siendo la razón de ser de la empresa que dirige: cuanto mayor sea una organización, más dispersos estarán esos datos y no todas las fuentes serán igualmente fiables.
Me consta personalmente que Cloudera no es una startup: conocí sus fundadores en Palo Alto en 2012. Pero si no me equivoco, la de hoy es la primera presentación masiva de la compañía en España. Parece una buena señal […]
Hemos hecho siete convocatorias como esta en varias geografías, dos en Europa occidental. La experiencia me dice que cuando un software funciona y es relevante para los clientes, su mercado alcanza con rapidez una dimensión global. Esto es lo que pasa con nuestro negocio: menos de la mitad de los ingresos proceden de Norteamérica, pero el porcentaje europeo es muy alto y crece ávidamente. Por cierto, España es uno de los países en los que mejor se ha entendido el concepto de una solución 100% transversal en los tres entornos de computación. En este momento, tenemos clientes en treinta países con capacidad para dar soporte a nuestros productos en 24 horas durante siete días a la semana.
¿Cómo ha sido la evolución de la empresa desde el último movimiento accionarial?
Tendré que remontarme más atrás; según me han dicho, usted conoció Cloudera antes que yo [risas]. Salió a la luz en 2011 como compañía fundacional de big data basándose en la implementación de Hadoop, un proyecto que originalmente fuera open source y llegaría a convertirse en estándar de facto conquistando un alto número de empresas como usuarias […]. Con el paso del tiempo, esos clientes empezaron a echar en falta más capacidad, más seguridad y más soporte a su escala. La salida a bolsa en 2017 coincidió con una transición en el producto. Luego, la fusión con Hortonworks daría lugar a una nueva fórmula de Cloudera como plataforma de datos […]. Actualmente, con Ozone como sustituto de Hadoop, ofrecemos un rendimiento muy superior y más escalable, hemos podido implementar nuevas funcionalidades de ingeniería de datos, data warehousing, machine learning e inteligencia artificial, de manera que no sólo suministramos una plataforma de datos sino nuevas capacidades de data services.
Muy interesante, pero ¿qué efecto o efectos ha tenido el retorno de Cloudera a la condición de empresa no cotizada? A simple vista, se puede pensar en un paso atrás […]
Todo lo contrario. Lo que he descrito ha aflorado gracias a la inversión bajo la nueva propiedad. Desde ese momento, hemos dedicado unos 1.000 millones de dólares a I+D en los últimos cuatro años y se han hecho un par de adquisiciones. La más importante, una compañía que nos aporta capacidades de catalogar datos, junto con la gestión de metadatos y el linaje de datos. Es decir, la habilidad de rastrear cada pieza de datos para ver de dónde procede su presencia en los sistemas. Básicamente, aumenta la calidad de los datos que van a ser analizados.
[…]
Hablo de uno de los grandes desafíos en los que ayudamos a que los clientes de Cloudera para que puedan resolverlos. La idea es que los datos sean realmente fiables para su análisis. Porque cualquier gran organización tiene una masa de datos muy dispersos cuya autenticidad es muy difícil de determinar. Mucho de lo que hacemos es precisamente eso, ayudar a las empresas a que establezcan un framework para la fiabilidad de sus datos […] Como puede ver, han pasado muchas cosas desde Hadoop a la actual plataforma de Cloudera […] Temo haberme extendido demasiado.
No, en absoluto. Me quedo con un resumen propio: la nube no es el mejor sitio para procesar IA […]
Se arriesga a otra respuesta larga [risas]. Cloudera, ya en su fundación, no era una compañía cloud. Y ahora, dieciséis años después, los clientes nos ven como una plataforma que les permite mover una cantidad de datos a la nube. Muchas de sus iniciativas comienzan en el modelo cloud, pero esto no les impide más bien les aconseja, hacer cosas en una infraestructura privada de su propiedad o en un centro de datos corporativo. Lo que estamos viendo es que grandes organizaciones – nuestra clientela típica, porque en el mid-market las cosas serían diferentes – se están moviendo hacia una arquitectura híbrida que les da la posibilidad de correr cargas on-premise, en una nube privada o en la nube pública, una opción para la que nuestros cimientos tecnológicos son idóneos. Somos la única compañía que les permite correr cargas en esos tres entornos en un formato nativo […]
¿Puedo pedir un desglose de esa capacidad hibrida?
Uno de nuestros capítulos de inversión se ha centrado en aumentar las capacidades cloud, de manera que Cloudera está en condiciones de gestionar cargas en esos entornos […] En la nube publica, digo, porque siempre hemos estado en condiciones de gestionar cargas en la nube privada o bien on-premise. Lo que nos hace singulares en el mercado, es que somos el único proveedor que puede manejar una carga a través de múltiples entornos y que permite a los usuarios decidir que una determinada carga se empareje con otra en la plataforma adecuada. Hay determinadas cargas que necesariamente tienen que estar on-premise, pero otras – por su naturaleza efímera como una promoción, por citar un ejemplo conocido – que plantean necesidades variables, podrían provocar una saturación peligrosa, de modo que llevarlas a la nube pública es una alternativa razonable.
¿Cuál es la originalidad de Cloudera en ese contexto?
Inicialmente, muchas compañías corren ese tipo de cargas en la nube, pero cuando tienen que llevarlas a producción las mueven on-premise. Pensamos que confiar en la nube pública es acertado en determinados casos, pero no tan bueno en otros. Y puede no ser suficiente para cubrir todas las necesidades de computación. En los quince meses que llevo en la compañía, he conversado con multitud de directivos de distintos sectores y en muy diferentes países. Al principio, prácticamente todos mencionaban la posibilidad de mover cargas a la nube pública, pero en los últimos meses el tono ha cambiado.
¿Por qué, según su interpretación?
Porque, esta es mi visión después de esas conversaciones, muchos clientes – bancos, compañías de seguros, ramas de gobiernos, entre ellos – han descubierto que, para ciertas cargas, la nube pública es significativamente más cara o tiene menos manejabilidad, por no mencionar la ansiedad actual por la soberanía tecnológica.
¿La IA no puede estar cambiando esa percepción?
Entiendo que lo dice porque la IA generativa incorpora cargas muy intensivas, un asunto que ha surgido en una discusión esta mañana. La IA generativa ha crecido en la nube y ha sido entrenada con datos públicos, de esto no hay duda, pero cuando hablamos con las grandes compañías acerca de cómo van a desplegarla en sus organizaciones, las respuestas que recibimos coinciden en que on-premise y private cloud serán de facto los entornos operativos de la IA a la escala de esas compañías. Por supuesto, no es que no valgan para la nube pública, sino porque sería demasiado caro y – como se nos ha dicho repetidamente – la reducción de costes debería ser la primera ventaja de subir cargas a la nube, pero no ha sido así.
¿Es su argumento con ese tipo de interlocutores?
Todo el mundo sabe que los dos grandes componentes de coste en la nube pública son la electricidad y los dispositivos de computación, que no van a bajar de precio en los próximos cinco años. Y esto no sólo porque los grandes factores de coste en cloud computing no sólo no van a descender sino que podemos esperar subidas en los próximos dos años.
Necesaria, pero no suficiente, ¿esa sería su observación?
Sería el primer punto. El segundo, específico de la IA generativa, es que las grandes compañías con las que he hablado están trabajando con modelos en infraestructuras propias; con sus datos, no con datos genéricos. De esta manera, se sienten capaces de controlar los costes, la seguridad y la accesibilidad de los datos corporativos. Esto sin si quiera llegar a hablar de las cuestiones relativas a la propiedad intelectual […]
¿Es posible generalizar?
No lo veo realista. Por mi parte, probablemente habré hablado con casi la mitad de los bancos más grandes del mundo, he hablado con algunas de las mayores industrias, con operadores de telecomunicaciones y con unos cuantos organismos públicos […] Y con todos ellos han aflorado, con distinta intensidad, una serie de asuntos comunes. El más recurrente, si no recuerdo mal, es la extracción de datos de múltiples fuentes para llevarlos a una estructura y luego ejecutar su analítica contra un data lake. Tres compañías estaban empeñadas en demostrar que pronto obtendrían retornos de esas iniciativas apoyándose en la IA.
¿Lo consiguieron?
No es lo relevante […] Hace un año y medio, poca gente había oído de la existencia de ChatGPT, que ahora es ubicuo. Pero que se hable de ello todo el tiempo no impide que se trate de un punto temprano en la evolución del uso corporativa de la IA. Claro está que se buscan casos de uso que produzcan resultados rápidamente y justifiquen el esfuerzo y la inversión, pero la verdad es que nadie ha encontrado una aplicación que merezca se calificada de killer y que sea de utilidad evidente para las grandes corporaciones.
[….] también se han mostrado resultados.
Es cierto que vemos algunos éxitos de la IA generativa en la tarea de completar código, en la generación de contenidos de marketing o en el alivio de trabajo de los equipos jurídicos. Igualmente, se conocen interesantes aplicaciones en el soporte a clientes, pero también son, me temo, inmaduras. Prácticamente todas las compañías que conozco están invirtiendo dinero para alcanzar algún resultado tangible, pero es pronto para eso.
.¿Cuándo se cruzará la línea que separa las pruebas de concepto de IA generativa y una implementación a escala?
Nuestros clientes son, principalmente, grandes bancos y muchos organismos públicos en varias partes del mundo; telecos y compañías de tarjetas de crédito, corporaciones industriales […] todos ellos con grandes volúmenes de datos disponibles para ser analizados. Y con la mayoría de ellos llevamos bastante tiempo haciendo análisis, porque este ha sido el oficio de Cloudera. El problema que se les presenta y nos trasladan es cómo transformar esos datos, normalmente vistos como predicciones, en decisiones accionables.
Sería bueno que se extendiera sobre el trabajo de Cloudera con esos bancos que, obviamente, no va a nombrar […]
Con una decena de bancos hemos tratado de abordar las aplicaciones de detección de fraude, obviamente imprescindibles. Hemos podido generalizar lo hecho en esa fase y esto nos coloca en posición de hacerlo con otros bancos. Claro que no podemos darles una respuesta prescriptiva, porque cada banco tiene unos fundamentos tecnológicos y unas aplicaciones diferentes. Pero creemos haberles ayudado en el que probablemente sea el mayor de sus problemas cómo pasar del concepto a la producción.
¿Esto significa que Cloudera ha ganado clientes con su nueva oferta?
Históricamente, nuestro foco ha consistido en defender la base instalada, porque están entre las 2.000 mayores compañías del mundo y se caracterizan por tener que afrontar apremiantes problemas con sus datos. Pero esto no quiere decir que no busquemos nuevos clientes y expandir la base instalada.
También el crecimiento inorgánico […]
Nuestra política de adquisiciones está dictada por las necesidades de los clientes. Algunos nos dijeron “nos gustaría que Cloudera tuviera la capacidad de gestionar modelos LLM tanto en pruebas como entrando en producción”. Y en junio pasado, compramos Verta, que se ocupa precisamente de eso. Luego, hace pocas semanas, adquirimos otra empresa, Octopai tras haber escuchado el parecer de clientes que pasaban momentos difíciles para asegurar la calidad de los datos. Previamente rastreamos una docena de empresas dedicadas a catálogos, gobernanza y linaje de datos; francamente creemos haber escogido la mejor tecnología.