Recapitulando la primera parte: 1) Hadoop está en boca de todos, pero pocos sabrían definir cuál es su rol, 2) Cloudera se ha asegurado el sostén financiero para decidir su futuro y 3) al invertir en Cloudera, Intel se ha metido de lleno en un terreno al que otros sólo se han asomado. Por el lado de la demanda, muchas compañías están llegando a ese momento en el que les suena el ruido del ´nuevo paradigma` de Big Data. Para algunas, es pura supervivencia contar con sistemas que puedan analizar la ingente masa de datos que generan a cada instante. Es un discurso que se repite cada día en algún seminario, conferencia o white paper avalado por la flor y nata entre los proveedores de TI.
En poco tiempo, Hadoop ha adquirido el aura propia de una palabra mágica que puede conjurar todos los problemas de superabundancia de datos. Del concepto de data warehouse, bien conocido, se ha pasado a otro en el que la capacidad analítica es más importante que la gestión de los repositorios. Desde el año pasado, ha quedado claro que los módulos de Hadoop evolucionan hacia su integración en plataformas, para que su uso y explotación esté al alcance de las empresas. Una tecnología con reputación de abstracta, ¿podría ser una amenaza para las arquitecturas tradicionales? Las distribuciones de Hadoop – Cloudera, Hortonworks, MapR, y otras menores – han ganado en capacidad de integración, gracias a sus acuerdos con IBM, HP, Microsoft, Oracle, SAP, etcétera, etcétera, que alteran el paisaje.
Por el momento, ningún actor domina claramente la escena, pese a la abundancia de candidatos. Un estudio de Forrester Research apunta que las empresas sólo analizan actualmente el 12% de la información que contienen sus sistemas-de-información. Otros analistas estiman un crecimiento del 42% para el mercado global de Hadoop entre 2013 y 2018, un mercado que explica esta dinámica del mercado que dividen en varios elementos: consultoría, formación, outsourcing, integración, y desarrollo, además de middleware y soporte. La integración y el desarrollo de servicios analíticos sería la parte con mayor potencial de crecimiento, y esto significa que los líderes en facturación no serán las distribuciones open source sino las compañías establecidas.
También Forrester indica que las empresas no pueden meter todos los datos que tienen y meterlos en una infraestructura del tipo Hadoop sin más, sin saber qué información les interesa y cómo van a extraerla y explotarla. Por consiguiente, Hadoop es sólo parte de la solución, y ahí se abren distintas posibilidades de colaboración.
¿Quién sale ganando con esos acuerdos? Forrester recuerda, porque viene al caso, que Amazon Web Services (AWS) ha obtenido más beneficios de MySQL que Oracle, que adquirió la base de datos dentro de la dote de Sun. Otro ejemplo sería Linux, que ha dado mucho más que ganar a IBM con sus servicios que a RedHat. Una perversión de esta dinámica es que las compañías de tecnología ´propietaria` no tienen interés en influir sobre el desarrollo de distribuciones que, como Hadoop, se cobijan bajo el amparo de la fundación Apache: en el mejor de los casos su contribución a la comunidad es mínima, como señalaba tiempo atrás Doug Cutting, uno de los ´padres` de Hadoop (e inspirador de su mascota-logo) y actual presidente de la Fundación Apache.
Lo que hacen los grandes de la industria – apuntaba Cutting durante aquella cena de 2012 – es «chupar rueda», empaquetar soluciones que respondan a las necesidades de sus clientes; hasta ahí llega el partnership posible para las distribuciones Hadoop. IBM y Oracle mantienen vigentes sus acuerdos formales con Cloudera, pero la desconfianza mutua es ostensible. HP, que tiene trato histórico con MapR, considera que es demasiado compleja para muchos de sus clientes, por lo que – tras la adquisición de Vertica – parece inclinarse por desarrollar una alternativa light. Teradata – un nombre histórico del data warehousing – integra en sus productos la distribución de Hortonworks, mientras que Microsoft ha elegido esta misma para HDInsight, que funciona sobre Azure. Todos están en el mismo barco.
O no. En este contexto, Cloudera quiere desempeñar un papel propio, algo que para Hortonworks y MapR se presenta más difícil (a menos que lleven otra carta financiera en la manga). El CEO de la primera, Tom Reilly, no oculta que aspira a competir con IBM tras el lanzamiento de su plataforma Enterprise Data Hub, pero el gigante azul no será el único competidor al que tendrá que enfrentarse. Reilly asegura que su distribución de Hadoop se mantendrá fiel a la arquitectura abierta de Apache. Pero, para distinguirse en el mercado, EDH empaqueta la distribución con software de gestión – ´propietario` – y servicios de soporte para varios módulos.
Los algo más de 300 clientes de pago que declara Cloudera no parecen muchos para tanta ambición, pero podría tener en mente la conversión de otros, varios miles, que han descargado su distribución gratuita y podrían pasar este año y el próximo a la fase de producción, pagando por ello.
La auténtica sorpresa de las últimas semanas ha sido la entrada de Intel en la ronda de financiación de Cloudera, con una aportación de 740 millones de dólares. No se ha informado claramente, pero al parecer esos fondos han absorbido paquetes de acciones de los primeros inversores y de una parte de los empleados. Lo importante es que el monto asignaría a Intel la propiedad del 18% de la compañía, cuya valoración implícita asciende a 4.100 millones de dólares. Gana así una posición relevante en el consejo e influencia sobre la estrategia a seguir.
¿Por qué este movimiento de Intel? Diane Bryant, VP de la compañía a cargo de los negocios de datacenter, lo ha dicho con claridad meridiana: «Hadoop será la aplicación que se desplegará en los próximos años en más servidores que ninguna otra aplicación empresarial […] Al alinear las hojas de ruta de Intel y Cloudera, podemos crear juntos la mejor plataforma analítica de Big Data y acelerar el crecimiento del mercado».
Con esta decisión, Intel tomó otra simultánea: dio por concluída la experiencia de crear su propia plataforma analítica open source, para traspasar ese esfuerzo a Cloudera. La inversión es significativa no sólo por su monto. Intel necesita afianzarse en el mercado de los centros de datos corporativos y de servicio cloud, porque este mundo se va desplazando desde las tecnologías ´propietarias` hacia sistemas basados en núcleos open source; en cierta medida, Hadoop está en el centro de esa transformación, viene a decir Bryant. Lo que no dijo, pero se da por entendido, es que pretende integrar Hadoop en la arquitectura x86, por una sencilla razón: a más nodos en producción, más chips venderá Intel.
La segunda tendencia en la que se inscribe la inversión de Intel es la nube. Cloudera ha empezado a dar pasos en esa dirección: facilitar la entrega de servicios analíticos según el modelo cloud, que deberían prestarse a través de un ´ecosistema` de centros de datos. La tercera es Internet of Things: ¿dónde van a estar y cómo se van a analizar los datos generados por este fenómeno de enormes proporciones? Juntos, Intel y Cloudera podrían optimizar las respectivas tecnologías para que sirvan de plataforma con esa finalidad. Pivotal, criatura salida de las entrañas de EMC y VMware, se han asociado con General Electric para desarrollar una plataforma de Internet industrial que, se puede suponer, será el competidor con el que se cruce la nueva alianza de Intel y Cloudera.