NorbertoGallego.com :: Análisis de mercados y empresas de tecnología

4/06/2013

¡No tan rápido, Big Data!

La ansiedad de la industria por revitalizar el adormecido gasto de las empresas en tecnología de la información ha dado alas a otro de esos fetiches verbales que se repiten acríticamente: Big Data. El marketing se ha apoderado de ella casi naturalmente, pero no todo lo que se promueve como Big Data debería arroparse bajo ese manto. Claro que una inyección de optimismo estadístico siempre ayuda: según IDC, este mercado crecerá mundialmente al 31,7% anual hasta llegar en 2016 a unos 18.000 millones de euros, por lo que será uno de los segmentos de mayor crecimiento. Un informe de Gartner matiza que una vez se alcance la meseta del 15/20% de adopción, vendrá un «bache de desilusión».

No está claro qué segmentos y categorías se incluyen o no en las previsiones de mercado. Aún así, podría decirse que es «la madre de todas las tendencias». Claro que es posible recelar del marketing y de una cierta vaguedad en las definiciones, pero resulta innegable que la suma de negocios de capturar, almacenar, procesar, analizar y visualizar datos es una de los mejores yacimientos que hoy puede explotar el sector de las TI.

Definir Big Data no es tan fácil como sugiere la frecuencia con la que se usa el cliché. Forrester Research, por ejemplo, lo resuelve asÍ: «técnicas y tecnologías que permiten capturar valor de los datos en un extremo de la escala económica», y añade que esa secuencia, que no hace mucho podía llevar semanas, hoy es posible en tiempo real.

Es el producto de tres fuerzas combinadas, la primera de las cuales es la enorme cantidad de información digital que se recoge, se almacena, se procesa y se analiza continuamente, mucha de la cual se pierde por el camino. La segunda es la heterogeneidad de esa información, que puede abarcar desde una compra online hasta el perfil actualizado de los usuarios de Facebook, desde el registro del tráfico telefónico al consumo de electricidad, desde los miles de millones (acaso ya son billones) de tuits a las fotos compartidas. Suma y sigue. Pero la tercera fuerza es verdaderamente crucial para que Big Data se diferencie de las técnicas de tratamiento masivo de datos que son usuales desde hace años: la necesidad imperiosa de combinar, masticar y digerir la información tan rápido como sea posible para extraer su valor. Ya mismo.

Se da por sentada la asociación entre esta pasión marketiniana y el fulgurante crecimiento de las colecciones de datos que acumulan Google, Facebook o Amazon (un buscador, una red social, una tienda online), pioneros de los procesos de análisis a gran escala en tiempo real. Lo que implica un sesgo en la definición. Es verdad que algunas de esas técnicas usuales, como la base de datos no relacional Hadoop, se desarrollaron dentro de Yahoo y Google antes de expandirse como software de código abierto, que ha sido adoptado por prácticamente todos los grandes de la industria.

Lo que realmente importa es que los datos están ahí: los usuarios aportan de continuo, voluntariamente o no, a sabiendas o no, tal cantidad de información que – debidamente analizada – permite a esas empresas, y a muchas otras con las mismas técnicas, ejercer un seguimiento de sus deseos, intereses o necesidades, de sus convicciones y debilidades, y ese seguimiento puede hacerse – de hecho se hace – a través de sus propios dispositivos móviles.

No se trata, por tanto, de volúmenes binarios almacenados a granel y sin aprovechamiento directo. El director de tecnología de Amazon, Werner Vogels, precisa que los datos son sólo la materia prima que ayuda a su empresa a entender los intereses de los usuarios [algo parecido dirían sus colegas], por lo que la cuestión clave es la calidad, no la abundancia.

Las grandes cantidades de datos no son nada nuevo en ciertos sectores, y la informática ha creado durante años herramientas de análisis que aún son útiles, en la banca o en la gestión de inventarios. Según las épocas, han ido cambiando de nombre: de data warehousing o data mining a business analytics o business intelligence; claro que hay diferencias, pero su última encarnación sería Big Data. Con un cambio muy importante, la incorporación de nuevos formatos, los llamados datos no estructurados, generalmente procedentes de las redes sociales y los blogs. Los estructurados son todavía mayoría, pero no se sabe por cuánto tiempo.

Como toda tecnología, recuerdan los escépticos, la potencia predictiva de Big Data puede ser usada para bien o para mal. Por ejemplo, la publicidad personalizada podría considerarse un avance o una intromisión, según por quién, pero en cualquier caso los críticos piensan que abre las puertas a la manipulación de los consumidores. Una evidencia.

Que los datos facilitan la solución de los problemas, es también una evidencia. Vale para la investigación genómica, la predicción meteorológica, la lucha antiterrorista o – ejemplo: la campaña de Obama 2012 es citada como caso de estudio – para persuadir a los votantes. Google nos dice qué noticias van a interesarnos, Amazon recomienda libros presuntamente afines a nuestros gustos, la tienda iTunes hace lo mismo con la música, y Facebook ayuda a millones de usuarios a ser consecuentes en la elección de ´amigos`. De manera genérica, puede concluirse que los consumidores aceptan de buen grado que sus datos personales sean almacenados y gestionados por terceros. ¿Lo aceptan realmente?

No necesariamente más volumen de datos significa obtener respuestas adecuadas. La calidad de las respuestas no está inscrita en los propios datos – conjuntos diseñados por humanos – sino en el dominio de las disciplinas necesarias para sacar partido de ellos, en el conocimiento científico subyacente. ¿Y qué pasa en la práctica? Que la invención de un nuevo fármaco hoy depende más de los datos que de la química; en otro ejemplo tópico, que la investigación sobre petróleo exige grandes volúmenes de datos que el mejor equipo de geólogos no podría analizar por sí mismo. De ello se desprende, afirman los evangelistas de Big Data, que las universidades deberían producir más científicos especializados en datos. Harvard Business Review ha desplegado esta tesis: la de data scientist será la profesión más sexy (sic) de los próximos años. Implícitamente, ahí está un cuello de botella.

La controversia más obvia tiene que ver con la intimidad de los usuarios, también llamada privacidad. El World Economic Forum – más conocido por sus reuniones anuales en Davos – publicó este año un informe, Unlocking the Value of Personal Data: From Collection to Usage, en el que recomienda cambios restrictivos en la regulación, para evitar infracciones contra la privacidad, que escapan al control de la imperfecta legislación vigente. Una de esas recomendaciones contempla que los datos almacenados sean etiquetados con un código de software que incluya las preferencias de uso que han registrado los usuarios. Pero, nuevamente, los críticos sostienen que sería confiar más en las herramientas que en las reglas. Mientras tanto, Big Data corre imparable.

[publicado en La Vanguardia el 2/6]