El Big Data no es la cuestión

teradata-university-itusersPor Leandro Ruiz, Director de servicios de Arquitectura en Teradata

Buenos Aires, 08 de mayo del 2013.— La gestión y análisis de grandes volúmenes de datos de distintos formatos provenientes preferentemente de Internet se está extendiendo paulatinamente en el mundo de las empresas. Así como la agricultura originó las ciudades, las redes sociales, los weblogs y la información generada por sensores, han creado una nueva organización social sin fronteras a la que llamamos Big Data.

Este fenómeno crece con fuerza principalmente en las empresas Punto Com como Google, Yahoo, Facebook, ellas fueron las pioneras en enfrentarse a estos desafíos, por el Volumen de información que generan diariamente, la Variedad de formatos, y la Velocidad de generación de la información.

Google fue la primera en crear tecnología para la gestión de grandes volúmenes de datos sobre hardware commodity con el desarrollo de Hadoop, software de código abierto y gratuito. El procesamiento paralelo masivo es lo que ha hecho a Hadoop tan popular. Se pueden utilizar muchos servidores de bajo costo funcionando en paralelo para analizar datos, mientras que en el pasado el análisis sólo era para datos estructurados proveniente de los sistemas tradicionales de las empresas.

La información  a analizar puede tomarse en cualquier formato disponible, incluyendo información no estructurada o multi-estructurada, como un tweet, youtube, weblogs, documentos HTML o JSON; el volumen de este universo de información crece 15 veces más rápido que la información estructurada.

Con los avances tecnológicos actuales es posible efectuar análisis complejos sobre estos datos, generando valiosos insights que pueden traducirse directamente en acciones que generen valor para la compañía.

Para lograrlo hay que simplificarle la tarea de análisis al usuario, brindándole la posibilidad de analizar la información que necesita sin importar donde se encuentre: si está en un Datawarehouse (información estructurada) o en otros formatos desestructurados, lo importante es poder accederla y manejarla sin necesidad de nuevos conocimientos técnicos especiales, sino reutilizando técnicas ya establecidas como estándares (por ejemplo, lenguaje SQL).

Es por eso que es necesario ir más allá de la información no estructurada, la clave está en que todos los datos de la empresa estén disponibles para ser analizados en conjunto. Así obtendremos una visión completa de las iniciativas sujetas a los análisis.