Big Data y la nueva visión de los clusters

big-data-task-tracker-intel-itusersLima, Perú, 08 de septiembre del 2014.— Entrevistamos a Hugo Morín, Enterprise Technology Manager de Intel Latin América, quien dialoga con nosotros acerca de la profunda transformación que hay detrás del concepto de la explosión de los «grandes datos» o «big data».

IT/USERS: Sr. Morín, el tema de Big Data, tiene varias aristas, ahora se está hablando de Big Traffic, Big Storage, Analytics ¿qué nos puede comentar sobre estos aspectos?

H.M.: Big Data, es para nosotros la explosión de los datos, además sobre esto tenemos las que llamamos las cuatro “V”, el volumen de los datos —mucha gente cree que Big Data sólo se circunscribe al gran volumen— y no sólo se trata de eso; también se trata de la Velocidad con la cual los datos van a entrar, sobre todo por la explosión de las redes sociales. Hay un montón de datos “no estructurados” que están llegando en diferentes formas, tenemos gran Variedad de datos. Entonces éstas son las tres primeras “V” que la gente, en general, utiliza para caracterizar Big Data. La última “V”, que nosotros agregamos, es la del Valor, extraer inteligencia y el mundo de Analytics entra a tallar en esto.

IT/USERS: Dentro de esta perspectiva, la de aprovechar mejor la información que pulula desorganizada por la red ¿cuál es la propuesta de valor de Intel, para comenzar a emprender algo efectivo con Big Data?

H.M.: Hay un par de aspectos que hay que tener en cuenta con su pregunta, Big Data es una realidad, es hoy más que un “buzzword” por el hecho que hemos visto en los últimos años un crecimiento en la capacidad de las plataformas de manera increíble. Hoy en día tenemos la capacidad de procesamiento para tratar este tipo de cantidad de información. En segundo lugar, el precio de Storage, la irrupción en el mercado de las unidades del tipo SSD, hace que el Storage pueda estar mucho más cerca, en mucho más grandes cantidades, cerca del procesamiento.

IT/USERS: ¿Los famosos iOPs?

H.M.: En realidad, va más allá que eso, es que al lado de comprarme una gran caja de Storage, SAN o NAS, que son cajas grandes con multitud de discos y con dos procesadores, estála nueva tendencia de colocar el Storage cerca del corazón del procesamiento, dentro de un mismo servidor, que físicamente sigue siendo el mismo. Lo que cambia es que voy a distribuir el Storage y el Procesamiento dentro de un Cluster de la misma manera que hacemos Supercomputadoras.

Este tipo de Clusters son posibles, por el avance de tecnologías “OpenSource”, y este esfuerzo se llama “Apache Hadoop”.  Este es el framework que está haciendo que yo pueda tener una Base de Datos distribuida y yo voy agregar un montón de datos, a una velocidad muy grande como hemos dicho, pero yo voy a tener una gran capacidad de procesamiento, para extraer el valor de la información y hacer in-memory database analytics en tiempo real y aprovechar mejor el valor de mis datos.

Otro aspecto que yo no he mencionado, es que es primordial de tener una red de 10GB vs 1GB, para un buen rendimiento del cluster. Discos de estado sólido SSDs aunque no serán al 100%) ayudan también al rendimiento de la plataforma, porque en un cluster del tipo Hadoop, cada bloque de datos está copiado tres veces. Si se quita un servidor no pierdo mi unidad, por eso yo necesito el ancho de banda que va hacer factible que yo pueda analizar esta gran cantidad de datos.

IT/USERS: En esta nueva propuesta, Usted nos habla de hacer una sola solución donde el Storage es crítico, para los temas de Big Data y cercano dentro de lo que es la ejecución del procesamiento de los datos ¿esta densidad computacional que ventajas implica, un mejor ROI, menos consumo de energía, de appliances cada vez más compactos?

H.M.: La ventaja principal aquí es realmente el costo, antes por tomar esta misma cantidad de Petabytes, para poder analizarlo te costaba un montón de almacenamiento tipo SAN, que tienen un costo muy alto. Ahora esta empresas están trabajando en los dos ambientes, tanto el clásico como en los entornos Hadoop, combinando los ambientes de datos estructurados con lo ambientes de los datos no estructurados.

IT/USERS: La ventaja técnicamente, ¿nos la podría Usted explicar con esta nueva arquitectura?

H.M.: Si tengo hoy, mi SAN a plena capacidad, por un tema de crecimiento de mis datos, y necesito ampliar —lo que me podría costar cientos de miles de Dólares, hasta que nuevamente se me llenen de datos. La otra visión es la del cluster, cada vez que yo necesito más capacidad de procesamiento o de espacio de disco, voy agregar un servidor de 2U con capacidad de disco, cuyo costo de adquisición, va a ser una fracción de una caja de Storage tradicional. Ya hay analistas que predicen que esta nueva arquitectura podría reemplazar el Data Warehouse tradicional.

Todavía no he visto clientes en América Latina, haciendo esto, pero las predicciones tanto por el lado del “Costo Total de Propiedad”, la escalabilidad de este tipo de sistemas, es grande.

IT/USERS: ¿De qué tipo de capacidad de almacenamiento estamos hablando, en un rack de 2U?

H.M.: Va a depender del fabricante, van a comenzar desde 12, 16 discos duros, y esto varía en la capacidad de cada disco duro, que pueden ser desde 1TB, realmente la capacidad de storage y de procesamiento está naciendo con la familia E5 de Intel que es muy potente, la Versión 2 que está disponible en el mercado hoy. Y en el 3er. Trimestre ya estaremos entregando la Versión 3 en USA y para América Latina en el 4to. Trimestre y con esta arquitectura lo que hacemos es re balancear la plataforma, la capacidad de procesamiento pero también los IOPs. Cómo voy a mover tanta cantidad de datos, es importante hacerlo de manera eficiente entre el CPU, la memoria y el I/O, y lo estamos haciendo con un tecnología llamada QPI (Intel QuickPath Interconnect).

IT/USERS: Estos nuevos servidores que Usted nos está comentado es una propuesta de Intel que va a venir a través de las marcas tradicionales…

H.M.: Si los haremos con socios como Cisco, Dell, HP, IBM, Lenovo, etc.; y fabricantes locales dependiendo de cada país. Lo que viene arriba de todo esto es una distribución de “Apache Hadoop” y escuchando los reclamos de nuestros clientes, vamos a mantener la plataforma “OpenSource”. Hicimos una inversión muy importante, por encima de los US $ 700 millones, para comprar la participación más grande en Cloudera. Vamos a poner nuevas características de optimización, basadas en la arquitectura de Intel, sobre Cloudera y agregando características con nuestros amigos de McAfee —Intel Security. Esa en nuestra propuesta de valor.

IT/USERS: ¿Esta “magia” de Cloudera —si es que estamos usando el término correcto— resulta entonces clave para que el universo del Big Data, sea más accesible?

H.M.: Alguna vez escuché por ahí —la cita es de Arthur Clarke— que ‘cualquier tecnología suficientemente avanzada es indistinguible de la magia’. Lo importante aquí que la tecnología es el vehículo y nuestro consejo para las empresas que desean comenzar lo hagan desde el punto de vista de su negocio. Qué se planteen la cuestión de qué ventaja yo deseo aprovechar del Big Data. Extraer el valor de los datos que provienen de los GPS, de las Redes Sociales, también conlleva un desafío para ir formando a una nueva especie de profesionales del futuro, a los que en la Industria llamamos “Data Scientist”, los nuevos “Científicos de Datos”, estimamos que en el futuro va haber una gran demanda de este tipo de profesionales.

IT/USERS: ¿Y qué cualidades deberían tener estos nuevos “Científicos de Datos”?

H.M.: Capacidades matemáticas, para crear los algoritmos para poder hacer conjugar el mundo del comportamiento social con el mundo de la interpretación de los datos. Definitivamente debe tener conocimiento técnico en Base de Datos y por supuesto, un buen conocimiento del negocio.

IT/USERS: ¿Qué va a pasar por ejemplo con la disciplina tradicional del Marketing?

H.M.: La diferencia aquí va a ser cambiar los paradigmas, de adoptar el poder de la tecnología y conjugarla con las metodologías de su disciplina. La gran información que pronto nos brindará el “Internet of Things” (IoT) y sin comprometer la privacidad de sus clientes.

IT/USERS: ¿Sería muy atrevido decir que un sinónimo o una metáfora de Big Data pueda ser el de “Oportunidad”?

H.M.: Para nada, el Big Data es el “buzzword” más grande de la Industria en este momento, potencialmente es la oportunidad más grande que tenemos del mundo de la tecnología para las empresas, para los negocios, para aumentar su eficiencia, su inteligencia, sus ganancias. Para los Gobiernos, la aumentar el conocimiento acerca de las necesidades de sus ciudadanos, para servirlos mejor. Lo maravilloso es que se puede comenzar de a pocos, en el caso de las PyMEs, o para quien lo desee, no estamos hablando de precios de adopción inaccesibles.

IT/USERS: Para finalizar ¿qué nos puede comentar acerca de las tendencias de SDC, SDN, Software Defined Everything?

hugo-morin-intel-itusers
Hugo Morin de Intel.

H.M.: En mi opinión, es el siguiente paso en la evolución del Cloud Computing, porque con todo el tema de la virtualización, la virtualización del Storage, pero después de esto ¿cómo podemos ir al siguiente paso?… ¿cómo podemos aumentar la gestión eficaz de los recursos de un Centro de Datos, sin intervención humana?… Aquí es donde comenzamos realmente a virtualizar las funciones de red, sacarlas de “cajas propietarias” y vamos alcanzar el paradigma de la “auto gestión”.

Entonces todo está definido por Software, antes era al revés, hoy en día se puede pensar que se va a tener un Pool de recursos, que es mi infraestructura, mi sistema no es un servidor, mi sistema es el Centro de Datos. Si Yo necesito algo para hacer una tarea muy específica, yo voy aprovisionar automáticamente, recursos de cómputo, de storage, de red; con appliances virtuales, que se pueden ahora definir por software, ya sea un Firewall, un Intrusion Detection System y toda mi red, se puede reconfigurar automáticamente, ellos van a seguir los atributos o los perfiles que Yo voy a crear para cualquier tipo de recursos.

Acerca de Hughes “Hugo” Morín

Hugues Morin lidera el área de Intel’s Latin America Enterprise Technology Specialists and Solution Architects. Con una trayectoria de 14 años en Intel, Hugues Morin y su equipo están centrados en el incremento de la adopción de las nuevas tecnologías y soluciones que dispone Intel y sus Socios, para el mercado latinoamericano. Antes de ocupar esta posición en el 2013, Hugues Morin lideró el área Americas Virtualization Marketing Manager.

Anteriormente, ocupó diversos posiciones en ventas y marketing en el Canadá, relacionadas tanto a la arquitectura de servidores como a las redes. Antes de unirse a Intel, Hugues Morin fue un renombrado ejecutivo de cuentas senior para dos grandes integradores de sistemas TI del Canadá.

Ahora,trabaja teniendo como sede la Ciudad de México. Morin es nacido en la región de Quebec, donde estudió ciencias en la LevisLauzon College y Biología en la Universidad Laval.

Video Relacionado (en Inglés)

http://www.intel.la/content/www/xl/es/network-adapters/10-gigabit-network-adapters/10-gbe-hadoop-demo.html?wapkw=big+data+video

Infografía Relacionada

big-data-infographic-intel-itusers