AdChoices
  • EDITORIAL
  • LA REVISTA
  • CONTACTENOS
  • Suscripción VIP a IT/USERS®
  • TwitterFacebookGoogle PlusLinkedInRSS FeedEmail
IT/USERS®
  • ANIXTER/CORNER
  • APPLE/CORNER
  • APPS/WORLD
  • CASO DE EXITO
  • e-GOVERNMENT
  • eBOOKs
  • EDITORIAL
  • ENTREVISTAS
  • GADGETS & WEARABLES
  • GAMING & OVERCLOCKING
  • GREEN IT
  • INTEL/CORNER
  • IT/APPLICATIONS
  • IT/CARS
  • IT/CHANNELS
  • IT/CONSULTING
  • IT/ENGINEERING
  • IT/EVENTS
  • IT/INFRASTRUCTURE
  • IT/INNOVATIONS
  • IT/JOBs
  • IT/LEARNING
  • IT/MEDICAL
  • IT/PRODUCTS
  • IT/SECURITY
  • IT/SPECIAL REPORT
  • IT/TRENDS
  • LA REVISTA
  • NETWORKING & MOBILE
  • NOMBRAMIENTOS
  • NUESTROS EVENTOS
  • PRINTING/SOLUTIONS
  • PRODUCT REVIEW
  • STORAGE
  • Uncategorized
  • VIDA DIGITAL
  • VIDEOS
IT/USERS Dream 1

IT/USERS Dream 1

IT/USERS Dream 2

IT/USERS Dream 2

IT/USERS Dream 3

IT/USERS Dream 3

IT/USERS Dream 4

IT/USERS Dream 4

IT/USERS Dream 5

IT/USERS Dream 5

septiembre 28, 2012   IT/TRENDS

Big Data: Piensa rápido

Colin-White-itusersPor Colin White* Fundador y Presidente de BI Research

Lima, 28 de septiembre del 2012.— El desarrollo de las tecnologías para el análisis de Big Data está evolucionando rápidamente. Este crecimiento ha despertado el interés en nuevos enfoques como el Hadoop MapReduce y Hive, además de las extensiones de MapReduce para relacionar los sistemas de gestión con las bases de datos (DBMSs).

MapReduce permite a las organizaciones procesar y analizar rápidamente grandes volúmenes de datos multi-estructurados, de esta manera las empresas podrán tomar mejores decisiones de forma más rápida. Para esto, necesitan una plataforma que ofrezca a sus usuarios la capacidad de ingerir, estructurar y analizar la información.

Cuándo y dónde usar MapReduce

Por lo general, los programadores prefieren los enfoques de procedimiento para acceder y manipular datos ofrecidos por Hadoop MapReduce, mientras que los no-programadores prefieren los lenguajes declarativos en la manipulación vinculada a DBMS y SQL.

Sin embargo, la disponibilidad de un lenguaje similar a SQL en Hadoop Hive y la adición de funciones de MapReduce en DBMS hace las preferencias más complicadas. Los programas de MapReduce pueden procesar los datos almacenados en el archivo de base de diferentes sistemas. Cada uno tiene sus ventajas y desventajas específicas:

Hive para mejorar el desarrollo de MapReduce

Para el procesamiento secuencial de grandes archivos de datos multi-estructurados, como registros web se recomienda usar Hadoop Hive o Hadoop MapReduce. El principal beneficio de Hive es su capacidad de mejorar la simplicidad y la rapidez del desarrollo de MapReduce. El optimizador Hive también hace más sencillo el procesamiento de archivos relacionados entre sí, además su sCintaxis SQL lo hace fácil de usar para los no programadores que se sienten cómodos con SQL.

La desventaja es que el optimizador Hive no está completamente aislado del sistema de archivos subyacente, lo que implica que, con frecuencia, el usuario requiera ayuda del optimizador con construcciones de lenguaje para procesar consultas más complejas. El manejo tradicional de SQL extiende el uso de Hive a los datos estructurados. Sin embargo, Hive no puede sustituir a la funcionalidad, facilidad de uso, el rendimiento y la madurez de un DBMS relacional.

hadoop-hive-diagram-itusersDBMS para datos aislados

Si los usuarios de SQL desean conservar los datos físicamente independientes, deben utilizar un DBMS relacional que mantiene a los puntos de vista físicos y lógicos de datos completamente aislados unos de otros, proporcionando independencia física. Esto tiene la ventaja de permitir a los proveedores extender o añadir motores de tiempo de ejecución y de almacenamiento de datos sin afectar a las aplicaciones existentes. La base de datos Teradata Aster, por ejemplo, incluye un motor de tiempo de ejecución para el procesamiento MapReduce y un mecanismo que permite el almacenamiento de datos tanto de filas como de columnas.

Agregar MapReduce para un DBMS relacional extiende su uso a datos multi-estructurados. Algunos fabricantes ahora son compatibles con las funciones de MapReduce dentro del DBMS. Esto ofrece el beneficio de implementar funciones definidas por el usuario y también añade las ventajas de MapReduce para el entorno relacional DBMS, tales como la capacidad de procesar múltiples datos estructurados utilizando SQL.

Aunque la independencia de los datos hace la vida más fácil para quienes no son programadores, la desventaja es que los desarrolladores experimentados tienen poco o ningún control sobre cómo se accede a los datos y procesos. En su lugar, tienen que confiar en el optimizador relacional para tomar las decisiones correctas acerca de cómo se accede a los datos.

Hadoop para el procesamiento rápido

Hadoop es una buena opción para las organizaciones con grandes cantidades de datos multi-estructurados, lo que les permite procesar petabytes de datos en forma oportuna. Los sistemas no relacionales como Hadoop no son nuevos, pero ahora están diseñados para aprovechar el hardware de productos básicos en un entorno de computación distribuida a gran escala y se han hecho disponibles con código abierto.

Hadoop tiene varios componentes:

  • Sistema de archivos (HDFS) que almacena y replica archivos grandes a través de los nodos de máquinas múltiples. Puede ser una fuente o sistema de archivo de destino para los programas de MapReduce.
  • MapReduce es el modelo de programación para distribuir el procesamiento de archivos de datos de gran tamaño (normalmente archivos HDFS), a través de un grupo de máquinas grande.
  • Hive ofrece el lenguaje SQL-like (HiveQL) y opitimiza la creación de puestos de trabajo MapReduce para el análisis de los archivos de datos de gran tamaño.
  • Hadoop tiene sus inconvenientes: HDFS soporta varios sistemas de lectura y sólo un escritor. Dado que no se prevé un mecanismo de índice, es el más adecuado para aplicaciones de sólo lectura. La ubicación real de los datos dentro de un archivo de HDFS es transparente a aplicaciones y software externo, lo que significa que el software construido en la parte superior de HDFS tiene poco control sobre la colocación de datos o el conocimiento de la ubicación de los mismos, lo cual puede hacer que sea difícil optimizar el rendimiento.
  • Aunque Hadoop MapReduce puede procesar grandes cantidades de datos, la codificación del mapa y la reducción de los programas que utilizan las interfaces de bajo nivel de procedimiento consumen mucho tiempo.

DBMS relacional MapReduce para inmersiones profundas

Si una organización necesita realizar análisis sofisticados en un conjunto diverso de datos estructurados y multi-estructurados, una buena opción es un DBMS relacional que soporta MapReduce, así como también  la plataforma de Teradata Aster MapReduce. La fusión con SQL (SQL-MapReduce) preserva los beneficios de independencia declarativa y de almacenamiento de SQL, mientras que la explotación de la fuerza del enfoque procesal MapReduce permite ampliar las capacidades analíticas de SQL.

SQL-MapReduce crea una biblioteca de funciones analíticas preconstruidas para acelerar el desarrollo de aplicaciones analíticas. Las funciones que proporciona son: camino, patrón, estadística, gráfico, textos y análisis de conglomerados y transformación de datos.

Las funciones personalizadas se pueden escribir en varios idiomas, incluyendo Java, para su uso en proceso por lotes y entornos interactivos. Uno de los objetivos clave de la base de datos Teradata Aster es hacer que sea más fácil para los usuarios menos experimentados explotar las capacidades analíticas de las funciones existentes MapReduce y envasado.

Aprovechar al máximo

El análisis en Big Data y las tecnologías asociadas, ofrecen beneficios importantes para las empresas.

Para los datos que se mantienen fuera de capacidad de almacenamiento, los desarrolladores deben evaluar cuidadosamente si desean utilizar un DBMS relacional (como Teradata Aster) o un sistema no-relacional (como Hadoop con Hive).

Debido a los múltiples enfoques y componentes disponibles en la actualidad, las organizaciones deben pensar en esta nueva infraestructura de almacenamiento de datos ampliados como algo esencial si se quiere sacar el máximo provecho de su información.

* Colin White es reconocido por su amplio conocimiento en Business Intelligence y las tecnologías de colaboración empresarial.

Acerca de Teradata

Teradata Corporation (NYSE: TDC) ) es el líder mundial en soluciones de análisis de datos, centrada en el data warehousing integrado, análisis de grandes datos y aplicaciones empresariales. Los innovadores productos y servicios de Teradata proporcionan integración y directrices a las organizaciones para lograr una ventaja competitiva. Para más detalles, visite teradata.com.

Big Data, código abierto, computación distribuida a gran escala, datos multi-estructurados, DBMS relacional, DBMSs, Hadoop MapReduce y Hive, HDFS, SQL, SQL-like (HiveQL), Teradata Aster
  • ¡Lea IT/USERS N° 128!

  • IT/USERS TV

  • Ultimas Noticias

    • RAZER CHROMA WORKSHOP octubre 31, 2015
    • GIGABYTE soporta Intel® Thunderbolt™ 3 octubre 31, 2015
    • ONE PIECE: BURNING BLOOD octubre 31, 2015
    • HyperX en CyC Computer Perú octubre 31, 2015
    • Motorola Evoluciona la Seguridad Pública octubre 30, 2015
    • IBM adquirió The Weather Company octubre 30, 2015
    • Bandai Namco F12015™ octubre 30, 2015
    • Itaú y PayPal se Unen octubre 30, 2015
    • Teradata nombra Mexico Country Manager octubre 30, 2015
    • Algramo: revolución de la compra inteligente octubre 30, 2015
  • Anuncio

  • Categorías

  • coobis

    Visita mi Blog dentro de los Blogs de Tecnología en Coobis.
  • MacMall

    Chinese New Year Savings
  • Todos los Post Publicados

  • Tripp Lite


  • Schneider Electric

  • Anuncio

  • Anuncio

  • Seeding UP

    SeedingUp | Digital Content Marketing
  • Páginas

    • CONTACTENOS
    • Suscripción VIP a IT/USERS®
  • marzo 2023
    L M X J V S D
     12345
    6789101112
    13141516171819
    20212223242526
    2728293031  
    « Oct    
El Portal de Noticias y la Revista Digital IT/USERS® contienen las últimas noticias y tendencias de la Industria IT (Information Technology). Su propósito es de intercambio de información y de conocimientos, de fomento a la adopción tecnológica y contiene información de propósito comercial. Los Editores no nos solidarizamos necesariamente con las informaciones y/o opiniones vertidas por sus autores. IT/USER® Es una marca registrada por JZM & Asociados SAC. ISSN N°: 1817-4388. Queda terminantemente prohibida la reproducción parcial o total de sus contenidos, sin el permiso expreso y por escrito de los Editores. Derechos tutelados por la Organización Mundial de la Propiedad Intelectual (OMPI) y en Perú, por Decreto Legislativo Nº 823 INDECOPI. Política de Cookies: Utilizamos cookies propias y de terceros para mejorar nuestros servicios y mostrarle publicidad relacionada con sus preferencias mediante el análisis de sus hábitos de navegación. Si continua navegando, consideramos que acepta su uso. °°°°°°°°°°°°°°°°°°°°°°°°°°°° News Portal and Digital Magazine IT/USERS® containing the latest news and trends in the IT industry (Information Technology). Its purpose is to exchange information and knowledge, promotion of technology adoption and contains information for commercial purposes. Editors did not necessarily sympathize with the information and/or opinions expressed by the authors. IT/USER® is a registered trademark of JZM & Asociados SAC. ISSN No: 1817-4388. Partial or total reproduction of its contents without the express written permission of the editors is prohibited. Rights protected by the World Intellectual Property Organization (WIPO) and in Peru, by Legislative Decree No. 823 INDECOPI. Policy Cookies: We use our own and third party cookies to improve our services and show advertisements related to your preferences by analyzing your browsing habits. If you go on surfing, we will consider you accepting its use.
Powered by WordPress | Developed by CRM Software