ECOSISTEMA HADOOP

<  VOLVER
Por: admin
mayo 2, 2016
admin
mayo 2, 2016

Como vimos la semana pasada, Hadoop es un sistema que se basa en dos grandes partes, los archivos HDFS y el sistema MapReduce. Sin embargo, también comentamos que el programa contenía numerosos programas que permitían facilitarle la vida al científico de datos, haciendo que no fuera necesario operar mediante la realización de complicados algoritmos. A continuación describimos cuáles son las herramientas que nos proporciona el ecosistema Hadoop

Veamos algunos de los componentes del ecosistema Hadoop.

Eclipse. Es un entorno de desarrollo integrado, donado por IBM a la comunidad Apache. Agiliza enormemente el desarrollo de los programas Java.

Sqoop. Nos permite conectarnos a cualquier base de datos relacional (que el acceso se realiza mediante una conexión ODBC, como vimos en nuestro artículo sobre bases de datos) e intercambiar datos con nuestro sistema de ficheros HDFS. Es muy importante poder incorporar fácilmente datos de nuestras bb.dd. (datawarehouse, ERPs, etc.)  y del mismo modo, poder llevar fácilmente el resultado de un cálculo (scoring, segmentación…) a nuestras bases de datos.

Flume. Nos permite recuperar información de sitios remotos. Mediante un agente que se ejecuta en el lugar que se producen los datos (fichero de log…), recoge los datos y los importa en HDFS. Es unidireccional, no permite exportar datos de HDFS a otras ubicaciones. Resulta una herramienta francamente útil para recuperar información en tiempo real.

Hive. Actúa como la base de datos de Hadoop. Es un intérprete SQL – MapReduce. Traduce la query a programas Java que realicen los MapReduce, lo que Esto permite utilizar herramientas de Business Intelligence convencionales (que admitan conexión ODBC) con los datos de HDFS.

Pig: para trabajar con MapReduce, es necesario programar, tener sólidos conocimientos de Java, saber cómo funciona MapReduce, conocer el problema a resolver, escribir, probar y mantener el código, etc. Para ello es muy beneficioso disponer de un sistema más sencillo, que nos abstraiga de la complejidad del MapReduce. Pig cumple precisamente esta función; facilita el flujo de datos de una manera más sencilla. Dispone de su propio lenguaje de programación llamado Pig Latin.

Hbase. Es una base de datos columnar que se ejecuta sobre HDFS. Puede almacenar grandes cantidades de datos, accediendo a los mismos de una manera rápida, pudiendo procesarlos sin problemas incluso si hay datos dispersos.

Oozie. Actúa como un planificador. Es un motor de flujos de trabajo que puede incluir procesos MapReduce , scripts de Pig, de Hive, etc.

Zookeeper. Como su propio nombre indica, Zookeeper cumple el rol de coordinador del ecosistema Hadoop, guardando la configuración de los metadatos, bloqueando un proceso cuando accede al mismo fichero al mismo tiempo que otro proceso, guardando los usuarios y las contraseñas de acceso a los distintos lugares, etc.

Mahout. Es una librería de algortimos de Machine Learning, codificados en Java. ¿Qué es Machine Learning? Un programa que aprende por sí mismo.

Si queréis profundizar en el aprendizaje del ecosistema Hadoop, no dudéis en consultar nuestro programa o pedirnos más información.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

¡Que no se te pase una!

Recibe nuestra programación mensual de eventos online y la apertura de nuevas convocatorias de cursos




    [recaptcha]

    En Datahack Consulting SL trataremos los datos que nos facilites con la finalidad de enviarte información relacionada con tu solicitud sobre nuestros servicios, así como enviarte comunicaciones informativas sobre nuestra actividad. Podrás ejercer los derechos de acceso, rectificación, limitación, oposición, portabilidad, o retirar el consentimiento enviando un email a administracion@datahack.es. También puedes solicitar la tutela de derechos ante la Autoridad de Control (AEPD). Puedes consultar información adicional y detallada sobre protección de datos en nuestra Política de Privacidad.

    Estamos para ayudarte con cualquier duda, pequeña o grande

    Llámanos, escríbenos o inicia un chat y hablamos

    Llámanos al 910 91 28 42¿Prefieres que te llamemos?¿Prefieres que te llamemos?
    chevron-down