Radiografía del BigData en España

Want create site? Find Free WordPress Themes and plugins.

¿Qué es Big Data? 

Aunque se ha hablado hasta la saciedad de este tema, el Big Data es tratamiento y gestión de grandes volúmenes de datos, provenientes de fuentes diversas para obtener información útil para nuestro negocio.

Datos se utilizan en las empresas desde hace muchas décadas. El BigData se considera un mundo nuevo por tener un gran volumen de datos, mucho mayor que los manejados hasta ahora, por su velocidad de generación y por la variedad de formatos que presentan.

Esta información nos debe dar un valor adicional para la toma de decisiones, produciendo entre otros, mejoras operativas, conocimiento de clientes, generación de transparencia, desarrollo de productos y servicios o modelos de negocio innovadores.

Retos que presenta:

  • La captura de datos, provenientes de distintas fuentes y con periodos de generación intensivos, o aleatorios.
  • Almacenamiento de tales volúmenes de información.
  • Capacidad de realizar búsquedas eficientes, para encontrar aquella información relevante.
  • Posibilidad de llevar a cabo análisis.
  • Visualización de los datos, incorporando grandes volúmenes de información en gráficos, mapas interactivos, cuadros de mando.

¿Cómo es la arquitectura Big Data?

Para resolver parte de los problemas asociados a big data, Doug Cutting inventó un framework de desarrollo llamado Hadoop. Entre sus puntos clave se encuentran su capacidad de almacenamiento procesamiento local:

Los dos conceptos en los que se apoya Hadoop son, por un lado, la técnica de MapReduce y, por otro, el sistema distribuido de archivos HDFS.

  • HDFS (Hadoop Distributed File System): es un sistema de archivos distribuido, escalable y portátil típicamente escrito en JAVA..
  • MapReduce: es el modelo de programación utilizado inicialmente por Google para dar soporte a la computación paralela. Trabaja sobre grandes colecciones de datos en grupos de computadoras y sobre unexpensive commodity hardware

Adicionalmente, Hadoop admite otras herramientas de almacenamiento, y lenguajes de programación.

Para qué no sirve:

  • Procesamiento de transacciones (acceso aleatorio)
  • Cuando el trabajo no puede ejecutarse en paralelo
  • Acceso a datos de baja latencia
  • Procesamiento de muchos ficheros pequeños
  • Cálculos intensivos con pocos datos

Perfiles Big Data

Adicionalmente a los perfiles tradicionales del área de Business Intelligence, (analíticos, funcionales y técnicos), la era Big Data incorpora nuevas necesidades organizativas en las compañías Data Driven que basan su estrategia y conocimiento en la información proveniente de los datos.

Así surgen nuevos perfiles, o los ya existentes cobran mayor fuerza deben ampliar conocimientos y capacidades.

Algunos perfiles son:

CDOChief Data Officer, es la persona responsable de toda la organización relativa a los datos, desde su origen, función, tratamiento o propiedad. No debería estar en el departamento de IT, ni reportar al CIO. Idóneamente debería reportar al director general, coordinando su actividad con tecnología, operaciones y las áreas de negocio.

Data Architect: Responsable de la arquitectura (funcional y/o técnica) de la infraestructura y modelado de los datos. También de diseñar el procesamiento y la integración de datos desde su origen hasta los análisis finales.

Data Scientist: La profesión del futuro. Es el encargado en extraer el conocimiento de los datos. Para ello deber tener sólidos conocimientos estadísticos, poseer destrezas para resolver problemas, hacer preguntas y explicar los resultados obtenidos.

Data Developer: es la persona encargada de realizar el procesamiento de los datos desde los sistemas origen hasta las estructuras de análisis. Debe tener sólidos conocimientos en procesamiento paralelo, algoritmos, procesos ETL, modelos de datos, ficheros, etc.

Data Stewards: es la persona responsable de la gestión de los datos. Es un rol especialista que incorpora procesos, políticas, guías de acción y responsabilidades para la gestión integral de los datos en la organización, de acuerdo a las directrices establecidas y a las obligaciones regulatorias.

 

¿Cuáles son las habilidades técnicas clave?

El desarrollo y despliegue de entornos Big Data, como cualquier otra plataforma, requiere un conjunto específico de habilidades que se relacionan con otras plataformas, pero se centran en unas pocas tecnologías clave.

  • Java – procesos Map Reduce que se escriben para filtrar, ordenar, combinar y clasificar los datos. También cualquier procesamiento que se quiera realizar en Hadoop.
  • Lenguajes de programación: Phyton, Jaql, R
  • Bases de datos: HBase, Cassandra, NoSQL
  • Procesamiento de datos: Flume, Sqoop
  • Análisis de datos: Hive, Pig, Impala
  • Otras herramientas: Zookeeper, Avro, Storm

En la próxima hablaremos de casos de uso sectoriales. Dudas, comentarios… serán bienvenidos.

 

Did you find apk for android? You can find new Free Android Games and apps.

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

d

datahack

91 091 28 42
Iniciar sesión