Fundamentos del Big Data 1: áreas de conocimiento

fundamentos del big data - arquitecto de datos y científico de datos

Uno de los grandes retos para los formadores en tecnologías Big Data es dar a conocer que el Big Data no es una única cosa. El Big Data es un concepto que engloba a muchos otros. Está formado por un ecosistema de tecnologías que, combinadas entre sí, nos aportan la potencia necesaria para extraer valor al dato y hacer que nuestra organización sea Data Driven.

A lo largo de varios artículos, vamos a hacer un recorrido por estas tecnologías para diferenciarlas y así hacernos una idea de cuál es la utilidad de cada una en nuestro negocio.

Vamos a comenzar por lo más básico. En Big Data tenemos dos áreas de conocimiento que, aunque están entrelazadas debemos diferenciar. La primera es Data Science o Ciencia de Datos y la segunda es Data Architecture o Arquitectura del Dato.

Data Science

Atendiendo al primer bloque, debemos definir aquellas tecnologías y técnicas que engloba el concepto de Data Science. Además, para traerlo a nuestro idioma, lo definiremos como la ciencia que estudia los datos. 

Entre los conceptos asociados a Data Science está:

  • El Data Mining o minería de datos, que a su vez engloba otros como recogida del dato
  • Data Preprocessing o Preprocesado de datos
  • Modelización con Machine Learning y Deep Learning
  • Testing o testeo de los datos
  • Data Visualization o visualización de datos entre otros.

A lo largo de los siguientes artículos, iremos abordando algunos de ellos.

Es importante resaltar que, cuando buscamos posibles candidatos para una posición en Data Science, a veces se definen a ellos mismos con este término cuando en realidad hay muchos perfiles que trabajan en Data Science y sin embargo dominan distintas técnicas.

Data Architecture

El segundo bloque comprende todo lo relacionado con la arquitectura del dato. Si bien es cierto que podemos aplicar técnicas de Data Science sobre sistemas sencillos, cuando hablamos de Big Data es imprescindible la planificación y un buen diseño de nuestras arquitecturas por perfiles especializados como el arquitecto de datos

El hecho de que nuestra organización llegue a ser data driven depende en gran medida de la inversión de tiempo y dinero que se haga con el fin de implementar una arquitectura Big Data estable y proporcional al tamaño del dato. Previamente, es necesario conocer el ecosistema de tecnologías de arquitectura Big Data y hacer un análisis de las necesidades y del impacto que tendrá el despliegue del nuevo sistema en la empresa. 

Veamos el nombre de algunas tecnologías en este ámbito. Por un lado, tenemos las bases de datos no relacionales NoSQL. Otro sistema de almacenamiento de la información es Hadoop y por último tenemos Spark. ¿Te suenan los nombres? Además, dentro del ecosistema Hadoop tenemos herramientas como Hive, Impala, Oozie, Zookeeper, Sqoop, Kafka, Flume, Hbase o Pig entre otros. 

Tanto si te suenan algunos nombres como si no, estate atento a los próximos episodios de la saga Big Data para no perder detalle de ninguno de ellos. A lo largo de los próximos posts iremos detallando algunas de estas tecnologías para que puedas hablar como un verdadero datahacker.


Aitor Farragut, Consultor Senior BI & Big Data

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *