Temática
Trabajo de un Ingeniero de datos
Tiempo de lectura
3 minutos
La profesión de ingeniero de datos es una de las especializaciones que van ganando enteros en el ecosistema del Big Data. El Emerging Jobs Report de 2020 de LinkedIn la coloca entre las 15 ocupaciones emergentes más destacadas de los últimos cinco años, compartiendo protagonismo con puestos tan sugerentes como experto en Inteligencia Artificial, científico de datos o Site Reliability Engineer. En este listado, los ingenieros de datos se sitúan en la octava posición, con la constatación por parte de LinkedIn de que su contratación ha crecido un 35% entre 2015 y 2019.
Y tú, ¿te sentirías cómodo trabajando como data engineer? ¿Se trata de una vía laboral que te gustaría explorar? Mira lo que hacen estos profesionales del Big Data y, si encaja con tu personalidad y tus objetivos, quédate con nosotros. ¡En datahack te ayudaremos a avanzar en tu carrera!
El ingeniero de datos es el profesional encargado de sentar las bases para la adquisición, el almacenamiento, la transformación y la gestión de los datos en una organización. Este especialista asume la configuración de la infraestructura tecnológica necesaria para que el gran volumen de datos no estructurados recogidos se convierta en materia prima accesible para otros especialistas en Big Data, como los data analysts y los científicos de datos.
Los data engineers trabajan diseñando, creando y manteniendo la arquitectura de las bases de datos y de los sistemas de procesamiento, de manera que la posterior labor de explotación, análisis e interpretación de la información pueda llevarse a cabo sin incidencias, de manera ininterrumpida, segura y eficaz.
Si quieres profundizar en las tareas que hace un ingeniero de datos y convertirte en uno de ellos, ¡en datahack tenemos la mejor opción! Con nuestro Master en Data Science y Big Data aprenderás todo lo que necesitas para dar un paso al mundo de los datos.
El día a día del ingeniero de datos transcurre, fundamentalmente, entre procesos ETL (Extract, Transform, Load), es decir, desarrollando tareas de extracción, transformación y carga de datos, moviéndolos entre diferentes entornos y depurándolos para que lleguen normalizados y estructurados a las manos de analistas y data scientists. El papel del data engineer es, en este caso, comparable al de un fontanero, ya que se centra en implementar y mantener en buen estado la red de pipelines (tuberías) por la que los datos (a semejanza del agua) correrán para alimentar el funcionamiento de toda la organización.
Extracción
En la primera etapa del proceso ETL, el ingeniero de datos se encarga de sacar los registros de distintas localizaciones, así como de estudiar la incorporación de nuevas fuentes al flujo Big Data de la compañía. Estos datos se presentan en diferentes formatos, integrando variables muy diversas, y pasarán a un data lake, u otro tipo de repositorio donde esta información quedará almacenada en bruto, disponible para cualquier uso futuro.
Transformación
En un segundo paso, el data engineer coordina la limpieza de los datos, eliminando duplicados, corrigiendo errores y desechando el material inservible; y los elabora y clasifica para convertirlos en un conjunto homogéneo
Carga
Finalmente, el ingeniero de datos lidera la carga de estos en su destino, ya sea este una base de datos ubicada en un servidor propio de la compañía o un data warehouse en la nube. Además de la correcta exportación, una de las preocupaciones recurrentes en esta etapa final es la vigilancia de la seguridad, puesto que el data engineer ha de garantizar que la información se guarda a salvo de ciberataques y de accesos no autorizados.
Para trabajar como ingeniero de datos es preciso adquirir las destrezas técnicas que requiere un proceso ETL completo. La mayoría de las empresas piden a sus candidatos que sepan manejar bases de datos SQL y NoSQL, que estén familiarizados con servicios cloud (como Microsoft Azure o Amazon Web Services) y que se muevan con soltura dentro del ecosistema Hadoop (MapReduce, Hive, etc.).
También te ayudará tener conocimientos de:
Temática
Minería de datos
Tiempo de lectura
5 minutos
La minería de datos se define como una serie de técnicas encaminadas a identificar patrones implícitos dentro de grandes conjuntos de datos, con el fin de entender sus mecanismos de comportamiento, su interrelación y su potencial evolución futura. El data mining es una tecnología exploratoria clave en los proyectos de Big Data, y se puede poner en funcionamiento tanto para resolver preguntas específicas como para la extracción de información de manera general, buscando tendencias y anomalías en la muestra.
Hace poco abordábamos en el Blog de datahack algunas de las metodologías de data mining más conocidas para el análisis en Big Data, como KDD, SEMMA y CRISP-DM. Hoy iremos un paso más allá y nos centraremos en las 7 técnicas de minería de datos más utilizadas en el mundo del Big Data. Aquí tienes nuestra selección:
Árboles de decisión
Los árboles de decisión son diagramas lógicos que plantean, ante una determinada situación, cuáles son las opciones de intervención posibles, agregando sus implicaciones, costes, ventajas y desventajas. Se basan en la aplicación de un algoritmo clasificatorio que, a partir de un nodo, desarrolla ramas (decisiones) y determina el potencial resultado de cada una de ellas.
Las redes neuronales son modelos que, a través del aprendizaje automático, intentan llenar los vacíos de interpretación en un sistema. Para ello imitan, en cierto modo, las conexiones entre neuronas que se producen en el sistema nervioso de los seres vivos.
Las redes neuronales se engloban dentro de las técnicas predictivas de minería de datos y, como todo modelo de machine learning, es preciso entrenarlas con distintos data sets con los que ir matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas. Existen diferentes tipos de redes neuronales para data mining, como el perceptrón simple y el multicapa o los mapas de Kohonen.
Redes neuronales
Clustering
El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo atiende a condiciones de cercanía o similitud para hacer su trabajo.
Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de correos y promociones personalizadas a los usuarios que integran una base de datos.
Aprende más sobre la clusterización de clientes y llega a ellos de forma más personalizada con nuestro Máster Executive Inteligencia Artificial y Big Data.
La extracción de reglas de asociación como técnica de minería de datos persigue la inferencia de silogismos del tipo si…/entonces… a partir de conjuntos de registros. Esta búsqueda de regularidades nos permite discriminar y conocer mejor a una muestra, y establecer qué atributo o combinación de atributos es probable que traiga consigo una determinada consecuencia.
Extracción de reglas de asociación
Redes bayesianas
Las redes bayesianas son representaciones gráficas de relaciones de dependencia probabilística entre distintas variables. Sirven para dar solución tanto a problemas descriptivos como predictivos. Entre sus aplicaciones se incluyen el diagnóstico médico o el cálculo del riesgo en el sector financiero y asegurador.
La regresión como técnica de minería de datos toma como punto de partida una serie histórica para, a partir de ella, predecir qué sucederá a continuación. De manera resumida, podemos decir que, a través de este método, se localizan regularidades dentro de los datos que permiten trazar una línea de evolución extrapolable al futuro.
Regresión
Modelado estadístico
El modelado estadístico pretende dibujar el mapa de relaciones entre variables explicativas y dependientes, y mostrar cómo cambia a medida que lo hacen los parámetros considerados en su planteamiento. Lo hace estableciendo una ecuación matemática que intenta reproducir la realidad de la manera más fiel posible, incorporando, incluso, la influencia del azar y el posible margen de error en el cálculo.
Temática
Análisis Big Data
Tiempo de lectura
6 minutos
El análisis en Big Data se define como un proceso que comprende la recolección, la depuración, el tratamiento, el modelado y el estudio de los datos con el fin de obtener conclusiones útiles que cristalicen en forma de conocimiento y que guíen la toma de decisiones en las organizaciones.
Para el desarrollo de este proceso de análisis en Big Data, utilizamos metodologías iterativas de minería de datos como KDD, SEMMA o CRISP-DM, que constan de varias fases de manejo de los datos claramente secuenciadas y que emplean técnicas de analítica descriptiva, diagnóstica, predictiva o prescriptiva. Veamos en qué consiste cada una de ellas.
KDD (Knowledge Discovery in Databases) es una metodología de minería de datos para el análisis en Big Data que busca identificar patrones implícitos en los grandes volúmenes de datos y convertirlos en conocimiento, filtrando y descartando aquellos hallazgos que no resulten de utilidad para los objetivos fijados. Por eso, antes de iniciar un proceso KDD, es imprescindible determinar qué queremos conseguir con él. Una vez establecido esto, se aplica el método KDD con los siguientes pasos:
SEMMA (Sample, Explore, Modify, Model and Assess) es una metodología de data mining para el análisis en Big Data desarrollada por el SAS Institute. Va en consonancia con el sistema de trabajo de SAS Enterprise Miner, su software de minería de datos, y prevé cinco etapas:
CRISP-DM supone un avance con respecto a KDD y SEMMA en el campo de los procesos de minería de datos para el análisis en Big Data, en el sentido de que anticipa la repercusión de los hallazgos obtenidos en el negocio. Las tareas de analítica se asumen como un proyecto que se documenta exhaustivamente para que todos los equipos de una organización puedan continuar trabajando a partir de él.
CRISP-DM se estructura en seis fases:
Los analistas de Big Data acometen estos procesos con la ayuda de una serie de herramientas tecnológicas que automatizan las tareas menos creativas de la explotación de datos. En datahack impartimos cursos específicos para aprender a manejar algunas de ellas, como:
Durante la pasada semana se celebró en la Escuela Técnica Superior de Ingeniería (ETSI) Informática de la Universidad Politécnica de Madrid el evento Try It 2016, donde las empresas más punteras y otras organizaciones presentaron a los estudiantes las tecnologías más novedosas, con especial atención al Big Data. Allí estuvo datahack el pasado jueves 17 a las 13:20 horas contando a la audiencia la funcionalidad del Big Data, la evolución de Hadoop y las ventajas del Machine Learning, cuyo contenido desconocían muchos de los futuros ingenieros informáticos.
Ante una audiencia de más de 100 personas, Lourdes Hernández comenzó su charla presentando a datahack y explicando los puntos de nuestro programa 100% práctico e intensivo, centrado en la formación técnica a través del conocimiento de R, Hadoop, Spark, Python, SQL, NoSQL, algoritmos avanzados, etc. Según McKinsey, en 2018 harán falta 200.000 científicos de datos en todo el mundo, de los que unos 20.000 serán solicitados en España.
Entrando en materia, repasamos las 5 uves del Big Data, para después pasar a ver la evolución de Hadoop, no desde la invención del ábaco, pero sí desde que en 2002 Doug Cutting y Mike Cafarella comenzaron a trabajar en Nutch hasta que en 2009 Cutting pasa a formar parte de Cloudera. ¿Qué es Hadoop? Hadoop es un sistema para el almacenaje y el procesamiento de datos a gran escala, gracias al almacenamiento de datos en HDFS y al procesamiento mediante MapReduce.
La comunicación entre nodos en Hadoop es mínima, además de usar múltiples discos en paralelo, pudiendo procesar fácilmente 3 TB de datos en 15 segundos. Además, su lenguaje de programación suele estar escrito en Java, dando la posibilidad de escribir MapReduce casi en cualquier lenguaje, sin necesitar código de red ni sincronización.
Sin embargo, y esto es importante, Hadoop no es solo Hadoop, sino que forma todo un ecosistema formado por múltiples aplicaciones relacionadas con el Big Data: Flume, Sqoop, Oozie, Pig, Mahout, R Connectors, YARN, Hive, Hbase… Hadoop permite realizar minería de datos, proceso mediante el cual se puede obtener información nueva a partir de textos ya existentes (un 80% de la información existente es textual). Permite recuperar y extraer información, y establecer relaciones entre ellas, incluso en textos no estructurados como PDF o Word.
Se puede desde medir el prestigio de una persona hasta explorar cómo se ha extendido un rumor, o incluso identificar amenazas mediante la detección de patrones, analizar drogas y sus efectos secundarios y resolver problemas basados en relaciones.
Por último, vimos varios casos en los que Hadoop podía ayudar a las empresas, tales como como la identificación de la verdadera razón de una pérdida continua de clientes o la correcta programación de un motor de recomendación que sugiera automáticamente a los clientes la compra de unos productos determinados.
La audiencia salió satisfecha del salón de actos del Bloque Uno de la Facultad y nosotros nos llevamos con nosotros el entusiasmo de una generación de estudiantes que está siendo enormemente demandada en el ámbito laboral.
Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.