Temática

Análisis Big Data

Tiempo de lectura

6 minutos

Claves de contenido del artículo

KDD (Knowledge Discovery in Databases)

SEMMA (Sample, Explore, Modify, Model and Assess)

CRISP-DM (Cross Industry Standard Process for Data Mining)

Herramientas de análisis


El análisis en Big Data se define como un proceso que comprende la recolección, la depuración, el tratamiento, el modelado y el estudio de los datos con el fin de obtener conclusiones útiles que cristalicen en forma de conocimiento y que guíen la toma de decisiones en las organizaciones.

Para el desarrollo de este proceso de análisis en Big Data, utilizamos metodologías iterativas de minería de datos como KDD, SEMMA o CRISP-DM, que constan de varias fases de manejo de los datos claramente secuenciadas y que emplean técnicas de analítica descriptiva, diagnóstica, predictiva o prescriptiva. Veamos en qué consiste cada una de ellas.

Métodos de minería de datos para el análisis en Big Data

KDD (Knowledge Discovery in Databases)

KDD (Knowledge Discovery in Databases) es una metodología de minería de datos para el análisis en Big Data que busca identificar patrones implícitos en los grandes volúmenes de datos y convertirlos en conocimiento, filtrando y descartando aquellos hallazgos que no resulten de utilidad para los objetivos fijados. Por eso, antes de iniciar un proceso KDD, es imprescindible determinar qué queremos conseguir con él. Una vez establecido esto, se aplica el método KDD con los siguientes pasos:

  1. Selección: de las muestras de datos y de las variables que se van a estudiar.
  2. Preprocesamiento: se lleva a cabo una homogeneización de los registros, limpiando y normalizando para que no haya problemas con el procesamiento por parte de las herramientas de Big Data.
  3. Transformación: se aplican técnicas de reducción de la dimensionalidad y de eliminación de las variables irrelevantes para reducir la complejidad de la muestra.
  4. Minería de datos: se establece qué algoritmos y técnicas de data mining usar y se ponen en juego para descubrir y mapear las relaciones entre los datos.
  5. Interpretación: finalmente, se traduce la información descubierta en dashboards y visualizaciones comprensibles para los actores encargados de evaluar el conocimiento adquirido y decidir qué hacer con él.

SEMMA (Sample, Explore, Modify, Model and Assess)

SEMMA (Sample, Explore, Modify, Model and Assess) es una metodología de data mining para el análisis en Big Data desarrollada por el SAS Institute. Va en consonancia con el sistema de trabajo de SAS Enterprise Miner, su software de minería de datos, y prevé cinco etapas:

  1. Muestreo: se debe escoger un conjunto de datos representativo, con un tamaño adecuado para obtener conclusiones relevantes y generalizables.
  2. Exploración: para atisbar las coincidencias y las tendencias más marcadas, que nos guíen en los siguientes pasos.
  3. Modificación: mediante una labor de agrupación, limpieza y recorte de variables, o de creación de otras nuevas, que facilite las tareas posteriores.
  4. Modelado: con técnicas de minería de datos como las redes neuronales, los árboles de decisión u otras herramientas estadísticas.
  5. Evaluación: con tests que verifiquen la validez del modelo desarrollado, probando su fiabilidad en otras muestras.

CRISP-DM (Cross Industry Standard Process for Data Mining)

Big Data, Minería de datos

CRISP-DM supone un avance con respecto a KDD y SEMMA en el campo de los procesos de minería de datos para el análisis en Big Data, en el sentido de que anticipa la repercusión de los hallazgos obtenidos en el negocio. Las tareas de analítica se asumen como un proyecto que se documenta exhaustivamente para que todos los equipos de una organización puedan continuar trabajando a partir de él.

CRISP-DM se estructura en seis fases:

  1. Comprensión del negocio: asunción de sus necesidades y objetivos y selección de los que van a motivar el análisis en Big Data.
  2. Comprensión de los datos: primera aproximación a los datos para realizar agrupaciones, identificar patrones notorios y lanzar hipótesis preliminares.
  3. Preparación de los datos: incluyendo selección de muestras, limpieza, normalización y transformación.
  4. Modelado: con técnicas de analítica y data mining acordes al tipo de pregunta o preguntas a las que se pretende responder (qué ha ocurrido, por qué, qué sucederá a continuación o cómo deberíamos actuar ahora).
  5. Evaluación: para, de nuevo, vigilar el nivel de fiabilidad de los resultados obtenidos y cerciorarnos de que el modelo toma en consideración todas las circunstancias del negocio.
  6. Despliegue: generación del informe o entregable final o implantación en un entorno de producción.

Herramientas de análisis en Big Data

Los analistas de Big Data acometen estos procesos con la ayuda de una serie de herramientas tecnológicas que automatizan las tareas menos creativas de la explotación de datos. En datahack impartimos cursos específicos para aprender a manejar algunas de ellas, como:

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un experto métodos de minería y sus herramientas

El Big Data ha generado la mayor revolución tecnológica de la historia. Gracias al Big Data podemos convertir en información útil todos los datos que generamos.

Por qué Big Data

Cada día somos más usuarios en internet. Según el informe de Global Digital Report 2019, hay más de 7600 millones de usuarios, 3.498 millones de usuarios activos en plataformas multimedia y redes sociales.

Esta interacción digital, crea grandes lagos de información, mediante los cuales es posible analizar el comportamiento de los consumidores y convertirlo en información útil y comercial. Esto hace que las empresas necesiten tener gente formada en el sector del big data. Una oportunidad laboral si estás interesado en evolucionar en tu carrera profesional.

Según mediacloud y los resultados de una encuesta realizada por McKinsey, las empresas data driven tiene 23 veces más probabilidades de adquirir clientes, seis veces más probabilidades de retener a esos clientes y 19 veces mas probabilidades de ser rentables.

Aprovéchate de las ventajas del Big Data

Cada vez es más frecuente encontrar ofertas de empleo que buscan especialistas en la gestión de grandes volúmenes de datos o, lo que es lo mismo, expertos en Big Data. Esto convierte a los expertos en Big Data en una de las carreras profesionales más sexis del panorama actual y de los próximos años.

Hagamos un rápido repaso en cifras:

¿Interesante, verdad?

El Big Data ha generado una gran variedad de perfiles profesionales, a todos los niveles. Veamos a continuación los principales:

Estudiar un máster en Big Data realmente merece la pena

A la vista de los datos, no dudes en formarte en este sector. Cambia tu vida, dale un giro de 360º. Tanto si quieres actualizarte como cambiar de trabajo, elige formarte en el sector de mayor auge.

Si estás interesado en evolucionar en tu carrera profesional, te proponemos que realices un máster mediante el cual puedas profesionalizarte y especializarte en el mundo del Big Data.

En datahack te proponemos adentrarte en este mundo de una manera 100% práctica y real. Gracias a nuestro método formativo LBD (Learning by Doing), nuestros alumnos pueden trabajar y liderar proyectos de Big Data, Robótica e Inteligencia Artificial desde las 2 primeras semanas de formación.

Una combinación única de formación, investigación, coaching y desarrollo profesional han hecho de datahack school una de las principales escuelas de Big Data de España.

No busques más, en datahack te lo damos pero, si buscas especializarte o formarte solo en una de las áreas del Big Data este no es tu máster.

MÁSTER EXPERTO EN BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Conoce la escuela y el máster de datahack

¡Nueva jornada de Puertas Abiertas y ya van 4 en la escuela de Madrid! El pasado martes 12 de septiembre celebramos la última jornada de Puertas Abiertas de datahack Madrid. Una sesión en la que participaron antiguos alumnos de las últimas ediciones del máster y profesores del programa. Importantes embajadores de la escuela que contaron su experiencia y trayectoria en el Big Data.

La jornada comenzó con la presentación de algunos de los alumnos. Estos contaron qué les movió a hacerse expertos en datatech, por qué eligieron el máster de datahack y cómo se encuentran actualmente.Los motivos más comunes para especializarse en el Big Data eran dar un giro a su trayectoria profesional, o mejorar sus condiciones laborales. Y tanto que han dado un giro a su carrera, ahora algunos de ellos trabajan en Instituto de ingeniería del conocimiento, Sopra Steria o datahack Labs.

Profesores del máster dieron charlas técnicas

Los profesores de datahack se caracterizan por ser expertos en las materias que imparten. Es decir, compaginan sus clases en datahack con sus puestos de trabajo en los que desarrollan proyectos y casos reales como los que los alumnos ven en el máster. En esta jornada de Puertas Abiertas de datahack, dos de los profesores tuvieron su momento para hablar de su especialidad.

Álvaro Barbero es Director del área de Ciencia de Datos en el Instituto de Ingeniería del Conocimiento y es el profesor de Algoritmos Avanzados en el máster de datahack. Sorprendió a los asistentes con su charla "Generación de texto con Deep Learning". En la que gracias al Deep Learning, un ordenador era capaz de generar un propio texto del libro de El Quijote de la Mancha. Para ello, replica la información y capta su estructura propia. Se trata, por lo tanto, de un sistema inteligente que lee texto y replica nuevos contenidos.

Le siguió Juan Cañada Ingeniero industrial especializado en mecánica, experto en Visualización y programación y Big Data y profesor de Visualización en el máster. Que con una breve, pero muy interesante charla, nos dejó clara la importancia de saber lo importante que es saber gestionar la cantidad de datos que disponemos. Para Cañada, el no saber procesar los datos, será en el futuro como el analfabetismo, en la actualidad.

David Sanz CEO de SoftBigData, con el que datahack firmó hace unas semanas un acuerdo de colaboración para la colocación de los alumnos de los alumnos de datahack. Sanz fue el encargado de cerrar la parte de charlas de la sesión, contó su trayectoria profesional en el mundo del Big Data y de las prospecciones de futuro de estas tecnologías.

Fin de la jornada con presentación del programa y pizzas para todos

Para terminar la jornada, Lourdes Hernández dio una breve explicación del programa de datahack. Después empezó el momento de resolver las dudas de los asistentes, sobre algunos temas que se habían visto en la tarde del martes y dudas sobre el máster de datahack. Y como colofón final, pizzas y refrescos para los asistentes, entre los que se sorteó un descuento de 500€ para realizar el máster de datahack.

chevron-down