Análisis en Big Data: métodos de minería de datos y herramientas

<  VOLVER
Por: admin
noviembre 30, 2020
admin
noviembre 30, 2020

Temática

Análisis Big Data

Tiempo de lectura

6 minutos

Claves de contenido del artículo


El análisis en Big Data se define como un proceso que comprende la recolección, la depuración, el tratamiento, el modelado y el estudio de los datos con el fin de obtener conclusiones útiles que cristalicen en forma de conocimiento y que guíen la toma de decisiones en las organizaciones.

Para el desarrollo de este proceso de análisis en Big Data, utilizamos metodologías iterativas de minería de datos como KDD, SEMMA o CRISP-DM, que constan de varias fases de manejo de los datos claramente secuenciadas y que emplean técnicas de analítica descriptiva, diagnóstica, predictiva o prescriptiva. Veamos en qué consiste cada una de ellas.

Métodos de minería de datos para el análisis en Big Data

KDD (Knowledge Discovery in Databases)

KDD (Knowledge Discovery in Databases) es una metodología de minería de datos para el análisis en Big Data que busca identificar patrones implícitos en los grandes volúmenes de datos y convertirlos en conocimiento, filtrando y descartando aquellos hallazgos que no resulten de utilidad para los objetivos fijados. Por eso, antes de iniciar un proceso KDD, es imprescindible determinar qué queremos conseguir con él. Una vez establecido esto, se aplica el método KDD con los siguientes pasos:

  1. Selección: de las muestras de datos y de las variables que se van a estudiar.
  2. Preprocesamiento: se lleva a cabo una homogeneización de los registros, limpiando y normalizando para que no haya problemas con el procesamiento por parte de las herramientas de Big Data.
  3. Transformación: se aplican técnicas de reducción de la dimensionalidad y de eliminación de las variables irrelevantes para reducir la complejidad de la muestra.
  4. Minería de datos: se establece qué algoritmos y técnicas de data mining usar y se ponen en juego para descubrir y mapear las relaciones entre los datos.
  5. Interpretación: finalmente, se traduce la información descubierta en dashboards y visualizaciones comprensibles para los actores encargados de evaluar el conocimiento adquirido y decidir qué hacer con él.

SEMMA (Sample, Explore, Modify, Model and Assess)

SEMMA (Sample, Explore, Modify, Model and Assess) es una metodología de data mining para el análisis en Big Data desarrollada por el SAS Institute. Va en consonancia con el sistema de trabajo de SAS Enterprise Miner, su software de minería de datos, y prevé cinco etapas:

  1. Muestreo: se debe escoger un conjunto de datos representativo, con un tamaño adecuado para obtener conclusiones relevantes y generalizables.
  2. Exploración: para atisbar las coincidencias y las tendencias más marcadas, que nos guíen en los siguientes pasos.
  3. Modificación: mediante una labor de agrupación, limpieza y recorte de variables, o de creación de otras nuevas, que facilite las tareas posteriores.
  4. Modelado: con técnicas de minería de datos como las redes neuronales, los árboles de decisión u otras herramientas estadísticas.
  5. Evaluación: con tests que verifiquen la validez del modelo desarrollado, probando su fiabilidad en otras muestras.

CRISP-DM (Cross Industry Standard Process for Data Mining)

Big Data, Minería de datos

CRISP-DM supone un avance con respecto a KDD y SEMMA en el campo de los procesos de minería de datos para el análisis en Big Data, en el sentido de que anticipa la repercusión de los hallazgos obtenidos en el negocio. Las tareas de analítica se asumen como un proyecto que se documenta exhaustivamente para que todos los equipos de una organización puedan continuar trabajando a partir de él.

CRISP-DM se estructura en seis fases:

  1. Comprensión del negocio: asunción de sus necesidades y objetivos y selección de los que van a motivar el análisis en Big Data.
  2. Comprensión de los datos: primera aproximación a los datos para realizar agrupaciones, identificar patrones notorios y lanzar hipótesis preliminares.
  3. Preparación de los datos: incluyendo selección de muestras, limpieza, normalización y transformación.
  4. Modelado: con técnicas de analítica y data mining acordes al tipo de pregunta o preguntas a las que se pretende responder (qué ha ocurrido, por qué, qué sucederá a continuación o cómo deberíamos actuar ahora).
  5. Evaluación: para, de nuevo, vigilar el nivel de fiabilidad de los resultados obtenidos y cerciorarnos de que el modelo toma en consideración todas las circunstancias del negocio.
  6. Despliegue: generación del informe o entregable final o implantación en un entorno de producción.

Herramientas de análisis en Big Data

Los analistas de Big Data acometen estos procesos con la ayuda de una serie de herramientas tecnológicas que automatizan las tareas menos creativas de la explotación de datos. En datahack impartimos cursos específicos para aprender a manejar algunas de ellas, como:

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un experto métodos de minería y sus herramientas

Suscríbete a nuestra Newsletter

Recibe nuestra programación mensual de eventos online y la apertura de nuevas convocatorias de cursos




    En Datahack Consulting SL trataremos los datos que nos facilites con la finalidad de enviarte información relacionada con tu solicitud sobre nuestros servicios, así como enviarte comunicaciones informativas sobre nuestra actividad. Podrás ejercer los derechos de acceso, rectificación, limitación, oposición, portabilidad, o retirar el consentimiento enviando un email a administracion@datahack.es. También puedes solicitar la tutela de derechos ante la Autoridad de Control (AEPD). Puedes consultar información adicional y detallada sobre protección de datos en nuestra Política de Privacidad.

    Estamos para ayudarte con cualquier duda, pequeña o grande

    Llámanos, escríbenos al email o por WhatsApp o inicia un chat en la web y hablamos

    chevron-down