Si te estás iniciando en el mundo del Big Data, probablemente te encontrarás un poco perdido entre la ensalada de términos que manejan los expertos. Inteligencia Artificial, Machine Learning, Internet de las Cosas… Se trata de piezas de un puzzle que debemos encajar para comprender cómo funciona esto de los datos y ser conscientes de todo el jugo que le podemos sacar. Uno de los componentes claves del cuadro es el Data Science o Ciencia de Datos, que desempeña un papel crucial a la hora de convertir los registros en bruto en información.

¿Qué es el Data Science?

El Data Science o Ciencia de Datos es una disciplina que combina técnicas matemáticas y herramientas tecnológicas para la extracción, el estudio y el análisis de datos. El Data Science pretende, a partir de una observación minuciosa de la realidad, inferir conclusiones útiles para anticipar tendencias y guiar la toma de decisiones.

El Data Science se basa en tres pilares:

El Data Science está íntimamente ligado con el Big Data y la minería de datos. También existen otros conceptos de la Ciencia de Datos que es imprescindible dominar si quieres hacer de tu pasión por los datos tu profesión.

¿Para qué sirve la Ciencia de Datos?

Al Data Science se le puede sacar partido desde ámbitos muy diversos. Podemos pensar en la Salud, con el desarrollo de modelos de diagnóstico cada vez más certeros; o en los Recursos Humanos, donde la Ciencia de Datos nos ayudará a encontrar al candidato perfecto, a analizar el desempeño de los trabajadores o a retener el talento.

Pero la lista es casi infinita, ya que otros sectores como las finanzas, los seguros, el marketing digital, los medios de comunicación, la industria o la logística también pueden aprovecharse de las aplicaciones de esta disciplina. En general, las empresas están potenciando sus áreas de Business Intelligence con Data Sciencists para tener una visión del negocio más analítica y optimizar los procesos de toma de decisiones clave.

¿Qué se necesita para trabajar como científico de datos?

El perfil del científico de datos requiere una mezcla de pensamiento matemático y analítico, aderezado con la capacidad de generar insights y trasladarlos a los demás de forma sencilla y comprensible.

La mayoría de las ofertas de empleo para data scientists inciden en la importancia de saber programar con Python o R y estar familiarizado con Apache Spark. En cualquier caso, si no cuentas con estas habilidades informáticas no es una barrera infranqueable, puesto que los másters en Data Science como el de datahack incluyen estas disciplinas como parte de su programa de formación.

¿Por qué y dónde estudiar Data Science?

La profesión de científico de datos ocupa el tercer puesto en el ranking de profesiones emergentes de 2020 (Emerging Jobs Report) que elabora cada año LinkedIn. Estos especialistas están adquiriendo nuevas responsabilidades y ocupando espacios que antes se llenaban con otros roles más tradicionales. Su contratación creció nada menos que un 37% el año pasado con respecto al ejercicio anterior.

Estudiar un máster relacionado con el Data Science te dará la oportunidad de abrirte paso dentro de este prometedor itinerario laboral. Y si te decides por el Máster Experto Big Data Analytics tendrás aún más ventajas: formación práctica, dinámica, intensiva y 100% en streaming, basada en nuestra metodología Learning by doing. Infórmate ahora: ¡una de las plazas de la próxima convocatoria te está esperando!

Temática

Minería de datos

Tiempo de lectura

5 minutos

Claves de contenido del artículo

Árbol de decisión

Redes neuronales

Clustering

Extracción de reglas de asociación

Redes bayesianas

Regresión

Modelado estadístico


La minería de datos se define como una serie de técnicas encaminadas a identificar patrones implícitos dentro de grandes conjuntos de datos, con el fin de entender sus mecanismos de comportamiento, su interrelación y su potencial evolución futura. El data mining es una tecnología exploratoria clave en los proyectos de Big Data, y se puede poner en funcionamiento tanto para resolver preguntas específicas como para la extracción de información de manera general, buscando tendencias y anomalías en la muestra.


Hace poco abordábamos en el Blog de datahack algunas de las metodologías de data mining más conocidas para el análisis en Big Data, como KDD, SEMMA y CRISP-DM. Hoy iremos un paso más allá y nos centraremos en las 7 técnicas de minería de datos más utilizadas en el mundo del Big Data. Aquí tienes nuestra selección:

Árboles de decisión

Los árboles de decisión son diagramas lógicos que plantean, ante una determinada situación, cuáles son las opciones de intervención posibles, agregando sus implicaciones, costes, ventajas y desventajas. Se basan en la aplicación de un algoritmo clasificatorio que, a partir de un nodo, desarrolla ramas (decisiones) y determina el potencial resultado de cada una de ellas.

Las redes neuronales son modelos que, a través del aprendizaje automático, intentan llenar los vacíos de interpretación en un sistema. Para ello imitan, en cierto modo, las conexiones entre neuronas que se producen en el sistema nervioso de los seres vivos.

Las redes neuronales se engloban dentro de las técnicas predictivas de minería de datos y, como todo modelo de machine learning, es preciso entrenarlas con distintos data sets con los que ir matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas. Existen diferentes tipos de redes neuronales para data mining, como el perceptrón simple y el multicapa o los mapas de Kohonen.

Redes neuronales

Clustering

El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo atiende a condiciones de cercanía o similitud para hacer su trabajo.

Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de correos y promociones personalizadas a los usuarios que integran una base de datos.

Aprende más sobre la clusterización de clientes y llega a ellos de forma más personalizada con nuestro Máster Executive Inteligencia Artificial y Big Data.

La extracción de reglas de asociación como técnica de minería de datos persigue la inferencia de silogismos del tipo si…/entonces… a partir de conjuntos de registros. Esta búsqueda de regularidades nos permite discriminar y conocer mejor a una muestra, y establecer qué atributo o combinación de atributos es probable que traiga consigo una determinada consecuencia.

Extracción de reglas de asociación

Redes bayesianas

Las redes bayesianas son representaciones gráficas de relaciones de dependencia probabilística entre distintas variables. Sirven para dar solución tanto a problemas descriptivos como predictivos. Entre sus aplicaciones se incluyen el diagnóstico médico o el cálculo del riesgo en el sector financiero y asegurador.

La regresión como técnica de minería de datos toma como punto de partida una serie histórica para, a partir de ella, predecir qué sucederá a continuación. De manera resumida, podemos decir que, a través de este método, se localizan regularidades dentro de los datos que permiten trazar una línea de evolución extrapolable al futuro.

Regresión

Modelado estadístico

El modelado estadístico pretende dibujar el mapa de relaciones entre variables explicativas y dependientes, y mostrar cómo cambia a medida que lo hacen los parámetros considerados en su planteamiento. Lo hace estableciendo una ecuación matemática que intenta reproducir la realidad de la manera más fiel posible, incorporando, incluso, la influencia del azar y el posible margen de error en el cálculo.

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un especialista en Inteligencia de Negocio

Temática

Análisis Big Data

Tiempo de lectura

6 minutos

Claves de contenido del artículo

KDD (Knowledge Discovery in Databases)

SEMMA (Sample, Explore, Modify, Model and Assess)

CRISP-DM (Cross Industry Standard Process for Data Mining)

Herramientas de análisis


El análisis en Big Data se define como un proceso que comprende la recolección, la depuración, el tratamiento, el modelado y el estudio de los datos con el fin de obtener conclusiones útiles que cristalicen en forma de conocimiento y que guíen la toma de decisiones en las organizaciones.

Para el desarrollo de este proceso de análisis en Big Data, utilizamos metodologías iterativas de minería de datos como KDD, SEMMA o CRISP-DM, que constan de varias fases de manejo de los datos claramente secuenciadas y que emplean técnicas de analítica descriptiva, diagnóstica, predictiva o prescriptiva. Veamos en qué consiste cada una de ellas.

Métodos de minería de datos para el análisis en Big Data

KDD (Knowledge Discovery in Databases)

KDD (Knowledge Discovery in Databases) es una metodología de minería de datos para el análisis en Big Data que busca identificar patrones implícitos en los grandes volúmenes de datos y convertirlos en conocimiento, filtrando y descartando aquellos hallazgos que no resulten de utilidad para los objetivos fijados. Por eso, antes de iniciar un proceso KDD, es imprescindible determinar qué queremos conseguir con él. Una vez establecido esto, se aplica el método KDD con los siguientes pasos:

  1. Selección: de las muestras de datos y de las variables que se van a estudiar.
  2. Preprocesamiento: se lleva a cabo una homogeneización de los registros, limpiando y normalizando para que no haya problemas con el procesamiento por parte de las herramientas de Big Data.
  3. Transformación: se aplican técnicas de reducción de la dimensionalidad y de eliminación de las variables irrelevantes para reducir la complejidad de la muestra.
  4. Minería de datos: se establece qué algoritmos y técnicas de data mining usar y se ponen en juego para descubrir y mapear las relaciones entre los datos.
  5. Interpretación: finalmente, se traduce la información descubierta en dashboards y visualizaciones comprensibles para los actores encargados de evaluar el conocimiento adquirido y decidir qué hacer con él.

SEMMA (Sample, Explore, Modify, Model and Assess)

SEMMA (Sample, Explore, Modify, Model and Assess) es una metodología de data mining para el análisis en Big Data desarrollada por el SAS Institute. Va en consonancia con el sistema de trabajo de SAS Enterprise Miner, su software de minería de datos, y prevé cinco etapas:

  1. Muestreo: se debe escoger un conjunto de datos representativo, con un tamaño adecuado para obtener conclusiones relevantes y generalizables.
  2. Exploración: para atisbar las coincidencias y las tendencias más marcadas, que nos guíen en los siguientes pasos.
  3. Modificación: mediante una labor de agrupación, limpieza y recorte de variables, o de creación de otras nuevas, que facilite las tareas posteriores.
  4. Modelado: con técnicas de minería de datos como las redes neuronales, los árboles de decisión u otras herramientas estadísticas.
  5. Evaluación: con tests que verifiquen la validez del modelo desarrollado, probando su fiabilidad en otras muestras.

CRISP-DM (Cross Industry Standard Process for Data Mining)

Big Data, Minería de datos

CRISP-DM supone un avance con respecto a KDD y SEMMA en el campo de los procesos de minería de datos para el análisis en Big Data, en el sentido de que anticipa la repercusión de los hallazgos obtenidos en el negocio. Las tareas de analítica se asumen como un proyecto que se documenta exhaustivamente para que todos los equipos de una organización puedan continuar trabajando a partir de él.

CRISP-DM se estructura en seis fases:

  1. Comprensión del negocio: asunción de sus necesidades y objetivos y selección de los que van a motivar el análisis en Big Data.
  2. Comprensión de los datos: primera aproximación a los datos para realizar agrupaciones, identificar patrones notorios y lanzar hipótesis preliminares.
  3. Preparación de los datos: incluyendo selección de muestras, limpieza, normalización y transformación.
  4. Modelado: con técnicas de analítica y data mining acordes al tipo de pregunta o preguntas a las que se pretende responder (qué ha ocurrido, por qué, qué sucederá a continuación o cómo deberíamos actuar ahora).
  5. Evaluación: para, de nuevo, vigilar el nivel de fiabilidad de los resultados obtenidos y cerciorarnos de que el modelo toma en consideración todas las circunstancias del negocio.
  6. Despliegue: generación del informe o entregable final o implantación en un entorno de producción.

Herramientas de análisis en Big Data

Los analistas de Big Data acometen estos procesos con la ayuda de una serie de herramientas tecnológicas que automatizan las tareas menos creativas de la explotación de datos. En datahack impartimos cursos específicos para aprender a manejar algunas de ellas, como:

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un experto métodos de minería y sus herramientas

Continuamos con nuestra serie de artículos con el recorrido por las tecnologías Big Data, ya hablamos de ciencia de datos y áreas de conocimiento.

ETAPAS DEL DATA MINING

Un proyecto de Big Data se puede enfocar desde múltiples perspectivas. El enfoque y las fases por seguir dependerán de la experiencia del equipo que hayamos seleccionado para llevarlo a cabo y de cómo sean nuestros datos. También, tendremos que tener en cuenta el presupuesto y qué plazo se haya especificado para la entrega de resultados. No obstante, a grandes rasgos podemos establecer tres fases comunes a cualquier proyecto. 

PREPROCESAMIENTO DE LOS DATOS

También llamado Data Preprocessing. Se refiere al análisis inicial que hacemos de nuestros datos. Algunas de las consideraciones que tendremos que tener en cuenta es si son datos internos que ya tenemos o externos que hay que recopilar. Si nuestros datos son estructurados, semi estructurados o no estructurados. Como es la estructura de nuestra base de datos y si somos o no propietarios de esa información. 

Además, una vez que tengamos los datos deberemos de comenzar por limpiarlos, por ejemplo, eliminando duplicados, viendo si tenemos un porcentaje grande de datos nulos o haciendo una selección de las mejores variables. También podremos enriquecer nuestros datos integrándolos con otros y creando subconjuntos de estos para alimentar distintos modelos. Todo este proceso en el ámbito de un proyecto puede suponer más del 70% del tiempo total de ejecución.

SELECCIÓN DE MODELOS

A continuación, deberemos pasar a la selección de modelos o Model Selection que utilizaremos sobre nuestros datos. En este punto son muchas las técnicas y tecnologías que podemos utilizar. Podemos comenzar haciendo un análisis estadístico de nuestros datos para ver cómo se distribuyen nuestras variables o cuál es la correlación entre ellas. También tendremos una idea de si tenemos outliers o atípicos en nuestros datos. 

Entre las herramientas más útiles que tenemos en esta fase es la visualización de datos. Y no debemos entenderla en el sentido más tradicional a modo de entrega de resultados o de reporting. Utilizamos DataViz en su rama exploratoria. Es mucho más sencillo encontrar patrones en los datos utilizando algunos tipos de visualizaciones como los mapas de calor que analizando tablas de forma tradicional. 

Posteriormente, dependiendo de nuestros datos y de lo que intuyamos que podemos obtener de ellos, los llamados insights, pasaremos a elegir las herramientas de Inteligencia Artificial que conocemos mejor como algoritmos de Machine Learning y de Deep Learning para extraer valor de esos datos y hacer distintos tipos de análisis. Algunas de las técnicas de análisis más frecuentes son el análisis predictivo y el análisis de Clustering para segmentación de clientes. 

ANÁLISIS DE LOS RESULTADOS

Una vez que hemos pasado por los procesos anteriores, tendremos que hacer un análisis de resultados. Una máxima que hay que tener en cuenta a la hora de embarcarse en un proyecto de Big Data es que los resultados de éste tienen que poder cuantificarse de algún modo para ver su efectividad y rentabilidad

Tendremos que ver si nuestros resultados son coherentes y se ajustan a las especificaciones establecidas al inicio del proyecto. Además, el cliente ya sea interno o externo deberá determinar si los resultados han tenido un impacto positivo para el negocio y si le han permitido obtener conocimiento para la toma de decisiones. 

MÁSTER EXPERTO EN BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Continuamos con nuestra serie de artículos con el recorrido por las tecnologías Big Data, en la que ya hablamos de las áreas de conocimiento.

Ciencia de Datos

Si nos vamos al sentido más estricto de esta expresión, diremos que ciencia de datos es casi todo aquello que tenga que ver con los datos. Y, si nos paramos a pensar, casi cualquier cosa del ámbito que nos rodea está relacionada con los datos.

Una definición más precisa es “área interdisciplinar que incluye métodos científicos, tecnologías y procesos para extraer conocimiento y valor de los datos sean del tipo que sean". En resumen, es una disciplina que hace que los datos sean útiles.

Dicho esto, los creyentes del Big Data no debemos caer en la trampa de considerar que es una ciencia moderna y que venimos a aportar algo completamente nuevo. El almacenamiento de datos existe desde hace milenios. Como tal, esta ciencia y sus procesos tienen este nombre desde Peter Naur los llamara así en los años sesenta. Por tanto, no hemos inventado la rueda. 

Wikipedia, además, tiene una definición muy sencilla que puede conectar pasado y presente cuando lo define como: “concepto para unificar estadísticas, análisis de datos, Machine Learning y sus métodos relacionados”, para “entender y analizar fenómenos reales”.

Data Mining

Vamos a incluir en este artículo uno de los conceptos inherentes a la ciencia de datos: el data mining o minería de datos.

Podemos englobar aquí el conjunto de técnicas y tecnologías de las que nos vamos a valer para explorar grandes bases de datos. A partir de diversas técnicas, vamos a tratar de encontrar patrones, tendencias o anomalías que nos ayuden a ver cómo se comportan nuestros datos.

En mayor o menor medida siempre hemos aplicado técnicas de data mining dentro del llamado Business Intelligence o BI. La principal diferencia es que en BI generalmente hemos tratado de responder preguntas concretas a partir de nuestros datos. 

Hoy en día, gracias al crecimiento exponencial de los datos, a la mejora de capacidad de procesamiento de los equipos modernos y a las nuevas tecnologías de Big Data, ya no siempre vamos a buscar responder una pregunta. Ahora podemos observar datos de los que no conocemos nada y encontrar patrones. Una vez que encontremos ese patrón y tengamos una pista que seguir, podremos profundizar en los datos y extraer conocimiento orientado a la toma de decisiones. 

¿Por qué es tan importante formarse en técnica de data mining ahora?

Vivimos hoy una transformación en la que hemos pasado de que los datos sean una parte estática del negocio a que sean la materia prima. Donde explotábamos los datos para ver cómo iba la evolución del negocio, explotamos datos para evolucionar el negocio, tomar decisiones y crear productos y acciones de impacto en la sociedad y en las cuentas de la empresa. Además, estas acciones no tienen por qué ir orientadas únicamente al aumento del beneficio. Una de las mejores aplicaciones de estas técnicas es la optimización de costes. 

Por tanto, ya sea que quieres mejorar tu satisfacción de cliente, crear mejores productos u optimizar tus costes, una pequeña actualización técnica puede ser determinante.

MÁSTER EXPERTO BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down