La minería de datos se define como una serie de técnicas encaminadas a identificar patrones implícitos dentro de grandes conjuntos de datos, con el fin de entender sus mecanismos de comportamiento, su interrelación y su potencial evolución futura. El data mining es una tecnología exploratoria clave en los proyectos de Big Data, y se puede poner en funcionamiento tanto para resolver preguntas específicas como para la extracción de información de manera general, buscando tendencias y anomalías en la muestra.

Hace poco abordábamos en el Blog de datahack algunas de las metodologías de data mining más conocidas para el análisis en Big Data, como KDD, SEMMA y CRISP-DM. Hoy iremos un paso más allá y nos centraremos en las 7 técnicas de minería de datos más utilizadas en el mundo del Big Data. Aquí tienes nuestra selección:

1.     Árboles de decisión

Los árboles de decisión son diagramas lógicos que plantean, ante una determinada situación, cuáles son las opciones de intervención posibles, agregando sus implicaciones, costes, ventajas y desventajas. Se basan en la aplicación de un algoritmo clasificatorio que, a partir de un nodo, desarrolla ramas (decisiones) y determina el potencial resultado de cada una de ellas.

2.     Redes neuronales

Las redes neuronales son modelos que, a través del aprendizaje automático, intentan llenar los vacíos de interpretación en un sistema. Para ello imitan, en cierto modo, las conexiones entre neuronas que se producen en el sistema nervioso de los seres vivos.

Las redes neuronales se engloban dentro de las técnicas predictivas de minería de datos y, como todo modelo de machine learning, es preciso entrenarlas con distintos data sets con los que ir matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas. Existen diferentes tipos de redes neuronales para data mining, como el perceptrón simple y el multicapa o los mapas de Kohonen.

3.     Clustering

El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo atiende a condiciones de cercanía o similitud para hacer su trabajo.

Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de correos y promociones personalizadas a los usuarios que integran una base de datos.

4.     Extracción de reglas de asociación

La extracción de reglas de asociación como técnica de minería de datos persigue la inferencia de silogismos del tipo si…/entonces… a partir de conjuntos de registros. Esta búsqueda de regularidades nos permite discriminar y conocer mejor a una muestra, y establecer qué atributo o combinación de atributos es probable que traiga consigo una determinada consecuencia.

Profesional de Big Data utilizando técnicas de minería de datos

5.     Redes bayesianas

Las redes bayesianas son representaciones gráficas de relaciones de dependencia probabilística entre distintas variables. Sirven para dar solución tanto a problemas descriptivos como predictivos. Entre sus aplicaciones se incluyen el diagnóstico médico o el cálculo del riesgo en el sector financiero y asegurador.

6.     Regresión

La regresión como técnica de minería de datos toma como punto de partida una serie histórica para, a partir de ella, predecir qué sucederá a continuación. De manera resumida, podemos decir que, a través de este método, se localizan regularidades dentro de los datos que permiten trazar una línea de evolución extrapolable al futuro.

7.     Modelado estadístico

El modelado estadístico pretende dibujar el mapa de relaciones entre variables explicativas y dependientes, y mostrar cómo cambia a medida que lo hacen los parámetros considerados en su planteamiento. Lo hace estableciendo una ecuación matemática que intenta reproducir la realidad de la manera más fiel posible, incorporando, incluso, la influencia del azar y el posible margen de error en el cálculo.

¿Conocías estas técnicas de minería de datos para Big Data? ¿Has aplicado alguna de ellas en tus proyectos profesionales? Sea como sea, en datahack podemos acompañarte en tu iniciación o a ayudarte a perfeccionar tus conocimientos de data mining. Comienza desde cero con nuestro curso básico de dos meses Get Started in Data Analytics o matricúlate en nuestro Máster en Big Data & Analytics para convertirte en todo un experto. Una formación intensiva y 100% online diseñada para abrirte camino como profesional del Big Data. ¡Pregúntanos ahora, las plazas vuelan!

Machine learning es una de las palabras de moda en el mundo del Big Data. Es como el sexo de los adolescentes estadounidenses, todo el mundo habla de ello, todos dicen haberlo hecho, pero realmente ninguno sabe lo que es. Vamos a indagar un poco.

Esta es la definición de la Wikipedia: “En ciencias de la computación el aprendizaje automático o aprendizaje de máquinas es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. De forma más concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. Es, por lo tanto, un proceso de inducción del conocimiento. En muchas ocasiones el campo de actuación del aprendizaje automático se solapa con el de la estadística, ya que las dos disciplinas se basan en el análisis de datos”.

A continuación, trataremos de esclarecer la definición anterior.

La mayoría de los programas informáticos están compuestos por una serie de órdenes ejecutables. Los programas conocen lo que han de hacer: abrir un fichero, buscar, comparar, ordenar, agregar, y muchas operaciones lógicas y matemáticas por complejas que sean.

En Machine Learning se ofrecen una serie de programas que a través de la recolección y el análisis de los datos existentes pueden predecir el comportamientos futuro de los programas.

Las tres C’s del Machine Learning

Existen tres categorías bien definidas de técnicas de explotación de datos, los filtros colaborativos empleados para realizar recomendaciones, el clustering y los clasificadores.

Machine Learning: filtros colaborativos

Es una técnica utilizada para realizar recomendaciones. Uno de los primeros en aplicar esta técnica fue Amazon. Analiza los gustos de las personas y los aprende para poder sugerirle nuevos gustos. Es muy útil para ayudar a los usuarios a navegar por la red, mostrando los temas afines a sus intereses y gustos. Los filtros colaborativos no están limitados por el tipo de datos con los que trabajan en un momento determinado, por lo que son muy útiles trabajando en dominios distintos.

Por ejemplo, a través del análisis de los gustos de una persona al calificar un producto audiovisual como un largometraje, el programa puede adivinar qué nota le pondría a otra serie o cinta que aún no ha clasificado.

Machine Learning - Clustering

Machine Learning - Ejemplos de Clustering

Machine Learning: Clustering

El Clustering descubre agrupaciones en los datos que no existían previamente. Busca encontrar relaciones entre variables descriptivas de manera automática. Puede, por ejemplo, encontrar relaciones entre publicaciones nuevas que aparentemente no tienen ningún patrón común, o analizar grupos de píxeles en varias imágenes que se relacionan con ciertos objetos.

Tanto los filtros colaborativos como el clustering son técnicas no supervisadas; no es necesario disponer de ninguna información previa de los datos.

Machine Learning: clasificadores

Los clasificadores son una forma de aprendizaje supervisado. Usan una serie de registros identificados mediante un etiquetado conocido. A partir de ellos, el clasificador puede etiquetar nuevos registros de manera autónoma. Algunos usos de estos clasificadores pueden ser el etiquetado del correo Spam a partir de otros mensajes previamente clasificados, o la identificación de tumores malignos o benignos a partir de otros ya etiquetados previamente

Como vemos la utilidad del Machine Learning es fantástica y casi mágica, ahorrando mucho trabajo. 

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down