clustering archivos

Temática

Minería de datos

Tiempo de lectura

5 minutos

Claves de contenido del artículo

Árbol de decisión

Redes neuronales

Clustering

Extracción de reglas de asociación

Redes bayesianas

Regresión

Modelado estadístico

La minería de datos se define como una serie de técnicas encaminadas a identificar patrones implícitos dentro de grandes conjuntos de datos, con el fin de entender sus mecanismos de comportamiento, su interrelación y su potencial evolución futura. El data mining es una tecnología exploratoria clave en los proyectos de Big Data, y se puede poner en funcionamiento tanto para resolver preguntas específicas como para la extracción de información de manera general, buscando tendencias y anomalías en la muestra.

Hace poco abordábamos en el Blog de datahack algunas de las metodologías de data mining más conocidas para el análisis en Big Data, como KDD, SEMMA y CRISP-DM. Hoy iremos un paso más allá y nos centraremos en las 7 técnicas de minería de datos más utilizadas en el mundo del Big Data. Aquí tienes nuestra selección:

Árboles de decisión

Los árboles de decisión son diagramas lógicos que plantean, ante una determinada situación, cuáles son las opciones de intervención posibles, agregando sus implicaciones, costes, ventajas y desventajas. Se basan en la aplicación de un algoritmo clasificatorio que, a partir de un nodo, desarrolla ramas (decisiones) y determina el potencial resultado de cada una de ellas.

Las redes neuronales son modelos que, a través del aprendizaje automático, intentan llenar los vacíos de interpretación en un sistema. Para ello imitan, en cierto modo, las conexiones entre neuronas que se producen en el sistema nervioso de los seres vivos.

Las redes neuronales se engloban dentro de las técnicas predictivas de minería de datos y, como todo modelo de machine learning, es preciso entrenarlas con distintos data sets con los que ir matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas. Existen diferentes tipos de redes neuronales para data mining, como el perceptrón simple y el multicapa o los mapas de Kohonen.

Redes neuronales

Clustering

El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo atiende a condiciones de cercanía o similitud para hacer su trabajo.

Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de correos y promociones personalizadas a los usuarios que integran una base de datos.

Aprende más sobre la clusterización de clientes y llega a ellos de forma más personalizada con nuestro Máster Executive Inteligencia Artificial y Big Data.

La extracción de reglas de asociación como técnica de minería de datos persigue la inferencia de silogismos del tipo si…/entonces… a partir de conjuntos de registros. Esta búsqueda de regularidades nos permite discriminar y conocer mejor a una muestra, y establecer qué atributo o combinación de atributos es probable que traiga consigo una determinada consecuencia.

Extracción de reglas de asociación

Redes bayesianas

Las redes bayesianas son representaciones gráficas de relaciones de dependencia probabilística entre distintas variables. Sirven para dar solución tanto a problemas descriptivos como predictivos. Entre sus aplicaciones se incluyen el diagnóstico médico o el cálculo del riesgo en el sector financiero y asegurador.

La regresión como técnica de minería de datos toma como punto de partida una serie histórica para, a partir de ella, predecir qué sucederá a continuación. De manera resumida, podemos decir que, a través de este método, se localizan regularidades dentro de los datos que permiten trazar una línea de evolución extrapolable al futuro.

Regresión

Modelado estadístico

El modelado estadístico pretende dibujar el mapa de relaciones entre variables explicativas y dependientes, y mostrar cómo cambia a medida que lo hacen los parámetros considerados en su planteamiento. Lo hace estableciendo una ecuación matemática que intenta reproducir la realidad de la manera más fiel posible, incorporando, incluso, la influencia del azar y el posible margen de error en el cálculo.

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un especialista en Inteligencia de Negocio

Más información

Machine learning es una de las palabras de moda en el mundo del Big Data. Es como el sexo de los adolescentes estadounidenses, todo el mundo habla de ello, todos dicen haberlo hecho, pero realmente ninguno sabe lo que es.

Según SAP, uno de los principales productores mundiales de software para la gestión de procesos de negocio, lo define como: "Un subconjunto de inteligencia artificial (IA). Se centra en enseñar a las computadoras a aprender de los datos y mejorar con la experiencia -en lugar de ser explícitamente programadas para hacerlo- En Machine Learning los algoritmos se capacitan para encontrar patrones y correlaciones en grandes data sets y para tomar las mejores decisiones y previsiones basadas en ese análisis".

A continuación, trataremos de esclarecer la definición anterior.

La mayoría de los programas informáticos están compuestos por una serie de órdenes ejecutables. Los programas conocen lo que han de hacer: abrir un fichero, buscar, comparar, ordenar, agregar, y muchas operaciones lógicas y matemáticas por complejas que sean.

En Machine Learning se ofrecen una serie de programas que a través de la recolección y el análisis de los datos existentes pueden predecir el comportamientos futuro de los programas.

Las tres C’s del Machine Learning

Existen tres categorías bien definidas de técnicas de explotación de datos, los filtros colaborativos empleados para realizar recomendaciones, el clustering y los clasificadores.

Machine Learning: filtros colaborativos

Es una técnica utilizada para realizar recomendaciones. Uno de los primeros en aplicar esta técnica fue Amazon. Analiza los gustos de las personas y los aprende para poder sugerirle nuevos gustos. Es muy útil para ayudar a los usuarios a navegar por la red, mostrando los temas afines a sus intereses y gustos. Los filtros colaborativos no están limitados por el tipo de datos con los que trabajan en un momento determinado, por lo que son muy útiles trabajando en dominios distintos.

Por ejemplo, a través del análisis de los gustos de una persona al calificar un producto audiovisual como un largometraje, el programa puede adivinar qué nota le pondría a otra serie o cinta que aún no ha clasificado.

Machine Learning - Ejemplos de Clustering

Machine Learning: Clustering

El Clustering descubre agrupaciones en los datos que no existían previamente. Busca encontrar relaciones entre variables descriptivas de manera automática. Puede, por ejemplo, encontrar relaciones entre publicaciones nuevas que aparentemente no tienen ningún patrón común, o analizar grupos de píxeles en varias imágenes que se relacionan con ciertos objetos.

Tanto los filtros colaborativos como el clustering son técnicas no supervisadas; no es necesario disponer de ninguna información previa de los datos.

Machine Learning: clasificadores

Los clasificadores son una forma de aprendizaje supervisado. Usan una serie de registros identificados mediante un etiquetado conocido. A partir de ellos, el clasificador puede etiquetar nuevos registros de manera autónoma. Algunos usos de estos clasificadores pueden ser el etiquetado del correo Spam a partir de otros mensajes previamente clasificados, o la identificación de tumores malignos o benignos a partir de otros ya etiquetados previamente

Como vemos la utilidad del Machine Learning es fantástica y casi mágica, ahorrando mucho trabajo.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Cookies de terceros

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_ga	ID utiliza para identificar a los usuarios	en 2 años
datahack.es	_gid	ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad	en 20 horas
google.com	__Secure-3PAPISI D	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años
google.com	__Secure-3PSID	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años

Publicitarias

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_fbp	Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros	en 3 meses
datahack.es	_gcl_au	Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.	en 3 meses
google.com	APISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	HSID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SAPISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SIDCC	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en un año
google.com	SSID	Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la Búsqueda de Google.	en 2 años

Editor	Política de privacidad
Facebook	https://www.facebook.com/about/privacy/
Google Analytics	https://privacy.google.com/take-control.html
Google	https://privacy.google.com/take-control.html
Google	https://safety.google/privacy/privacy-controls/