Temática

Minería de datos

Tiempo de lectura

5 minutos

Claves de contenido del artículo

Árbol de decisión

Redes neuronales

Clustering

Extracción de reglas de asociación

Redes bayesianas

Regresión

Modelado estadístico


La minería de datos se define como una serie de técnicas encaminadas a identificar patrones implícitos dentro de grandes conjuntos de datos, con el fin de entender sus mecanismos de comportamiento, su interrelación y su potencial evolución futura. El data mining es una tecnología exploratoria clave en los proyectos de Big Data, y se puede poner en funcionamiento tanto para resolver preguntas específicas como para la extracción de información de manera general, buscando tendencias y anomalías en la muestra.


Hace poco abordábamos en el Blog de datahack algunas de las metodologías de data mining más conocidas para el análisis en Big Data, como KDD, SEMMA y CRISP-DM. Hoy iremos un paso más allá y nos centraremos en las 7 técnicas de minería de datos más utilizadas en el mundo del Big Data. Aquí tienes nuestra selección:

Árboles de decisión

Los árboles de decisión son diagramas lógicos que plantean, ante una determinada situación, cuáles son las opciones de intervención posibles, agregando sus implicaciones, costes, ventajas y desventajas. Se basan en la aplicación de un algoritmo clasificatorio que, a partir de un nodo, desarrolla ramas (decisiones) y determina el potencial resultado de cada una de ellas.

Las redes neuronales son modelos que, a través del aprendizaje automático, intentan llenar los vacíos de interpretación en un sistema. Para ello imitan, en cierto modo, las conexiones entre neuronas que se producen en el sistema nervioso de los seres vivos.

Las redes neuronales se engloban dentro de las técnicas predictivas de minería de datos y, como todo modelo de machine learning, es preciso entrenarlas con distintos data sets con los que ir matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas. Existen diferentes tipos de redes neuronales para data mining, como el perceptrón simple y el multicapa o los mapas de Kohonen.

Redes neuronales

Clustering

El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo atiende a condiciones de cercanía o similitud para hacer su trabajo.

Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de correos y promociones personalizadas a los usuarios que integran una base de datos.

Aprende más sobre la clusterización de clientes y llega a ellos de forma más personalizada con nuestro Máster Executive Inteligencia Artificial y Big Data.

La extracción de reglas de asociación como técnica de minería de datos persigue la inferencia de silogismos del tipo si…/entonces… a partir de conjuntos de registros. Esta búsqueda de regularidades nos permite discriminar y conocer mejor a una muestra, y establecer qué atributo o combinación de atributos es probable que traiga consigo una determinada consecuencia.

Extracción de reglas de asociación

Redes bayesianas

Las redes bayesianas son representaciones gráficas de relaciones de dependencia probabilística entre distintas variables. Sirven para dar solución tanto a problemas descriptivos como predictivos. Entre sus aplicaciones se incluyen el diagnóstico médico o el cálculo del riesgo en el sector financiero y asegurador.

La regresión como técnica de minería de datos toma como punto de partida una serie histórica para, a partir de ella, predecir qué sucederá a continuación. De manera resumida, podemos decir que, a través de este método, se localizan regularidades dentro de los datos que permiten trazar una línea de evolución extrapolable al futuro.

Regresión

Modelado estadístico

El modelado estadístico pretende dibujar el mapa de relaciones entre variables explicativas y dependientes, y mostrar cómo cambia a medida que lo hacen los parámetros considerados en su planteamiento. Lo hace estableciendo una ecuación matemática que intenta reproducir la realidad de la manera más fiel posible, incorporando, incluso, la influencia del azar y el posible margen de error en el cálculo.

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un especialista en Inteligencia de Negocio

La semana pasada, en el artículo Introducción a neurociencia: saber imprescindible para las Neural Networks (1), se había concluido con la generación de un spike. Este spike avanza hasta alcanzar el final del axón (o cuerpo de la neurona). ¿Y entonces? Es en ese momento cuando se entra en la sinapsis.

Sinapsis

La sinapsis es el punto de unión entre dos neuronas y puede ser de varios tipos:

Sinapsis eléctrica

En una sinapsis eléctica entre una neurona A y otra neurona B, cuando se produce actividad en la neurona A, esta se propaga a la neurona B. Lo que es lo mismo, cuando se produce un spike en la neurona A, tiene lugar un cambio en el voltaje de la neurona B. Esto se consigue a través de las uniones gap (gap junctions) que son, en esencia, canales iónicos:

Introducción a neurociencia, saber imprescindible para las Neural Networks 2

Un canal iónico es un tipo de proteína que se incrusta en la membrana de una célula permitiendo el paso de iones específicos a través de dicha membrana celular.

Como se aprecia en la ilustración, la peculiaridad de estos canales iónicos, que componen las uniones gap, es que se extienden a través de las membranas de ambas neuronas. De este modo, si se produce una excitación en la neurona A, motivada por un spike y la concentración de iones sodio (Na+) es mayor en la neurona A que en la neurona B, los canales iónicos facilitan la migración de ese tipo de iones hacía la neurona B. De esta forma, como resultado de cierta actividad en la neurona A, se produce un cambio en el potencial de la neurona B.

La sinapsis eléctrica es especialmente relevante en aquellos casos en los que se requiere la sincronización de un grupo de neuronas de manera que todas ellas se activen a la vez. Esto es un común, por ejemplo, en los actos reflejos de huida.

Sinapsis química

Introducción a neurociencia, saber imprescindible para las Neural Networks 2

En este tipo de sinapsis, todo empieza de la misma manera que en el anterior: con un spike que se genera en la neurona A y que se desplaza a lo largo de su axón... Pero, en esta ocasión, al final del camino existen unas bolsitas o vesículas que contienen moléculas neurotransmisoras. Debido al potencial generado en la neurona A, esas vesículas se fusionarán con la membrana celular. Así, liberarán los neurotransmisores que, a su vez, se depositarán en el pequeño hueco de la unión gap conocido como synaptic cleft (o hendidura sináptica)

Una vez liberados los neurotransmisores, estos se fusionan con los receptores de la neurona B (estos receptores son en realidad, canales iónicos) que controlarán la entrada y salida de los diferentes tipos de iones en función de la concentración de los mismos dentro y fuera de la neurona.

En la sinapsis química, todo comienza realmente con una actividad eléctrica (la que ocurre en la neurona A). Esta desencadena una actividad química (las moléculas neurotransmisoras liberadas de las vesículas en la neurona A, que se unirán con los receptores de la neurona B) que a su vez dé pie a otra actividad eléctrica motivada por la entrada de iones en la neurona B a través de los receptores.

Parece demasiado lío teniendo en cuenta que ya existe un tipo de sinapsis como es la sinapsis eléctrica. Entonces...¿por qué tomarse la molestia con la sinapsis química? Este tipo de sinapsis da un punto de flexibilidad adicional. Esto es porque permite cambiar cómo la neurona B es afectada por la neurona A, en función del número de canales iónicos que existan en la neurona B. Se cree que este tipo de sinapsis es la base del aprendizaje y de la memoria.

Todo esto nos lleva a una reflexión...

Con estos proceso tan intrincados...¿tiene sentido pensar todavía que las redes neuronales tratan de reflejar el comportamiento del cerebro? Pronto lo sabremos.

En el próximo artículo continuaremos con la sinapsis y la doctrina sináptica.


Alejandro Arranz. Data Engineer en datahack

MÁSTER EXPERTO BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

La convergencia entre la neurología y las ciencias de la computación es una tendencia innegable. Cada vez aprendemos más sobre nuestro cerebro gracias a los avances en Machine Learning y viceversa: descubrimos cómo construir y mejorar nuestros modelos informáticos en base a los descubrimientos de la neurociencia. Es por ello que, si queremos trabajar con deep learning y redes neuronales, debemos tener, al menos, unas nociones básicas de neurociencia.

La base de todo: la neurona

Si nuestro cerebro fuera una especie de escenario, la estrella indiscutible sería la neurona. El tamaño de una neurona es variable, siempre en el orden de la millonésima de metro (µm), pero no pensemos que todas las neuronas son iguales:

Introducción a neurociencia - primer paso para desarrollar Neural Networks

En estos fantásticos bocetos de tejido neuronal hechos por Don Santiago Ramón y Cajal, se aprecian distintos tipos de neuronas:

En tiempos de Ramón y Cajal, dos de las principales hipótesis que pugnaban por proponer una explicación satisfactoria a la incógnita de la estructura del cerebro eran:

Paradójicamente, los avances logrados por el propio Golgi en las técnicas de tintado de tejido nervioso permitieron a Ramón y Cajal no solo hacer los magníficos grabados mostrados más arriba, sino demostrar que la teoría neuronal era la que explicaba la realidad del cerebro. Ambos obtuvieron el premio Nobel de Medicina en 1906 por sus avances en el conocimiento del cerebro.

Doctrina neuronal

Los pilares fundamentales de la teoría encabezada por Ramón y Cajal son los siguientes:

En este esquema (obtenido del curso de neurociencia de la Universidad de Washington), se puede apreciar cual es el aspecto de una neurona que responda al esquema ideal planteado por la doctrina neuronal:

Introducción a neurociencia - primer paso para desarrollar Neural Networks

En la parte izquierda se muestra como la entrada de la neurona procede de los axones de otras neuronas. Estas “entradas” se traducen en algún tipo de actividad en la neurona destino que da lugar a una reacción conocida como EPSP (Excitatory Post-Synaptic Potential). En la realidad, las entradas proceden de muchas neuronas diferentes y participarán en la respuesta de la célula mediante la suma de todos los EPSP provocados. De este modo si como resultado de esa suma, se alcanza un determinado umbral o threshold, se generará una salida en la forma de un potencial de acción (action potential) o spike.

En resumen,

Los modelos de redes neuronales se basan en estos principios para funcionar.

En el próximo artículo hablaremos de la sinapsis y en el siguiente profundizaremos en la doctrina sináptica. Si os ha gustado y queréis seguir profundizando... ¡hacédnoslo saber!


Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Después de haber asimilado los tres artículos sobre la historia de lo que hoy llamamos Deep Learning (etapas, pioneros e hitos), lo normal es preguntarse qué ha ocurrido para que una tecnología, que en 1950 ya daba sus primeros pasos, se haya convertido hoy en una tecnología disruptiva. Como suele ocurrir en estos temas, no hay un único factor sino un cúmulo de ellos.

Tamaño de los dataset

Desde el punto de vista de la investigación, se intentó desde un primer momento orientar esta nueva ola hacia el aprendizaje no supervisado, con el objetivo de poder sacar conclusiones a partir de un conjunto reducido de datos. Pero la industria demandaba soluciones a problemas que se planteaban desde el punto de vista del aprendizaje supervisado, con la consiguiente necesidad de datos. Muchos datos.

Es interesante ver cómo los algoritmos de aprendizaje, que hoy alcanzan un performance similar al ser humano en ciertas tareas, son versiones ligeramente modificadas de aquellos que en la década de los 80 se las veían y se las deseaban para resolver problemas “de juguete”. Si que es cierto que algunas de esas modificaciones son las que hoy permiten entrenar arquitecturas más complejas. Pero el factor más diferencial es que se dispone del combustible que necesitan para funcionar: datos.

Dado que vivimos en la era digital y que cada vez estamos más y más interconectados, los datos que generamos se seguirán almacenando y limpiando. Esto dará lugar a datasets cada vez más y más grandes.

Deep Learning, 3ª ola de redes neuronales claves de éxito, tareas pendientes

Echemos la vista atrás.

En resumen, se percibe cómo, a medida que pasa el tiempo, el tamaño de los dataset se va incrementando más y más. Pero además, la complejidad de sus ejemplos también lo hace. Por ejemplo, el paso de las imágenes en escala de grises y 28x28 del MNIST a imágenes más pesadas en RGB de, por ejemplo, ImageNet.

Tamaño de los modelos

Si recopilamos lo aprendido en la ola del Conexionismo, uno de sus puntales era que una neurona, o un grupo de neuronas por sí solas, no iban a conseguir gran cosa. Para conseguir inteligencia, se necesitan neuronas y además interconexiones entre estas.

Partiendo de esa premisa, realmente cada una de nuestras neuronas no tienen un número exorbitante de conexiones (104 aproximadamente). Y, si de nuevo echamos la vista atrás, vemos cómo este número se ha ido incrementando hasta convertirse hoy en día en prácticamente una decisión de diseño:

Aunque, más que el número de conexiones por neurona, la parte que estaba (y está) algo más coja es el número de neuronas. Y es que, hasta el año 2000, las arquitecturas más disruptivas estaban compuestas de menos neuronas que una sanguijuela... (Visto de este modo, tampoco sorprende que no dieran buenos resultados cuando se trataba de resolver problemas complejos a través de ellas). Ahora mismo, las arquitecturas más complejas rondan las 107 neuronas (lo que sería el equivalente a una rana).

Conclusión y asignaturas pendientes

Si todo sigue su curso, entre la disponibilidad de máquinas cada vez más potentes y datasets más extensos, se espera que, alrededor de 2050, las redes neuronales ya tengan una cantidad de neuronas similar a las de un ser humano.

A pesar de todo esto, la gran asignatura pendiente del Deep Learning sigue siendo su capacidad para trabajar y generalizar adecuadamente con datasets pequeños y datasets sin etiquetar. Imaginad si se pudiera sacar provecho de todos los datos que existen sin etiquetar...


Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down