Artículos anteriores de Historia del Deep Learning:

El cerebro biológico como guía

Hoy en día, la neurociencia todavía se sigue viendo como una fuente de inspiración para los investigadores que vuelcan sus esfuerzos en el Deep Learning, pero está muy lejos de ser el campo predominante de esta disciplina. La razón es simple: no tenemos suficiente información sobre el cerebro biológico para usarlo como guía, no podemos monitorizar simultáneamente la actividad de miles (tirando por bajo) de neuronas interconectadas y aún estamos lejos de entender incluso las partes más elementales del cerebro.

A raíz del experimento por el que un grupo de hurones aprendieron a ver utilizando la parte de su cerebro responsable en principio de la función auditiva, mediante un recableado de sus cerebros para enviar señales visuales a ese área se abrió la posibilidad de que el cerebro de los mamíferos realmente utilizara un único algoritmo para resolver las distintas tareas que este órgano se encarga de abordar, esto motivó que las comunidades que investigaban campos como procesamiento de lenguaje natural, reconocimiento de voz, visión computacional…y que hasta entonces estaban más disgregadas, se aproximaran entre sí para abordar problemas en común y trabajar en conjunto.

Con todo, es bastante confuso el mensaje que llega sobre todo de los medios de comunicación en los que cuales se proclama que el Deep Learning trata de simular el cerebro, cuando esto no es así. Sería mucho más razonable decir que sus principales fuentes de inspiración son el álgebra lineal, teoría de la información, probabilidad y optimización numérica.

Conexionismo en redes neuronales

Llegamos entonces a la segunda gran ola de las redes neuronales: el Conexionismo. Surgió en los años 80 en el ámbito de la ciencia cognitiva, que intenta entender la mente a través de múltiples niveles de análisis. En aquel momento, los investigadores de esta disciplina estaban volcados en el estudio de modelos de razonamiento simbólico. El problema de estos era la dificultad a la hora de explicar cómo el cerebro podría implementarlos mediante neuronas. Los conexionistas se centraron justamente en aquellos modelos cognitivos que sí pudieran ser implementados neuronalmente.

La idea en torno a la cual giraba el Conexionismo es que muchas unidades computacionales simples pueden alcanzar un comportamiento inteligente cuando se interconectan entre sí. Esto se aplica tanto a neuronas biológicas en los sistemas nerviosos como a las hidden units de los modelos computacionales. Hubo, además, otros conceptos que surgieron en este periodo y hoy son parte fundamental del Deep Learning

El invierno de las redes neuronales

A mediados de los años 90 los negocios y las inversiones basados en redes neuronales y otras tecnologías relacionadas con la Inteligencia Artificial empezaron a hacer promesas irrealizables y a inflar la burbuja para buscar capital. Por supuesto los resultados no acompañaron las poco realistas expectativas. Todo ello, junto con los avances conseguidos en otros campos del Machine Learning, condenaron a las redes neuronales a un nuevo invierno que duraría hasta el 2007.

No obstante este nuevo invierno no fue total, ya que durante el mismo la investigación en el campo de las redes neuronales siguió viva centralizada en el CIFAR (Canadian Institute For Advanced Research) en una iniciativa que aunó grupos liderados por Geoffrey Hinton de la Universidad de Toronto, Yoshua Bengio de la Universidad de Montreal y Yann LeCun de la Universidad de Nueva York.

Fue precisamente Geoffrey Hinton y su equipo quienes, en 2006, consiguieron entrenar de forma eficiente un tipo de redes denominado deep belief networks mediante la estrategia conocida como greedy layer-wise pretraining. Esta, básicamente, tenía como objetivo inicializar de la mejor manera posible los pesos de la red buscando así facilitar la convergencia (llegar a una solución), especialmente en los casos en los que aquella estaba compuesta por un número elevado de capas o, lo que es lo mismo, era especialmente profunda. Rápidamente, el resto de los grupos aplicaron la misma estrategia a otros tipos de redes consiguiendo una mejora notable en la capacidad de generalización de los modelos resultantes sobre el conjunto de test.

Panorama actual

Es esta tercera ola la que aún está vigente hoy en día. Aunque originalmente empezó enfocándose en aprendizaje no supervisado tratando de explotar la capacidad de las arquitecturas profundas (con una mayor número de capas) para generalizar a partir de pequeños datasets, el interés de la Industria en el aprendizaje supervisado ha hecho que el rumbo haya variado drásticamente desde los inicios de esta última etapa hasta nuestros días.


Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Artículo anterior: Historia del Deep Learning: Etapas

En 1945 Bertrand Russell recibió en su despacho de la Universidad de Cambridge una carta, en la que el remitente de la misma exponía distintos problemas y objeciones que había observado en el primer volumen del Principia Mathematica de aquel. Hasta aquí todo normal, de no ser porque el remitente era un chaval de doce años: Walter Pitts.

A los veinte años, Pitts trabajó junto a un más experimentado Warren McCulloch y de esta unión surgió una contribución seminal a la teoría de redes neuronales, la teoría de autómatas, la teoría de computación y la Cibernética. Las bases de esta, están condensadas principalmente en el paper McCulloch&Pitts, 1943

Primera ola del Deep Learning

Cuando se analiza el pasado, es bueno dar varios pasos atrás para hacerlo con la perspectiva adecuada, evitando caer en el error de no valorarlo como se merece. Durante la primera ola de lo que hoy llamamos Deep Learning (la Cibernética), se propusieron diversos modelos lineales motivados desde una perspectiva neurocientífica. Estaban diseñados para tomar un conjunto de n valores de entrada x1, x2, x3…xn y asociarlos con una salida. Para ello, tenían que aprender un conjunto de pesos w1, w2, w3…wn con los que poder calcular la salida del modelo: f(x, w) = x1∙ w1 + x2 ∙w2 + x3∙w3 +… xn∙wn

McCulloch-Pitts

La neurona propuesta por McCulloch-Pitts era uno de aquellos modelos, podía reconocer dos categorías diferentes, dependiendo que f(x, w) fuera positivo o negativo (o que estuviera por encima o por debajo de un determinado umbral). Entre sus limitaciones contaban el hecho de que los pesos no sean aprendidos, sino que tengan que ser configurados manualmente al igual que el umbral de decisión o threshold.

Rosenblatt

Pero si hablamos de “aprender”, tenemos que (ad)mirar a Frank Rosenblatt, padre del Perceptrón, modelo ya capaz de aprender los pesos (w) a partir de ejemplos de entrenamiento (con sus features de entrada y su salida). De esta manera, el Perceptrón podía resolver un problema de clasificación binario. Siempre y cuando, recordemos, exista una línea en el plano del dominio del problema que lo resuelva, de lo contrario el algoritmo no terminaría nunca.

ADALINE

Y de aquí saltamos al ADAptive LINEar element: ADALINE (Widrow and Hoff, 1960). En esta ocasión, se omite el uso de una función de activación y el modelo devuelve directamente un número real a partir del cual se realiza el ajuste de los pesos. De este modo, se consigue el entrenamiento que aprenda a predecir números reales (no solo clasificación binaria como habíamos visto hasta ahora). Widrow y Hoff (profesor y alumno) utilizaron para el entrenamiento de su ADALINE una ligera variación del Stochastic Gradient Descent (que seguro que ya os suena de algoJ)

Limitaciones de los modelos lineales

A pesar de todo esto, las limitaciones de los modelos lineales eran muchas. La más sonada de ellas era imposibilidad de representar mediante ellos la función lógica XOR ya que, como vemos, no es separable linealmente, por lo que se sale del ámbito de los problemas que los modelos hasta ahora citados son capaces de resolver

historia del deep learning 1

Todo esto ocasionó una corriente de rechazo hacia el aprendizaje de inspiración biológica en lo que constituiría el primer invierno de las redes neuronales.

Próximo artículo: Historia del Deep Learning: Hitos


Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Puede parecer extraño asociar la palabra “historia” a un campo que, por así decirlo, aún se está consolidando como es el Deep Learning. Pero lo cierto es que, para remontarnos a los inicios de esta aproximación a la Inteligencia Artificial, hay que retroceder hasta los años 40 del siglo pasado. Parece mentira, ¿verdad? Las razones por las que el Deep Learning parece algo tan reciente es porque, a lo largo de su historia, ha vivido etapas oscuras en cuanto a popularidad. También por haber sido rebautizado varias veces: solo en los últimos años ha sido referido mediante el término “Deep Learning”.

Creemos que conocer algo del contexto histórico de esta disciplina, que a todos nos atrae y nos trae de cabeza a partes iguales, ayudará a comprender mejor su base y sus fundamentos:

Tres grandes corrientes son el origen del Deep Learning

Podemos concretar cronológicamente tres etapas en las que, esto que hoy llamamos Deep Learning, acaparó buena parte de la atención de la sociedad científica de su tiempo:

Cibernética (entre los 40 y los 60)

Esta primera ola arrancó con los estudios sobre el aprendizaje biológico (McCulloch&Pitts, 1943 y Hebb, 1949) que a su vez dieron pie a la implementación de los mismos a través de los primeros modelos como por ejemplo el Perceptrón (Rosenblatt, 1958) que permitían el entrenamiento de una única neurona.

Conexionismo (entre 1980 y los 1995)

Fue en esta época en la que surgió el concepto de backpropagation (Rummelhart et al, 1986), que actualmente se utiliza de forma masiva en el entrenamiento de redes neuronales para calcular los pesos de las neuronas correspondientes a las distintas capas de las mismas.

Deep Learning (desde 2006)

La que actualmente estamos viviendo y que arrancó principalmente a raíz de tres papers: (Hinton et al, 2006; Bengio et al, 2007; Ranzato et al, 2007)

Dado que, históricamente, algunos de los primeros modelos pretendían emular el aprendizaje biológico o, lo que es lo mismo, cómo ocurre el aprendizaje en el cerebro, el término Artificial Neural Networks (ANN) se ha ido ligando cada vez más al Deep Learning. No obstante, a pesar de que los modelos de Deep Learning están inspirados en el cerebro biológico (ya sea humano o animal) NO están diseñados para ser una representación realista del mismo.

Sí es cierto que el cerebro es la prueba fehaciente de que el comportamiento inteligente es posible y que, en principio, el camino más intuitivo a seguir es hacer ingeniería inversa de los principios computacionales que subyacen al mismo y duplicar de este modo su funcionalidad. En este aspecto cualquier modelo que sirviera como herramienta en esta compleja tarea sería de gran utilidad (como en el caso del trabajo de Hinton&Shallice, 1991)

Actualmente, el término “Deep Learning” no va de la mano con la perspectiva neurocientífica, sino más bien con el tipo de aprendizaje que propone, a través de múltiples niveles de composición. Hay que pensar que esta disciplina tiene, entre sus objetivos, dar una solución al hecho de que hay máquinas que sobrepasan a nuestras mentes más brillantes en tareas formales o abstractas (como por ejemplo Deep Blue ganando al ajedrez a Garri Kasparov en 1997), pero que no pueden afrontar aquellas otras tareas para las cuales no es posible definir un conjunto formal de reglas que las determinen perfectamente (como por ejemplo reconocer palabras habladas o caras y objetos…).

Mediante el Deep Learning se propone que las máquinas sean capaces de entender el mundo a través de una jerarquía de conceptos, de manera que cada concepto se defina a través de sus relaciones con conceptos más simples. ¿Te imaginas un grafo que represente esta jerarquía cuántas capas tendría? Seguramente sería muy profundo, ¿verdad? Pues por ese motivo es que el Deep Learning recibe su nombre.

Siguientes entregas

En la siguiente entrega revisaremos a algunos pioneros e hitos de este apasionante campo.


Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down