Historia del Deep Learning (2): Pioneros

Artículo anterior: Historia del Deep Learning: Etapas

En 1945 Bertrand Russell recibió en su despacho de la Universidad de Cambridge una carta, en la que el remitente de la misma exponía distintos problemas y objeciones que había observado en el primer volumen del Principia Mathematica de aquel. Hasta aquí todo normal, de no ser porque el remitente era un chaval de doce años: Walter Pitts.

A los veinte años, Pitts trabajó junto a un más experimentado Warren McCulloch y de esta unión surgió una contribución seminal a la teoría de redes neuronales, la teoría de autómatas, la teoría de computación y la Cibernética. Las bases de esta, están condensadas principalmente en el paper McCulloch&Pitts, 1943

Primera ola del Deep Learning

Cuando se analiza el pasado, es bueno dar varios pasos atrás para hacerlo con la perspectiva adecuada, evitando caer en el error de no valorarlo como se merece. Durante la primera ola de lo que hoy llamamos Deep Learning (la Cibernética), se propusieron diversos modelos lineales motivados desde una perspectiva neurocientífica. Estaban diseñados para tomar un conjunto de n valores de entrada x1, x2, x3…xn y asociarlos con una salida. Para ello, tenían que aprender un conjunto de pesos w1, w2, w3…wn con los que poder calcular la salida del modelo: f(x, w) = x1∙ w1 + x2 ∙w2 + x3∙w3 +… xn∙wn

McCulloch-Pitts

La neurona propuesta por McCulloch-Pitts era uno de aquellos modelos, podía reconocer dos categorías diferentes, dependiendo que f(x, w) fuera positivo o negativo (o que estuviera por encima o por debajo de un determinado umbral). Entre sus limitaciones contaban el hecho de que los pesos no sean aprendidos, sino que tengan que ser configurados manualmente al igual que el umbral de decisión o threshold.

Rosenblatt

Pero si hablamos de “aprender”, tenemos que (ad)mirar a Frank Rosenblatt, padre del Perceptrón, modelo ya capaz de aprender los pesos (w) a partir de ejemplos de entrenamiento (con sus features de entrada y su salida). De esta manera, el Perceptrón podía resolver un problema de clasificación binario. Siempre y cuando, recordemos, exista una línea en el plano del dominio del problema que lo resuelva, de lo contrario el algoritmo no terminaría nunca.

ADALINE

Y de aquí saltamos al ADAptive LINEar element: ADALINE (Widrow and Hoff, 1960). En esta ocasión, se omite el uso de una función de activación y el modelo devuelve directamente un número real a partir del cual se realiza el ajuste de los pesos. De este modo, se consigue el entrenamiento que aprenda a predecir números reales (no solo clasificación binaria como habíamos visto hasta ahora). Widrow y Hoff (profesor y alumno) utilizaron para el entrenamiento de su ADALINE una ligera variación del Stochastic Gradient Descent (que seguro que ya os suena de algoJ)

Limitaciones de los modelos lineales

A pesar de todo esto, las limitaciones de los modelos lineales eran muchas. La más sonada de ellas era imposibilidad de representar mediante ellos la función lógica XOR ya que, como vemos, no es separable linealmente, por lo que se sale del ámbito de los problemas que los modelos hasta ahora citados son capaces de resolver

historia del deep learning 1

Todo esto ocasionó una corriente de rechazo hacia el aprendizaje de inspiración biológica en lo que constituiría el primer invierno de las redes neuronales.

Próximo artículo: Historia del Deep Learning: Hitos


Alejandro Arranz, Data Engineer en datahack

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *