Historia del Deep Learning (3): hitos

historia del deep learning 3

Artículos anteriores de Historia del Deep Learning:

El cerebro biológico como guía

Hoy en día, la neurociencia todavía se sigue viendo como una fuente de inspiración para los investigadores que vuelcan sus esfuerzos en el Deep Learning, pero está muy lejos de ser el campo predominante de esta disciplina. La razón es simple: no tenemos suficiente información sobre el cerebro biológico para usarlo como guía, no podemos monitorizar simultáneamente la actividad de miles (tirando por bajo) de neuronas interconectadas y aún estamos lejos de entender incluso las partes más elementales del cerebro.

A raíz del experimento por el que un grupo de hurones aprendieron a ver utilizando la parte de su cerebro responsable en principio de la función auditiva, mediante un recableado de sus cerebros para enviar señales visuales a ese área se abrió la posibilidad de que el cerebro de los mamíferos realmente utilizara un único algoritmo para resolver las distintas tareas que este órgano se encarga de abordar, esto motivó que las comunidades que investigaban campos como procesamiento de lenguaje natural, reconocimiento de voz, visión computacional…y que hasta entonces estaban más disgregadas, se aproximaran entre sí para abordar problemas en común y trabajar en conjunto.

Con todo, es bastante confuso el mensaje que llega sobre todo de los medios de comunicación en los que cuales se proclama que el Deep Learning trata de simular el cerebro, cuando esto no es así. Sería mucho más razonable decir que sus principales fuentes de inspiración son el álgebra lineal, teoría de la información, probabilidad y optimización numérica.

Conexionismo en redes neuronales

Llegamos entonces a la segunda gran ola de las redes neuronales: el Conexionismo. Surgió en los años 80 en el ámbito de la ciencia cognitiva, que intenta entender la mente a través de múltiples niveles de análisis. En aquel momento, los investigadores de esta disciplina estaban volcados en el estudio de modelos de razonamiento simbólico. El problema de estos era la dificultad a la hora de explicar cómo el cerebro podría implementarlos mediante neuronas. Los conexionistas se centraron justamente en aquellos modelos cognitivos que sí pudieran ser implementados neuronalmente.

La idea en torno a la cual giraba el Conexionismo es que muchas unidades computacionales simples pueden alcanzar un comportamiento inteligente cuando se interconectan entre sí. Esto se aplica tanto a neuronas biológicas en los sistemas nerviosos como a las hidden units de los modelos computacionales. Hubo, además, otros conceptos que surgieron en este periodo y hoy son parte fundamental del Deep Learning

  • Representación distribuida, se basa en el principio de que cada feature debe participar en la representación de la mayor cantidad de inputs posibles. Supongamos que tenemos un sistema capaz de reconocer coches, pájaros y motos y cada uno de estos puede ser amarillo, verde, azul. Podríamos tener nueve neuronas de modo que cada neurona aprenda el concepto de identidad y color. O bien, mejorar esto mediante la representación distribuida: tres neuronas que aprendan la identidad y tres neuronas que aprendan el color.
  • Back-propagation, fue durante esta época cuando se consiguió entrenar con éxito una red neuronal profunda mediante este algoritmo que, a pesar de tener sus partidarios y detractores, sigue siendo predominantemente utilizado hoy en día.

El invierno de las redes neuronales

A mediados de los años 90 los negocios y las inversiones basados en redes neuronales y otras tecnologías relacionadas con la Inteligencia Artificial empezaron a hacer promesas irrealizables y a inflar la burbuja para buscar capital. Por supuesto los resultados no acompañaron las poco realistas expectativas. Todo ello, junto con los avances conseguidos en otros campos del Machine Learning, condenaron a las redes neuronales a un nuevo invierno que duraría hasta el 2007.

No obstante este nuevo invierno no fue total, ya que durante el mismo la investigación en el campo de las redes neuronales siguió viva centralizada en el CIFAR (Canadian Institute For Advanced Research) en una iniciativa que aunó grupos liderados por Geoffrey Hinton de la Universidad de Toronto, Yoshua Bengio de la Universidad de Montreal y Yann LeCun de la Universidad de Nueva York.

Fue precisamente Geoffrey Hinton y su equipo quienes, en 2006, consiguieron entrenar de forma eficiente un tipo de redes denominado deep belief networks mediante la estrategia conocida como greedy layer-wise pretraining. Esta, básicamente, tenía como objetivo inicializar de la mejor manera posible los pesos de la red buscando así facilitar la convergencia (llegar a una solución), especialmente en los casos en los que aquella estaba compuesta por un número elevado de capas o, lo que es lo mismo, era especialmente profunda. Rápidamente, el resto de los grupos aplicaron la misma estrategia a otros tipos de redes consiguiendo una mejora notable en la capacidad de generalización de los modelos resultantes sobre el conjunto de test.

Panorama actual

Es esta tercera ola la que aún está vigente hoy en día. Aunque originalmente empezó enfocándose en aprendizaje no supervisado tratando de explotar la capacidad de las arquitecturas profundas (con una mayor número de capas) para generalizar a partir de pequeños datasets, el interés de la Industria en el aprendizaje supervisado ha hecho que el rumbo haya variado drásticamente desde los inicios de esta última etapa hasta nuestros días.


Alejandro Arranz, Data Engineer en datahack

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *