En el artículo anterior vimos en qué consistía el concepto de convolución. Esta, aunque está dando muy buenos resultados en ámbitos de visión artificial e incluso en problemas de series temporales, tiene una serie de debilidades en cuanto a su capacidad de resistencia frente a variaciones en los datos. La capa de Pooling aplica un kernel o ventana sobre el feature map resultante de la convolución.

Dicho filtro hace un “resumen”, por ejemplo, tomando el valor máximo o la media del área del feature map sobre el que se aplica para posteriormente ir deslizándolo por el resto de dicho feature map. De esta forma es posible trabajar con Redes Convolucionales profundas reduciendo el coste computacional necesario. Además, proporciona una cierta invarianza a la traslación.

No obstante, como el tamaño de la ventana de pooling suele ser pequeño (2x2), esa fortaleza estará limitada a las últimas capas de la red cuando el feature map sea también pequeño. También se hizo una introducción a una técnica empleada para aumentar el poder de generalización de las Redes Convolucionales aumentando las imágenes del conjunto de entrenamiento. Y para conseguirlo se aplicaban transformaciones afines (rotaciones, escalados, transvecciones y traslaciones) a las imágenes del dataset. Así se conseguían nuevos ejemplos con los que entrenar la red. Esas transformaciones las podemos representar mediante una matriz de 2 filas y 3 columnas.

La idea es utilizar la operación de multiplicación de matrices para aplicar una transformación afín (representada mediante esa matriz de 2 filas y 3 columnas) a un punto identificado mediante sus coordenadas (x, y, 1) pero expresadas en forma de vector columnar (3 filas y 1 columna). La técnica de añadir un 1 en el eje z a las coordenadas de un punto de 2 dimensiones se explicó en el artículo anterior y permite representar la traslación en forma matricial.

A continuación, se muestran algunos ejemplos de los valores que debería tomar la matriz de transformación para aplicar diversas transformaciones afines a un punto.

Matriz identidad

valores que debería tomar la matriz de transformación para aplicar transformaciones afines a un punto

Escalado de aumento con factor de 2

Escalado de reducción con factor de 2

Rotación de 45º en contra de las agujas del reloj ()

Aumentar el dataset incorporando modificaciones de las imágenes presentes en los datos con los que se va a entrenar ayuda a dicho proceso al tratarse de un aprendizaje supervisado.

Spatial Transformer Networks

Con la técnica de Spatial Transformer Networks (STN) se pretende potenciar esa mejora además de, en cierto modo, automatizarla. Esto permite que sea la propia Red Neuronal la que aplique transformaciones a la imagen de entrada o al feature map para que se fije en el objeto a reconocer. De esta forma, se consigue una mayor capacidad de generalización abstrayéndose de su varianza posicional. Como os habréis dado cuenta, he escrito que con las STN será la propia red la que aplique modificaciones a la imagen de entrada o a los feature maps. Eso es así porque una STN se comportará como un módulo diferenciable que se podrá enganchar en cualquier parte de la red neuronal principal. El hecho de que las operaciones de este módulo sean derivables permitirá que pueda ser entrenado mediante Backpropagation al mismo tiempo que la red principal. Esto hace posible colocarlo en cualquier parte de dicha red, como se comentó anteriormente. Normalmente se suele colocar al principio de la Red Convolucional para que los siguientes feature maps se obtengan a partir de la salida del módulo STN. La arquitectura de un módulo STN puede apreciarse en la siguiente imagen en la que comprobamos que está formada por 3 componentes llamados Localisation Network, Grid Generator y Sampler.

Localisation Network

Este componente recibe el feature map U, hace que pase a través de una Red Neuronal que puede ser un Perceptrón Multicapa (en este caso lo redimensionará previamente para que tenga formato (Tamaño_Batch, Altura * Anchura * Número_Canales) o una Red Convolucional y finalmente hará una regresión para obtener los 6 parámetros correspondientes a los valores que tomará la matriz de transformación.

Los valores de esta red se entrenarán de forma supervisada al mismo tiempo que la Red Neuronal principal en la que se inserte el módulo STN. A continuación, se adjunta un código de ejemplo en Tensorflow para mostrar cómo podría implementarse el componente de Localisation Network mediante un Perceptrón de 2 capas con Dropout (para añadir regularización), en la que el bias de la última capa estará inicializado con los valores de la matriz identidad:

Si quieres saber más sobre Grid Generator y Sampler, ¡atento al próximo artículo!

Suscríbete a nuestra Newsletter

Recibe nuestra programación mensual de eventos online y la apertura de nuevas convocatorias de cursos

En Datahack Consulting SL trataremos los datos que nos facilites con la finalidad de enviarte información relacionada con tu solicitud sobre nuestros servicios, así como enviarte comunicaciones informativas sobre nuestra actividad. Podrás ejercer los derechos de acceso, rectificación, limitación, oposición, portabilidad, o retirar el consentimiento enviando un email a administracion@datahack.es. También puedes solicitar la tutela de derechos ante la Autoridad de Control (AEPD). Puedes consultar información adicional y detallada sobre protección de datos en nuestra Política de Privacidad.

Cookies de terceros

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_ga	ID utiliza para identificar a los usuarios	en 2 años
datahack.es	_gid	ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad	en 20 horas
google.com	__Secure-3PAPISI D	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años
google.com	__Secure-3PSID	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años

Publicitarias

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_fbp	Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros	en 3 meses
datahack.es	_gcl_au	Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.	en 3 meses
google.com	APISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	HSID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SAPISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SIDCC	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en un año
google.com	SSID	Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la Búsqueda de Google.	en 2 años

Editor	Política de privacidad
Facebook	https://www.facebook.com/about/privacy/
Google Analytics	https://privacy.google.com/take-control.html
Google	https://privacy.google.com/take-control.html
Google	https://safety.google/privacy/privacy-controls/

Tensorflow con Spatial Transformers II

Matriz identidad

Escalado de aumento con factor de 2

Escalado de reducción con factor de 2

Rotación de 45º en contra de las agujas del reloj ()

Spatial Transformer Networks

Localisation Network

Si quieres saber más sobre Grid Generator y Sampler, ¡atento al próximo artículo!

Suscríbete a nuestra Newsletter

Estamos para ayudarte con cualquier duda, pequeña o grande

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Tensorflow con Spatial Transformers II

Matriz identidad

Escalado de aumento con factor de 2

Escalado de reducción con factor de 2

Rotación de 45º en contra de las agujas del reloj ()

Spatial Transformer Networks

Localisation Network

Si quieres saber más sobre Grid Generator y Sampler, ¡atento al próximo artículo!

Suscríbete a nuestra Newsletter

Estamos para ayudarte con cualquier duda, pequeña o grande

Déjanos tu contacto te llamamos.

Déjanos tu contacto te llamamos.

Déjanos tu contacto te llamamos.

Déjanos tu contacto te llamamos.

COMPLETA ESTE FORMULARIO Y TE ENVIAREMOS A TU CORREO ELECTRÓNICO EL PROGRAMA COMPLETO GET STARTED IN DATA ANALITYCS

COMPLETA ESTE FORMULARIO Y TE ENVIAREMOS A TU CORREO ELECTRÓNICO EL PROGRAMA COMPLETO MÁSTER EXECUTIVE INTELIGENCIA ARTIFICIAL Y BIG DATA

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.