robot archivos - Datahack

Además de lo que comentamos en la entrada anterior sobre implementar un modelo de reconocimiento facial, en nuestra charla se introdujo el concepto de Receptive Field de una neurona. Podría definirse como la región del espacio del estímulo de entrada que provoca que dicha neurona se active. Otra limitación de la capa de Pooling es que, si el tamaño del Receptive Field es pequeño, entonces los efectos del operador de Pooling solo se sentirán en las capas más profundas de la red, que es donde normalmente los Feature Maps de salida de las capas convolucionales son más pequeños. Por lo tanto, las capas intermedias de la red serán menos robustas frente a grandes variaciones en los datos de entrada. Es decir, si a la hora de emplear el modelo para realizar predicciones los datos de entradas no son muy parecidos a los datos con los que se entrenó la red, el modelo no realizará predicciones correctas.

SPATIAL TRANSFORMER NETWORK

Esta falta de generalización a la hora de realizar el aprendizaje nos llevó a citar algunas de las técnicas que hemos empleado para aumentar la variabilidad de los datos presentes en el conjunto de entrenamiento y a poner foco en una de ellas, conocida como Spatial Transformer Network. Si queréis conocer en detalle este tipo de redes, hemos escrito los siguientes artículos detallando su funcionamiento:

Potenciando Convoluciones con Transformaciones Afines
Tensorflow: Potenciando Convoluciones con Spatial Transformers (parte 1)
Tensorflow: Potenciando Convoluciones con Spatial Transformers (parte 2)

A grandes rasgos, la técnica de Spatial Transformer Network (STN) es un módulo diferenciable que se puede insertar en cualquier parte de la red principal (en nuestro caso, la que se encargará de realizar el reconocimiento facial) y que permite que dicha red principal aprenda de forma autónoma a aplicar transformaciones afines (rotaciones, traslaciones, escalados y transvecciones) al Feature Map donde la STN ha sido introducida. Con ello, aumentará la variabilidad de los ejemplos de entrenamiento y habrá más posibilidades de que funcione mejor a la hora de realizar predicciones en un entorno real. Pero el problema de la dependencia de un conjunto de entrenamiento que sea muy parecido en variedad a los datos de entrada, que se encontrará el modelo en tiempo de predicción, sigue estando ahí. Por ello, hace falta cambiar la forma en la que estamos orientando la Inteligencia Artificial actual.

INTEGRAMOS EL APRENDIZAJE DE LA NEUROCIENCIA A LA INTELIGENCIA ARTIFICIAL

En la charla, quise introducir una vía que vamos a probar en datahack, que está más orientada al campo de la Neurociencia, encargada del estudio del funcionamiento e interacción de neuronas biológicas en distintos tipos de seres vivos. El modelo más avanzado de sistema cognitivo con capacidad de razonamiento y generalización durante su aprendizaje es el cerebro humano. Así que no es descabellado pensar que, si de verdad queremos generar inteligencia de forma artificial, una buena forma de aproximarse a este problema es tratando de conocer más sobre el funcionamiento del cerebro humano y de emularlo de la forma más fiel posible. Además, sería necesario avanzar en paralelo en el estudio de la naturaleza de nuestro entorno, lo que lleva a un conocimiento más profundo de la materia que lo compone. Por ello, en la charla quise citar, como camino alternativo para hacer que la Inteligencia Artificial progrese, combinar conocimientos de áreas como la Computación Cuántica y la Neurociencia. Como el tiempo de la charla era muy limitado, quise finalizarla mostrando una introducción a las Spiking Neural Networks y más en concreto al modelo Leaky Integrate and Fire.

Spiking Neural Networks

Las Spiking Neural Networks (SNN) son redes que están inspiradas en la neurociencia de forma mucho más fiel que los modelos de Deep Learning. Las SNN emplean Spikes, es decir, activaciones de neuronas a lo largo del tiempo. Y es justamente en la información temporal que se obtiene al observar dichas activaciones donde está la base de su funcionamiento. El modelo Leaky Integrate and Fire es una simulación de una neurona que implementa diversas características de las neuronas biológicas. Combinando estas características con reglas de aprendizaje también basadas en comportamientos biológicos, como, por ejemplo, aproximaciones de Spike Timing Dependent Plasticity, el objetivo es construir redes que se aproximen más a la forma de funcionamiento de cerebros presentes en la naturaleza y conseguir una mayor capacidad de abstracción y razonamiento. Esta es una de las vías que vamos a seguir en Datahack así que, si estáis interesados en ir conociendo qué resultados obtenemos, seguid atentos a las redes sociales de Datahack y a esta web para informaros de futuros eventos y artículos. ¡Nos vemos pronto en el evento de Innodata del 3 de Diciembre en Campus Madrid para seguir compartiendo ideas sobre Inteligencia Artificial, Robótica y Neurociencia!

MÁSTER EXPERTO EN BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Tal y como vimos la semana pasada en el artículo introductorio de Speech to text con Tensorflow, los mecanismos de atención surgieron para resolver los “problemas de olvido” que sufrían la redes encoder, a la hora de memorizar secuencias muy largas. Su funcionamiento se basa en emular el procesamiento humano, es decir, en vez de memorizar y procesar la secuencia de una vez, lo van haciendo por partes. Así, estos mecanismos de atención se sitúan entre la red encoder y decoder, y le van diciendo a la red decoder qué parte de la oración tiene que mirar (poner atención), a la hora de realizar la transformación de la palabra correspondiente al paso en el que está, es decir, le van diciendo la influencia que tiene una palabra sobre las otras.

Figura 3 - Estructura encoder-decoder con mecanismos de atención

Esto es así, porque los mecanismos de atención crean conexiones entre el context vector y la frase entrante, asignándole un peso a cada una de ellas, y evitando los problemas de olvido. Estos pesos indican el grado de correlación existente entre los elementos entrantes (source) y los posibles targets.

Por ejemplo, en esta frase, cuando vemos la palabra “comiendo”, esperaremos encontrar una palabra que haga referencia a comida cerca (alta atención). El tamaño describe a la comida, pero no tiene una relación directa con “comiendo” (baja atención). Los mecanismos de atención solucionan eso señalando la palabra a la que deben prestar alta atención.

The Transformer, la elección de datahack

Teniendo en cuenta todo lo visto anteriormente y nuestra experiencia en el desarrollo de modelos de deep learning, procedimos a la elección de la arquitectura que mejor se adaptaba a nuestro caso de uso, que fue el The Transformer, un modelo publicado en “Attention is All you Need” (Vaswani, et al., 2017), que mejora en gran medida las operaciones seq2seq, usando los mecanismos de atención y prescindiendo de las Redes Neuronales Recurrentes.

Como vimos anteriormente, las RNNs manejan la información secuencial (word-by-word) y no permiten la paralelización. The Transformer la permite y reduce significativamente los tiempos de entrenamiento, eliminando las Redes Neuronales Recurrentes y usando unidades de atención, organizadas en estructura Encoder-Decoder.

Javier Moralo, Data & AI Creative de datahack

El proyecto empresarial de DATAHACK CONSULTING SL., denominado “DESARROLLO DE INTELIGENCIA ARTIFICIAL EN ROBOTS APLICADOS AL TRATAMIENTO DEL ALZHEIMER Y LA DEMENCIA” y número de expediente 00104725 / SNEO-20171211 ha sido subvencionado por el CENTRO PARA EL DESARROLLO TECNOLÓGICO INDUSTRIAL (CDTI)

MÁSTER EXPERTO BIG DATA ANALYTICS

Uno de los resultados del proyecto DIA4RA, que estamos actualmente desarrollando en datahack y cuyo objetivo es dotar a un robot humanoide “Pepper”, de una serie de capacidades cognitivas que le permitan asistir a personas con Alzhéimer, ha sido la creación de un modelo de speech to text, es decir, un software que convierte la voz humana a texto, gracias al uso de técnicas de deep learning.

Dentro del proyecto DIA4RA, este modelo es el encargado de transcribir la voz humana a texto, de modo que otros modelos y sistemas implementados en el robot puedan interpretar lo que dicen los humanos que se dirigen a él. Así, este modelo es fundamental para la operativa de la máquina de estados, encargada de definir los diferentes estados que puede adoptar el robot y de la orquestación de todos los modelos y sistemas implicados en el funcionamiento del robot.

A priori, uno puede pensar que para hacer esto se podría recurrir a alguno de los servicios cognitivos disponibles en la red, y no tener que embarcarse en el desarrollo de un modelo de deep learning, con todas las implicaciones que ello conlleva. Sin embargo, en datahack se decidió optar por la creación de un modelo Speech to Text propio, por la siguientes razones:

Adquirir más experiencia y conocimiento en el campo de la Inteligencia Artificial (IA)
Crear un servicio cognitivo propio, que no solo sirva para este proyecto sino que también sea la base para otros que puedan hacer uso de esta tecnologías, por ejemplo, chatbots y control remoto de drones.
Ser independientes a la hora de hacer uso de este tipo de servicio cognitivo.
Dar más valor y prestigio a la marca datahack, como una de empresas impulsoras del desarrollo e investigación de la Inteligencia Artificial para las personas.
Evitar que los datos recopilados por el robot vayan al Cloud, algo que puede ser crítico en este tipo de proyectos por tema de privacidad de los individuos.

Trabajando con información secuencial

El Speech to Text es un caso de uso donde se trabaja con información secuencial, es decir, una serie o sucesión de cosas que siguen un orden y/o guardan entre sí una determinada relación.

Tradicionalmente este tipo de información se ha tratado con redes neuronales recurrentes (Recurrent Neural Networks o RNN), redes neuronales con memoria que se usan para trabajar con información secuencial.

En este tipo redes la neuronas se disponen de forma secuencial, una a continuación de la otra. Cada una de ellas representa un momento temporal y tienen la capacidad de pasar la información recopilada a la siguiente. Así, a la hora de hacer las predicciones (O), se tendrá en cuenta tanto el vector de entrada (X) como un vector de estado (h). Así, teniendo en cuenta el siguiente gráfico, para predecir O_t se tendrá en cuenta X_t y h_t-1, vector de estado resultante de la etapa anterior. Además de predecir el valor de O_t , se generaría un nuevo vector de estado h_t que sería usado en la siguiente etapa (h+1). Esto se iría repitiendo de forma sucesiva.

Figura 1 - Disposición de las neuronas y flujo de información en una capa de RNN

Un problema de las Redes Neuronales Recurrentes y su solución

Uno de los problemas de las Redes Neuronales Recurrentes (RNN) es que sufren lo que se conoce como el short-term memory, es decir, funcionan muy bien cuando la información útil está próxima al estado actual, pero su rendimiento va empeorando conforme esta se va alejando, es decir, no capturan bien las long-term dependencies, dependencias de larga distancia. Esto se debe a que con secuencias muy largas (más de 100 elementos), sufren lo que se conoce como vanishing gradient y tienden a “olvidar” el principio de las mismas. Así, teniendo en cuenta el siguiente ejemplo:

El gato, que ya había comido mucho pollo con verduras, estaba lleno.

Podría ocurrir que al llegar al verbo “estaba”, la RNN puede haber olvidado el principio de la frase y no sea capaz de ver que esta relacionado con la palabra “gato”.

Para minimizar este problema se usan: las GRU (Gated Recurrent Unit) y las LSTM (Long-Short Term Memory), dos tipos especiales de neuronas que cuentan con una célula de memoria, que les permite capturar mucho mejor las long-term dependencies. Y las BRNN (Bidirectional Recurrent Neural Networks), que tienen en cuenta tanto la información anterior como posterior a la hora de hacer una predicción en el momento actual.

Todo esto se puede combinar y crear BRNN con GRU o LSTM, con un aumento considerable de la capacidad de computación requerida durante el entrenamiento de la red neuronal.

Todo esto, aplicado al Speech to text...

En el caso del Speech To Text, donde la entrada es una secuencia y la salida también, se pueden reducir los costes de computación, haciendo uso de la arquitectura seq2seq. Está se caracteriza por tener una estructura encoder-decoder compuesta por dos Redes Neuronales Recurrentes, que usan LSTM o GRU (normalmente más la primera) y trabajan de forma que la primera red (encoder) memoriza el audio, codificándolo en un vector de contexto o sentence embedding, y la segunda red (decoder) y la segunda genera el texto correspondiente, a partir del vector de contexto que ha creado la primera.

Figura 2 - Estructura encoder(verde) - decoder(morado)

Aunque esta estructura mejora los costes de computación, tiene el problema de que cuando la secuencia de audio entrante es muy larga, la red neuronal encoder tiende a olvidar la primera parte de la mismas, tras concluir su procesamiento. Para resolver esto, surgieron los mecanismos de atención.

De los mecanismos de atención y de más cosas hablaremos en el próximo post.

Muchas gracias por vuestra atención, ¡valga la redundancia! 🙂

Javier Moralo, Data & AI Creative de datahack

MÁSTER EXPERTO BIG DATA ANALYTICS

Retomamos los progresos del robot AIDA, donde lo habíamos dejado el año pasado: en la máquina de estados.

Ya han sido varios los post en los que se menciona el desarrollo de algún modelo concreto: el de reconocimiento de objetos basado en la TensorFlow Object Detection API, el de reconocimiento de caras, Speech2Text...A estas alturas está clara la necesidad de utilizar ROS como plataforma para operar con los sensores del robot (cámaras y micrófonos por el momento). Esto es debido a que, entre otras ventajas, nos proporciona la posibilidad de utilizar aquellos buffers (que, recordemos, se llaman topics) sobre los cuales se pueden leer los datos que en ellos se publican o publicarlos, de manera que un determinado modelo pueda volcar su salida en un determinado topic, de tal modo que otro esté a la escucha y, si lee un determinado mensaje, actúe de cierta manera. Con todo esto, parece que la comunicación entre los modelos se puede afrontar gracias a los topics.

Orquestando modelos

Pero ¿cómo se orquestan los modelos? Es decir, ¿de qué manera se determina cuándo se tiene que activar el modelo de Speech2Text o el modelo de reconocimiento de caras? No se puede pensar en tener constantemente todos los modelos cargados y listos para predecir cualquier entrada que reciban. Esto es porque, por un lado, puede ser que no siempre nos interese que un modelo esté activo y, por otro lado, el tiempo que un modelo está prediciendo cuesta dinero (no olvidemos que cada modelo ha de correr en una GPU y únicamente disponemos de tres físicas, con lo que sí o sí hay que recurrir al Cloud).

La arquitectura BICA

Aquí es donde entra la arquitectura BICA, que nos permite modelar el comportamiento de AIDA a través de una FSM (máquina de estados finita, más información sobre esto en el anterior post sobre AIDA). Supongamos un escenario en el que tengamos tres posibles estados: INICIO, TRÁNSITO y TERAPIA y que las transiciones posibles sean:

INICIO -> TRÁNSITO
TRÁNSITO -> INICIO
TRÁNSITO -> TERAPIA
TERAPIA -> TRÁNSITO

La máquina de estados que modelaría esta situación sería justo la que se muestra a continuación. Lo mejor de todo es que los compañeros de la URJC han desarrollado un plugin integrado con la interfaz gráfica de usuario de ROS. Con él, se puede dibujar directamente el grafo, definiendo los estados y las transiciones posibles entre ellos:

A la par que definimos la máquina de estados gráficamente, por debajo se generan un conjunto de ficheros en C++ que nos permitirán, entre otras funcionalidades: ejecutar la máquina de estados, definir qué condiciones se tienen que dar para que se produzca la transición de un estado a otro y también gestionar qué ocurre cuando se produce la transición de un estado a otro y de qué modo ocurre (por ejemplo, iterativamente, o, por el contrario, solo una vez al entrar en el nuevo estado).

Es en este último apartado donde la arquitectura BICA nos permitirá activar y desactivar modelos, tratandolos como dependencias de cada estado. Supongamos por ejemplo que se quisiera activar el modelo actual de detección de voz desde el estado INICIO y también que, cuando se llegue al estado TERAPIA, se active el modelo de reconocimiento de caras:

Cómo conseguirlo

Para conseguir esto habría modificar el código generado de tal manera que, en el momento de arrancar el estado INICIO, se vincule a él sound_detector

En el caso del modelo de reconocimiento facial, se activará cuando se llegue al modo TERAPIA

Se puede ver cómo los modelos se gestionan como si fueran dependencias asociadas a los distintos estados y que se pueden añadir (addDependency) o quitar (removeDependency) para ajustarlas al diseño.

¿Te has dado cuenta del cambio?

Seguro que los que lleváis más tiempo siguiendo el blog, os habréis dado cuenta de que el modelo de reconocimiento facial (re_fr) ahora se le ha añadido el sufijo “_bica”, la razón de esto es que los modelos que en un primer momento se implementaron como nodos de ROS, ahora se han tenido que reimplementar como componentes BICA. Con todo, uno de los melones más grandes que queda por abrir es el de definir las condiciones que se tienen que dar para que se produzca la transición de un estado a otro...veremos cómo se aborda esto.

¡Permaneced atentos!

MÁSTER EXPERTO BIG DATA ANALYTICS

Retomamos con fuerza el diario de DIA4A para poneros al día de los avances realizados hasta la fecha. Como recordaréis, hemos conseguido que el modelo de detección de objetos y personas desempeñe su cometido sobre las imágenes capturadas a través de la cámara frontal del robot. Ahora que llegan los primeros resultados es momento de traducirlos a entregables. Entre estos, contamos la documentación técnica y ejecutiva de cada modelo y, por supuesto, el cuaderno de pruebas.

Para elaborar el cuaderno de pruebas, hemos desglosado cada modelo en sus funcionalidades básicas. Para acreditar que estas se han alcanzado, hemos acordado grabar un vídeo del robot desempeñando cada funcionalidad. Con la idea de que el vídeo fuese más vistoso y, sobre todo, no abusar del uso de comandos escritos, de cara a hacerlo más atractivo para alguien con un perfil no tan técnico, optamos por aprovechar la Google Cloud Speech To Text API. Como imaginareis, es un servicio de Google que permite la transcripción multi-idioma de voz a texto. Hacemos un paréntesis aquí, para indicar que paralelamente estamos desarrollando nuestro propio modelo de Speech To Text en castellano.

El objetivo para registrar nuestra prueba unitaria para este primer modelo (y para el resto de pruebas unitarias) era grabar un vídeo en el que:

Se explica la prueba a realizar.
Una persona se acerca al robot y le da una orden concisa en forma de comando de voz (por ejemplo: empieza)
El robot en ese momento activa el modelo y empieza a publicar la salida de lo que va reconociendo.
La persona le pide al robot que detenga la prueba mediante otro comando de voz (por ejemplo: termina)
Una segunda persona explica las salidas generadas.

Entrando en detalles:

Para los que os gusta algo más de detalle, os explicamos un poco más a fondo el proceso. Lo primero es comentar algo sobre el nodo de ROS que encapsula la llamada a la API Speech To Text de Google. Este nodo se encuentra desplegado en el robot (a diferencia del nodo que encapsula el modelo desarrollado, que se encuentra en nuestras máquinas ya que requiere del uso de GPU para sus predicciones). La razón de esto es que se trata un nodo ligero que no realiza una computación per se, sino que delega en la API de Google, entonces lo primero será conectarse al robot y levantar este nodo.

Con ello, esperamos que la transcripción de cualquier voz humana que se detecte a través de los micrófonos del robot, sea publicada a través de un topic de ROS. A partir de aquí, se trata de escuchar en dicho topic y detectar el comando de activación de la prueba (algo así como “empieza” o “reconoce”) tras el cual se ejecuta una suscripción al topic de la cámara del robot y el modelo desarrollado comienza a identificar, hasta que se pronuncia el comando de finalización de la prueba (por ejemplo “termina”) “ y se desconecta del topic de la cámara, deteniéndose las predicciones.

Gracias a los compañeros de la URJC por el nodo que encapsula la Google Cloud Speech To Text API.

MÁSTER EXPERTO BIG DATA ANALYTICS

Cuando tienes que abordar un proyecto tan grande como DIA4RA, cuyo objetivo es el de dotar de inteligencia a un robot humanoide para que sea capaz de asistir y ayudar a pacientes con Alzheimer, un punto clave consiste en elegir qué herramientas se van a emplear para conseguirlo.

Creemos que, para que comprendáis por completo las dimensiones del proyecto, debéis conocerlas (o, por lo menos, que os suenen). Así pues, vamos a aprovechar el diario para compartir con vosotros una serie de artículos en los que se pretende tanto discutir las elecciones realizadas como mostrar una introducción al funcionamiento de dichas herramientas.

ROS

Por un lado se necesita un framework que permita distribuir la información procedente de los múltiples sensores del robot y enviar órdenes a sus actuadores. Para conseguir esto, se decidió utilizar ROS (como dijimos en artículos anteriores, significa Robot Operating System). Puede considerarse como la solución más robusta y potente, en cuanto a las posibilidades que ofrece, cuando hay que trabajar a nivel profesional con componentes robóticos.

Además en datahack contamos con la colaboración del grupo de Robótica de la URJC de Fuenlabrada. Ellos disponen de amplia experiencia en este ámbito avalada por sus publicaciones, su contribución a proyectos Open-Source por sus continuas participaciones en congresos y torneos internacionales como Robocup, iROS, etc.

Tensorflow

Por otro lado es necesario disponer de otro framework con el que desarrollar los algoritmos que implementarán la inteligencia de AIDA (como dijimos en el primer post del diario, es nuestro robot y sus siglas significan Artificial Intelligence Datahack Ambassador). Para este propósito nos decantamos por Tensorflow debido al fuerte impulso que está recibiendo por parte de Google y de la comunidad de investigadores en Inteligencia Artificial.

Google Cloud

Además, tuvimos que decidir entre:

si adquirir la infraestructura de máquinas equipadas con GPU’s potentes para entrenar todos los modelos que necesita el robot y ponerlos en producción
si era preferible emplear el Cloud de alguno de los grandes proveedores, que nos permitiese desplegar el entorno necesario para entrenar algoritmos y realizar las predicciones con los modelos generados.

Hay que tener en cuenta que, cuando el robot sea plenamente funcional, deberá contar con al menos 8 modelos predictivos ejecutándose en paralelo. A eso habrá que sumar el planificador global de tareas que controlará el comportamiento de AIDA, así como los recursos necesarios para la gestión de su Sistema Operativo y de los demonios de ROS.

Nuestro compañero Alejandro se encargó de implementar una arquitectura hardware que soportase todos los requisitos tanto para el entrenamiento como para la inferencia.

En paralelo, iniciamos contactos con Nvidia y Google con el objetivo de presentarles nuestro proyecto y buscar distintas formas de colaboración. Como resultado, pasamos a formar parte tanto del programa “Inception” de Nvidia, con el que proporcionan recursos, soporte y promoción, como del programa “Google Cloud for Startups” en el que entre otros beneficios se dispone de créditos para entrenar y servir modelos empleando la infraestructura de Google Cloud Platform.

Teniendo todo esto en cuenta, la aproximación que hemos tomado ha sido la de “prototipar” el código de los algoritmos en nuestras máquinas de trabajo, que disponen de tarjetas GPU de Nvidia. Luego hemos adaptado dicho código a los requisitos de Tensorflow para que pueda ser entrenado empleando el Cloud. Esto nos da la flexibilidad de poder utilizar el mismo código tanto en una arquitectura on-premise como en la nube.

¡Seguro que ahora quieres saber más sobre cómo aplicamos estas herramientas en el proyecto!

Pues no temas, porque vamos a desarrollar todo esto un poquito más (en la sección DIA4RA para programadores, porque la cosa se pone un poco más técnica). Y es que, como puedes comprobar, el proyecto DIA4RA ya lleva un tiempo corriendo. No ha empezado, ni mucho menos, con la llegada de AIDA.

Por eso decidimos hacer esta serie de artículos “flashback” dedicados a las herramientas de programación que se emplearán en DIA4RA. Comenzaremos mostrando la estructura que deberá tener el código de Tensorflow para que pueda ser entrenado de forma distribuida y servido en el Cloud. El siguiente paso consistirá en presentar los principales componentes de ROS, para finalizar enseñando cómo integrarlos con los modelos de Tensorflow. De esta forma, os mostraremos el recorrido cuya meta es la de combinar modelos predictivos de Deep Learning con Robótica.

Y es que, una vez realizada esta introducción, empieza lo realmente divertido para nosotros, ponernos manos a la obra con la parte técnica.

Rubén Martínez, Data engineer en datahack

MÁSTER EXPERTO BIG DATA ANALYTICS

Una vez cumplido nuestro deber con el Call for papers del Big Data Spain, volvemos a la carga con AIDA. En la entrada de la pasada semana veíamos unos conceptos básicos de ROS (como por ejemplo la noción de qué es un topic). Esta semana toca empezar a explotar la información que recibimos a partir de los distintos sensores del robot.

Tomando los modelos que ya hemos hecho

Nuestro primer objetivo era tomar un modelo que se desarrolló hace unos meses. Este se hizo para poder incorporarlo algún día al robot Pepper de nuestros compañeros de la URJC. En realidad, se trataba de dos modelos en uno:

SSD entrenado con el dataset COCO

El primero de los modelos consistía en una arquitectura single shot detector (SSD) mobilenet entrenado con el dataset COCO (Common Objects In COntext). Este estaba entrenado a su vez con 80 clases diferentes. Su objetivo era detectar personas de forma fiable en una imagen, para después trazar un bounding box a su alrededor.

(ssd_mobilenet en acción detectando una persona y una silla. Los recuadros con el nombre de la clase y la confianza que el modelo atribuye a la predicción se conocen como bounding boxes)

En caso de detectar una persona, se hacía un crop de la misma en base a su bounding box. Esto es como si con unas tijeras se recortara la parte de la imagen delimitada por el bounding box con la etiqueta person. El resultado se pasaba a otra red cuyo objetivo era detectar el tipo de prenda que la persona llevaba y el color de la misma. Inicialmente estaba limitado a vaqueros, zapatos, vestidos y camisetas de color blanco, rojo o azul.

Es posible que a alguien le surja la pregunta. ¿De dónde sacamos las imágenes sobre las cuales realizamos la identificación? Para hacer pruebas tenemos una cámara ASUS Xtion PROTM. La conectamos a alguna de nuestras torres mediante un USB y la conectamos con ROS a través del paquete openni2_launch. Así nos suscribimos al topic de la cámara y los frames que se reciben se van suministrando al modelo (o más bien doble modelo) anteriormente descrito.

Así que la primera prueba de concepto consistía básicamente en quedarnos solo con la parte de la SSD mobilenet (ya que en principio nos interesará reconocer personas y otros objetos sin necesidad de fijarnos en más detalles). Una vez ajustado el código, solo quedaba cambiar el topic al que se suscribía para que fuera el de una de las cámaras del robot. Y, claro…¡ver que funcionaba!

Efectivamente, el resultado fue bueno, lo que robot “veía” le llegaba al modelo. Este era capaz de identificar en la imagen cualquiera de los 80 objetos del dataset COCO que estuviera presente en ella. Luego, trazaba alrededor de cada uno su correspondiente bounding box.

Experimentando con el sonido

Paralelamente a esto, estamos trabajando en un modelo de Speecht2Text (es decir, capaz de traducir voz a texto) en castellano. Aparte, evaluamos otras posibilidades como por ejemplo la API de Google Speech.

Esto nos permitirá tener una noción de la capacidad del micrófono del robot para captar voz. También de cuál es el estado del arte ahora mismo en este tipo de modelos. ¡Vamos a ver cómo nos desenvolvemos con el sonido!

Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO BIG DATA ANALYTICS

La semana pasada nos habíamos quedado a las puertas de desplegar ROS (Robotic Operating System) en AIDA (para aquellos que recién se incorporen al blog, indicar que AIDA es un robot Pepper^TM). No obstante, debido a diversos fallos de compilación, tuvimos que abortar el proceso y esperar. Esta semana, los compañeros del departamento de Robótica de la URJC nos han proporcionado los paquetes que faltaban para solucionar los problemas de compilación y además nos han asistido mediante conexión remota para controlar que llevábamos a buen puerto la instalación.

Por qué tiene tanta importancia ROS

Vamos a profundizar un poco más para ver donde está la gracia de desplegar ROS en el robot. Es decir, si ya trae de fábrica su propio sistema operativo (NaoQi) ¿por qué meterle otro?

Anteriormente, se había comentado que la razón de esto es el poder aplicar los modelos de Deep Learning que vayamos desarrollando al robot. Vamos a intentar ser más exactos y a la vez comprensibles: en ROS existe el concepto de topic. En pocas palabras, se utiliza para publicar la información que el robot captura a través de sus diferentes sensores (cámaras, micrófonos, bumpers…). Por ejemplo, existirá un topic concreto en el cual se publicarán las imágenes que el robot capture a través de sus cámara. Cuando nos conectamos al robot, podemos ver, mediante el comando rostopic list, la lista de topics que ahora mismo hay disponibles:

Usando la cámara frontal

Centrémonos en uno de los primeros topics que nos van a ser de utilidad para dotar de inteligencia al robot, el topic de la cámara frontal: /pepper_robot/camera/front/image_raw. Podemos ver que el robot está continuamente publicando en ese topic mensajes que representan a los frames que captura a través de su cámara:

Quizá el ver una torrente continuo de píxeles no nos diga mucho, afortunadamente ROS nos ofrece herramientas como rviz que permite, entre otras funcionalidades, ver lo que el robot está viendo. Si seleccionamos el topic /pepper_robot/camera/front/image_raw esto es lo que vemos:

¿Cómo se explota el contenido publicado en un topic?

Bueno, de igual manera que es posible publicar en un topic, también es posible suscribirse al mismo. De esta manera, podemos hacer “algo” con el contenido que se vaya publicando. Por ejemplo, que cuando se publique una imagen en el topic, esta se utilice como entrada para un modelo de Deep Learning que (a efectos de pruebas) estará corriendo en uno de los ordenadores. Ese modelo tendrá que discriminar si en las imágenes que le van llegando hay caras humanas y, si las hay, determinará a quien pertenecen...

Pero, antes de seguir, tenemos que preparar algo interesante para el call for papers del Big Data Spain. El año pasado nuestro datahacker Rubén Martínez se marcó una impresionante charla sobre cómo un atacante puede engañar a un sistema de detección de malware mediante Reinforcement Learning. No obstante, lo que prepararemos para este año seguramente tenga que ver con el robot...¡así que permaneced atentos!

Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO BIG DATA ANALYTICS

Hola a tod@s,

Toca hacer la primera entrada del diario de DIA4RA y, como ha sido una semana intensa, vamos a hablaros de lo que hemos estado haciendo con nuestro nuevo robot. AIDA no ha dejado indiferente a nadie, incluso los datahackers más familiarizados con el mundo tecnológico han sucumbido a sus encantos. Y es que, desde el momento en que se pulsa el botón de encendido, se puede ver cómo el robot se incorpora, se despereza (literalmente) y saluda en su idioma: algo bastante... humano.

Una vez inicializado, el robot permanece en su sitio, pero siempre orientando su cabeza y su mirada a aquel lugar de la habitación donde “escuche” una voz humana. Todo esto hace que, cuando nos quedamos solos en la habitación con él, nos dé la impresión de que realmente hay alguien más.

En resumen, AIDA ha entrado en datahack como el fichaje superestrella de un equipo que, sin haber todavía entrado en juego, ya tiene encandilada a la afición. ¿Qué ocurrirá cuando se logre integrar con el primer modelo de Deep Learning?

Justamente este objetivo es prioritario de cara al proyecto que tenemos entre manos (y del cual pronto sabréis más) y esta primera semana hemos empezado a trabajar en dos líneas que implican al robot. Por un lado el despliegue de ROS (Robotic Operating System o Sistema Operativo del Robot) en AIDA. Por otro, investigar y comenzar a explotar las posibilidades que el sistema operativo que el propio robot lleva montado de fábrica (NaoQi) pueda ofrecer.

Desplegando ROS

En cuanto a la primera línea de trabajo que hemos seguido, ROS es muy importante. Esto es porque constituye las bases de la infraestructura necesaria para ejecutar los diferentes modelos de Deep Learning que tenemos planificados. Lo que ocurre es que esta tarea no es ni mucho menos trivial o sencilla. Por eso, esta semana hemos estado codo con codo con los compañeros del departamento de Robótica de la Universidad Rey Juan Carlos I (URJC). Ellos ya habían trabajado previamente con este tipo de despliegues y tenían preparada una metodología para llevarlos a cabo.

Básicamente, la metodología consiste en construir, en una imagen Docker, todas aquellas dependencias y requisitos que, junto con ROS, necesitarán desplegarse en el robot. Una vez se hayan realizado las compilaciones correspondientes en la propia imagen, esta se desplegará en el robot... Esa es la teoría. Como era de esperar, los errores de compilación no han tardado en aparecer y ahora mismo estamos trabajando con ellos para resolverlos y poder conseguir nuestro primer hito, ¡nadie dijo que fuera a ser fácil!

Probando el robot

Pero bueno, no todo han sido errores, aunque es una semana de puesta en marcha también hemos hecho algún avance. La segunda línea de trabajo era hacer una serie de pruebas y chequeos en AIDA, además de irla presentando a todos nuestros compañeros de datahack. Para ello, usamos el Choregraphe, una herramienta con la que pudimos conectarnos a ella e interactuar con el sistema NAOqi, que como ya hemos dicho es el que trae instalado.

Una vez realizado todo esto, empezamos a hacer chequeos del estado de los componentes de AIDA y una serie de pruebas de sensores, movimientos posturales y desplazamientos. No obstante, lo más interesante vino cuando le implementamos un paquete canal básico de comunicación e hicimos una primera prueba de conversación interactiva con ella. Podríamos escribir mucho sobre ello, pero preferimos grabar un vídeo para que lo pudierais ver vosotros mismos: aún no tiene del todo claro que se llama AIDA y se equivoca algunas veces, pero no pasa nada, ¡son las primeras pruebas! Disfrutad la experiencia y buen fin de semana:

MÁSTER EXPERTO BIG DATA ANALYTICS

Esta semana ha pasado algo muy importante en datahack: se ha incorporado a la familia un nuevo miembro... robótico.

El robot se llama AIDA (Artificial Intelligence Datahack Ambassador) y ya es la niña mimada de la oficina. Pero lo más importante es que nos dará una gran agilidad y libertad para llevar a cabo la aventura de dia4ra.

*Para el que no lo sepa, dia4ra es nuestro proyecto pionero a nivel mundial que integra robótica asistencial e inteligencia artificial para la prevención, detección y tratamiento de enfermedades degenerativas).

La llegada de AIDA: un hito más entre muchos logros.

El equipo de labs lleva ya mucho tiempo trabajando (con robots más básicos o gracias a la inestimable ayuda del equipo de la URJC) en este proyecto. Todo empezó con el Turtlebot y, desde entonces, hemos logrado grandes avances en ROS y self driving, modelos de segmentación, Bounding Boxes, planificación y desarrollo de modelos, cloud deep learning...

Sí, ya lo sabemos, todos esos "palabros" suenan un poco a chino, pero no os preocupéis. Aunque empecemos el diario de labs ahora (porque en algún momento hay que empezar, y cuál mejor que ahora, que ha llegado AIDA, estrenamos la nueva web hace poco y tenemos a una persona de marketing disponible para convertir nuestros apasionados discursos técnicos en un texto digerible), os lo vamos a contar todo. Cómo hemos llegado aquí y todo lo avanzado hasta la fecha. Los retos que afrontamos. Los avances que consigamos. Las dificultades que encontremos. El día a día con AIDA.

Os aseguramos que será un viaje apasionante, ¿nos acompañas?

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_ga	ID utiliza para identificar a los usuarios	en 2 años
datahack.es	_gid	ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad	en 20 horas
google.com	__Secure-3PAPISI D	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años
google.com	__Secure-3PSID	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_fbp	Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros	en 3 meses
datahack.es	_gcl_au	Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.	en 3 meses
google.com	APISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	HSID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SAPISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SIDCC	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en un año
google.com	SSID	Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la Búsqueda de Google.	en 2 años

Editor	Política de privacidad
Facebook	https://www.facebook.com/about/privacy/
Google Analytics	https://privacy.google.com/take-control.html
Google	https://privacy.google.com/take-control.html
Google	https://safety.google/privacy/privacy-controls/