Retomamos con fuerza el diario de DIA4A para poneros al día de los avances realizados hasta la fecha. Como recordaréis, hemos conseguido que el modelo de detección de objetos y personas desempeñe su cometido sobre las imágenes capturadas a través de la cámara frontal del robot. Ahora que llegan los primeros resultados es momento de traducirlos a entregables. Entre estos, contamos la documentación técnica y ejecutiva de cada modelo y, por supuesto, el cuaderno de pruebas.
Para elaborar el cuaderno de pruebas, hemos desglosado cada modelo en sus funcionalidades básicas. Para acreditar que estas se han alcanzado, hemos acordado grabar un vídeo del robot desempeñando cada funcionalidad. Con la idea de que el vídeo fuese más vistoso y, sobre todo, no abusar del uso de comandos escritos, de cara a hacerlo más atractivo para alguien con un perfil no tan técnico, optamos por aprovechar la Google Cloud Speech To Text API. Como imaginareis, es un servicio de Google que permite la transcripción multi-idioma de voz a texto. Hacemos un paréntesis aquí, para indicar que paralelamente estamos desarrollando nuestro propio modelo de Speech To Text en castellano.
El objetivo para registrar nuestra prueba unitaria para este primer modelo (y para el resto de pruebas unitarias) era grabar un vídeo en el que:
Para los que os gusta algo más de detalle, os explicamos un poco más a fondo el proceso. Lo primero es comentar algo sobre el nodo de ROS que encapsula la llamada a la API Speech To Text de Google. Este nodo se encuentra desplegado en el robot (a diferencia del nodo que encapsula el modelo desarrollado, que se encuentra en nuestras máquinas ya que requiere del uso de GPU para sus predicciones). La razón de esto es que se trata un nodo ligero que no realiza una computación per se, sino que delega en la API de Google, entonces lo primero será conectarse al robot y levantar este nodo.
Con ello, esperamos que la transcripción de cualquier voz humana que se detecte a través de los micrófonos del robot, sea publicada a través de un topic de ROS. A partir de aquí, se trata de escuchar en dicho topic y detectar el comando de activación de la prueba (algo así como “empieza” o “reconoce”) tras el cual se ejecuta una suscripción al topic de la cámara del robot y el modelo desarrollado comienza a identificar, hasta que se pronuncia el comando de finalización de la prueba (por ejemplo “termina”) “ y se desconecta del topic de la cámara, deteniéndose las predicciones.
Gracias a los compañeros de la URJC por el nodo que encapsula la Google Cloud Speech To Text API.
El proyecto empresarial de DATAHACK CONSULTING SL., denominado “DESARROLLO DE INTELIGENCIA ARTIFICIAL EN ROBOTS APLICADOS AL TRATAMIENTO DEL ALZHEIMER Y LA DEMENCIA” y número de expediente 00104725 / SNEO-20171211 ha sido subvencionado por el CENTRO PARA EL DESARROLLO TECNOLÓGICO INDUSTRIAL (CDTI)
Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.
Recibe nuestra programación mensual de eventos online y la apertura de nuevas convocatorias de cursos
En Datahack Consulting SL trataremos los datos que nos facilites con la finalidad de enviarte información relacionada con tu solicitud sobre nuestros servicios, así como enviarte comunicaciones informativas sobre nuestra actividad. Podrás ejercer los derechos de acceso, rectificación, limitación, oposición, portabilidad, o retirar el consentimiento enviando un email a administracion@datahack.es. También puedes solicitar la tutela de derechos ante la Autoridad de Control (AEPD). Puedes consultar información adicional y detallada sobre protección de datos en nuestra Política de Privacidad.
Llámanos, escríbenos al email o por WhatsApp o inicia un chat en la web y hablamos