Hacia máquinas que detectan emociones reales: teoría de las emociones deconstruidas (1)

teoría de las emociones deconstruidas - hacia las máquinas que detectan emociones

Vivimos en una época en la cual, gracias a la nueva venida de la inteligencia artificial, se ha conseguido que las máquinas consigan resultados muy buenos en problemas que, hasta hace no mucho, creíamos que solo los humanos podíamos resolver. Un claro ejemplo son los relacionados con visión que actualmente se abordan en el ámbito de la Visión Artificial.

El hecho de que una máquina “sea capaz” de analizar imágenes del mundo real, nos ha llevado a intentar extrapolar esta capacidad a la relación máquina-humano. Intentamos que no solo sea capaz de identificar, por ejemplo, cuando se encuentra ante un ser humano, sino que además pueda determinar la emoción que en ese momento está experimentando la persona.

Para los que no lo sepáis, en datahack labs también nos hemos enfrentado a este problema en el proyecto DIA4RA (enlace aquí al diario de AIDA). Lo hemos hecho apoyándonos en uno de los datasets de cabecera utilizado para pruebas de concepto relativas al reconocimiento de emociones en rostros humanos: el FER 2013, que contiene imágenes de rostros humanos en escala de grises, etiquetadas con la emoción a la que representan (alegría, tristeza, neutro, enfado, miedo, asco).

Los resultados que obtuvimos valieron para, como mucho, hacer una pequeña aplicación que, conectada a una cámara, intentara determinar la emoción de la persona que se pusiera delante en base a lo que esta exagerara el gesto… algo fallaba terriblemente.

Una charla… en las oficinas de Google

Nuestro compañero Rubén Martínez (@eldarsilver), dio con una charla en la que la doctora Lisa Feldman Barrett expuso ante ingenieros de Google, evidencias tan demoledoras como esta imagen a continuación en la que muestra en el eje X, las expresiones faciales que se presuponen a emociones como enfado, asco, sorpresa, alegría, tristeza y miedo:

teoría-de-las-emociones-deconstruidas-hacia-las-máquinas-que-detectan-emociones

En el eje Y, figuran las evidencias basadas en diversos experimentos que reflejan la frecuencia con la que las personas muestran esas expresiones mientras experimentan la emoción correspondiente. Como vemos, no es tan frecuentemente como creíamos. Por ejemplo, a través de dieciséis estudios diferentes, esa cara de ojos saltones y boca entreabierta situada en el extremo derecho del eje X solamente representa miedo en un 9% de las ocasiones… Y en ciertas partes del mundo (como en las Islas Trobriand de Papua Nueva Guinea) se considera una cara de enfado, de amenaza.

¿Qué ocurre cuando, en los muchos estudios al respecto, distintos sujetos de prueba ven estas expresiones faciales? ¿Qué emoción asocian a las mismas? Veámoslo en la barra azul:

teoría-de-las-emociones-deconstruidas-hacia-las-máquinas-que-detectan-emociones-1

El problema viene de que, cuando abordamos la detección de emociones desde el prisma “tradicional”, estamos considerando las barras azules. Por decirlo de otra manera: estamos asumiendo que cuando, por ejemplo, una persona arruga el morro, está experimentando una emoción de asco, de profundo desagrado, como si realmente existiera una correspondencia 1 a 1 entre un gesto concreto y una emoción concreta.

Hacia una nueva forma de detectar emociones

Después de esto, la pregunta que cae por su propio peso es… Si la realidad está representada por las barras blancas, ¿por qué las barras azules son tan grandes en comparativa? Es decir, ¿por qué las personas asociamos con tanta frecuencia esas expresiones con esas emociones?

Para responder a est,o hay que echar un vistazo al tipo de material que se utiliza para preguntar a las personas que participan en los estudios que dan lugar a las barras azules:

teoría-de-las-emociones-deconstruidas-hacia-las-máquinas-que-detectan-emociones-2

Como vemos, reciben una cara con una lista de palabras de entre las cuales se les pide que escojan una. En este caso, este rostro es calificado como “Angry” el 67% de las veces, pero si se retiran las opciones y se da libertad a la persona para categorizar la expresión, solo el 36% de las veces se afirma que esa es una cara de enfado.

Por supuesto todo esto no quiere decir que la cara no tenga ningún tipo de peso a la hora de determinar la emoción de una persona, sino que nuestro cerebro mete muchos otros ingredientes en la coctelera antes de inferir dicha emoción: hay todo un contexto que entra en juego y que desaparece por completo en los experimentos anteriormente mencionados, de los cuales, por otra parte, salen algunos de los datasets que utilizamos posteriormente para tratar de abordar el gran melón de la detección de emociones. Es curioso que en nuevas versiones del FER 2013, las imágenes de expresiones faciales tengan más de una etiqueta o, lo que es lo mismo, se les haya asociado más de una emoción posible.

En el próximo artículo, veremos cómo abordar esto.


Alejandro Arranz. Data Engineer en datahack

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *