SPEECH TO TEXT CON TENSORFLOW II

<  VOLVER
Por: admin
abril 9, 2019
admin
abril 9, 2019

Tal y como vimos la semana pasada en el artículo introductorio de Speech to text con Tensorflow, los mecanismos de atención  surgieron para resolver los “problemas de olvido” que sufrían la redes encoder, a la hora de memorizar secuencias muy largas. Su funcionamiento se basa en emular el procesamiento humano, es decir, en vez de memorizar y procesar la secuencia de una vez, lo van haciendo por partes. Así, estos mecanismos de atención se sitúan entre la red encoder y decoder, y le van diciendo a la red decoder qué parte de la oración tiene que mirar (poner atención), a la hora de realizar la transformación de la palabra correspondiente al paso en el que está, es decir, le van diciendo la influencia que tiene una palabra sobre las otras.

Speech to Text con Tensorflow (2) - Mecanismos de Atención

Figura 3 - Estructura encoder-decoder con mecanismos de atención

Esto es así, porque los mecanismos de atención crean conexiones entre el context vector y la frase entrante, asignándole un peso a cada una de ellas, y evitando los problemas de olvido. Estos pesos indican el grado de correlación existente entre los elementos entrantes (source) y los posibles targets.

Speech to Text con Tensorflow (2) - Mecanismos de Atención

Por ejemplo, en esta frase, cuando vemos la palabra “comiendo”, esperaremos encontrar una palabra que haga referencia a comida cerca (alta atención). El tamaño describe a la comida, pero no tiene una relación directa con “comiendo” (baja atención). Los mecanismos de atención solucionan eso señalando la palabra a la que deben prestar alta atención.

The Transformer, la elección de datahack

Teniendo en cuenta todo lo visto anteriormente y nuestra experiencia en el desarrollo de modelos de deep learning, procedimos a la elección de la arquitectura que mejor se adaptaba a nuestro caso de uso, que fue el The Transformer, un modelo publicado en “Attention is All you Need” (Vaswani, et al., 2017), que mejora en gran medida las operaciones seq2seq, usando los mecanismos de atención y prescindiendo de las Redes Neuronales Recurrentes.

Como vimos anteriormente, las RNNs manejan la información secuencial (word-by-word) y no permiten la paralelización. The Transformer la permite y reduce significativamente los tiempos de entrenamiento, eliminando las Redes Neuronales Recurrentes y usando unidades de atención, organizadas en estructura Encoder-Decoder.


Javier Moralo, Data & AI Creative de datahack


El proyecto empresarial de DATAHACK CONSULTING SL., denominado “DESARROLLO DE INTELIGENCIA ARTIFICIAL EN ROBOTS APLICADOS AL TRATAMIENTO DEL ALZHEIMER Y LA DEMENCIA” y número de expediente 00104725 / SNEO-20171211 ha sido subvencionado por el CENTRO PARA EL DESARROLLO TECNOLÓGICO INDUSTRIAL (CDTI)

MÁSTER EXPERTO BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Suscríbete a nuestra Newsletter

Recibe nuestra programación mensual de eventos online y la apertura de nuevas convocatorias de cursos




    En Datahack Consulting SL trataremos los datos que nos facilites con la finalidad de enviarte información relacionada con tu solicitud sobre nuestros servicios, así como enviarte comunicaciones informativas sobre nuestra actividad. Podrás ejercer los derechos de acceso, rectificación, limitación, oposición, portabilidad, o retirar el consentimiento enviando un email a administracion@datahack.es. También puedes solicitar la tutela de derechos ante la Autoridad de Control (AEPD). Puedes consultar información adicional y detallada sobre protección de datos en nuestra Política de Privacidad.

    Estamos para ayudarte con cualquier duda, pequeña o grande

    Llámanos, escríbenos al email o por WhatsApp o inicia un chat en la web y hablamos

    chevron-down