Más de 5 000 millones de personas participan a diario en interacciones en red que generan algún tipo de dato. Para 2025, esta cifra sobrepasará los 6 000 millones, lo que supone que el 75% de la población mundial formará parte de una gran muestra cuyo comportamiento estará en permanente estudio. Así lo ponen de relieve Seagate e IDC en su informe The Digitization of the World – From Edge to Core.

Este escenario que se nos dibuja para dentro de cinco años, con más de 150 000 millones de dispositivos interconectados -muchos de ellos recogiendo datos de manera ininterrumpida y en tiempo real- es un terreno abonado para el avance del Big Data y el Internet of Things (IoT) o Internet de las Cosas. ¿Qué puede ofrecernos la colaboración entre estos dos paradigmas?

Internet of Things (IoT): ¿qué es y cómo funciona?

Según el glosario de la consultora Gartner, el Internet of Things (IoT) o Internet de las cosas se define como una red de objetos interrelacionados y equipados con tecnología para la intercomunicación, la captura de señales o la interacción con el entorno. A día de hoy, el IoT se despliega en forma de millones de cámaras, grabadoras, ordenadores, móviles, radares, sensores, drones, códigos, termómetros, higrómetros, etc., que toman registros de lo que sucede y los envían a los centros de procesamiento.

Estos dispositivos presentan diferentes niveles de sofisticación. Los más sencillos como, por ejemplo, las etiquetas RFID, se emplean con fines de identificación. Otros, más complejos, actualizan su ubicación o son programables a distancia. Finalmente, hay nodos que, incluso, toman decisiones y las ejecutan por sí mismos si se cumplen ciertas condiciones.

Entonces, ¿qué relación hay entre el Big Data y el IoT?

La actividad del IoT da como resultado una cantidad ingente de datos que es preciso recopilar, validar, almacenar, procesar y analizar para extraer valor, es decir, conclusiones que nos permitan ampliar nuestro conocimiento y basar nuestros siguientes pasos. Es aquí donde, justamente, entra en juego el Big Data para, haciendo un símil con el mundo financiero, transformar en neto aquello que estaba en bruto.

IoT & Big Data: sectores de aplicación

La alianza entre Big Data e IoT proporciona ventajas en dos esferas: la industrial, con la implementación de soluciones B2B; y la del gran consumo, con desarrollos B2C que mejoran nuestra vida diaria en lo personal y en lo doméstico.

Big Data e IoT contribuyen al desarrollo de soluciones de domótica para el hogar

Big Data e IoT, una alianza cargada de potencial de futuro

Extraer beneficios de la colaboración entre Big Data e IoT es cada vez más sencillo gracias a la suma de otras tecnologías, como el 5G, que ahorra ancho de banda en las operaciones y reduce la latencia en la transmisión de datos; y el edge computing, que favorece el procesamiento descentralizado de la información de manera que, cuando esta llega al nodo central de la red, lo hace ya desprovista de ruido y preparada para someterse a un proceso de análisis en Big Data.

Esta experimentación nos hace pensar en un presente y un futuro muy cercano en los que se registrarán considerables avances en campos como:

¿Te gustaría formar parte de la revolución del Big Data y el IoT que ya está en marcha? Nuestro Máster Experto en Arquitectura Big Data te prepara para desarrollarte profesionalmente en este sector, en el que podrás trabajar como líder de proyectos en sistemas intensivos de datos o como gestor de infraestructuras de Big Data, entre otras especializaciones. ¿A que suena bien? Pues no lo dejes para mañana: contacta con nosotros hoy mismo y te ofreceremos un asesoramiento personalizado.

La pregunta que muchos os haréis después del artículo anterior es ¿cómo plantea la doctora Feldman Barrett la construcción de emociones? Como comentamos en Innodata...

The Deconstructed Emotion

Nuestro cerebro tiene una vida difícil; se pasa el tiempo recluido en nuestro cráneo. Tiene además que desempeñar la misión de cuidar a nuestro cuerpo, el cual a su vez es un mecanismo complejo, lleno de recursos y difícil de mantener. Justamente este balance o mantenimiento de los recursos del cuerpo, es lo que se conoce como Body Budget. De esta manera, cuando se producen alteraciones en este Body Budget, nuestro cerebro será el encargado de restablecer el equilibrio.

Cuando nuestro Body Budget cambia, surgen en nosotros unos sentimientos básicos denominados Affects y que son diferentes de las emociones. Como podemos ver a continuación tienen dos dimensiones una en el eje X (valence) y otra en el eje Y (arousal):

teoría-de-las-emociones-deconstruidas-hacia-las-máquinas-que-detectan-emociones-3

Cómo funciona el Body Budget

Aquello que impacte nuestro Body Budget de forma positiva, motivará un Affect positivo. Ocurrirá al contrario con aquello que impacte nuestro Body Budget de forma negativa.

Hay que tener en cuenta que no nacemos ya sabiendo cómo controlar nuestro Body Budget, sino que vamos aprendiéndolo desde que somos bebés. Así es como nuestro enclaustrado cerebro puede llevar a cabo con éxito la misión de mantener nuestro Body Budget: en base a

Con todo esto, el cerebro es capaz de mapear los estímulos asociados a una cierta situación, con una experiencia pasada y actuar según un modelo aprendido. Y lo más importante, de manera predictiva, no reactiva.

Estrategia predictiva del cerebro

Esto es muy interesante: nuestro cerebro se guía por una estrategia predictivo-correctiva, no de estímulo-respuesta. La doctora Barrett y otros científicos, coinciden en que el primer tipo de estrategia es mucho más eficiente y adaptativo que el segundo. En este sentido, por ejemplo, nuestro cerebro debe hacernos sentir sedientos antes de que nos deshidratemos por completo o también hacernos sentir temor al borde de un acantilado, no cuando ya estemos cayendo.

En resumen, los modelos elaborados por nuestro cerebro se basan en experiencias pasadas, tienen como objetivo regular el Body Budget y tratan de predecir lo que va a ocurrir en nuestro entorno a cada momento. En base a esa predicción, nuestro Body Budget se modificará y sentiremos un Affect.

Las emociones

Ahora vienen las emociones: la doctora Barret las define como conceptos orientados a objetivos o metas, que construimos basándonos en experiencias pasadas.

Pongamos como ejemplo el caso de que vamos conduciendo y alguien se cruza inesperadamente con su coche delante nuestro provocándonos frenar inesperadamente. La emoción que construiremos dependerá de lo que nuestro cerebro prediga que está ocurriendo en nuestro entorno, dentro de nosotros y también de nuestro objetivo. En este caso, si lo que predecimos es que alguien intentó herirnos o que no valoró nuestra vida, nuestro Body Budget cambiará, experimentaremos un Affect de agitación y tocaremos el claxon con el objetivo de poner de manifiesto que nosotros importamos y que no nos hace ninguna gracias que atenten contra nuestra integridad.

Pero si lo que predecimos es que la persona que se ha cruzado ante nosotros tiene que ir con urgencia al hospital, nuestro Body Budget cambiará, permaneceremos tranquilos y facilitaremos la maniobra al conductor de delante. Habremos construido la emoción de simpatía o empatía.

En definitiva, la doctora Feldman describe las emociones como prescripciones de las acciones. Nos indican cómo debemos actuar de cara a conseguir un determinado objetivo.

Conclusiones

Esto es solamente un resumen de una teoría, compleja y no demasiado intuitiva, pero con bastante apoyo en la comunidad científica. ¿Servirá esta teoría para sentar las bases de un verdadero reconocimiento de emociones en los modelos de machine learning? Pensemos que, si realmente queremos que una máquina sepa cómo se construyen las emociones, tendría que tener la tarea de regular un Body Budget y para ello necesitaría algo parecido a un cuerpo… ¡interesante!

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.


Alejandro Arranz. Data Engineer en datahack

Vivimos en una época en la cual, gracias a la nueva venida de la inteligencia artificial, se ha conseguido que las máquinas consigan resultados muy buenos en problemas que, hasta hace no mucho, creíamos que solo los humanos podíamos resolver. Un claro ejemplo son los relacionados con visión que actualmente se abordan en el ámbito de la Visión Artificial.

El hecho de que una máquina “sea capaz” de analizar imágenes del mundo real, nos ha llevado a intentar extrapolar esta capacidad a la relación máquina-humano. Intentamos que no solo sea capaz de identificar, por ejemplo, cuando se encuentra ante un ser humano, sino que además pueda determinar la emoción que en ese momento está experimentando la persona.

Para los que no lo sepáis, en datahack labs también nos hemos enfrentado a este problema en el proyecto DIA4RA (enlace aquí al diario de AIDA). Lo hemos hecho apoyándonos en uno de los datasets de cabecera utilizado para pruebas de concepto relativas al reconocimiento de emociones en rostros humanos: el FER 2013, que contiene imágenes de rostros humanos en escala de grises, etiquetadas con la emoción a la que representan (alegría, tristeza, neutro, enfado, miedo, asco). Máquinas que detectan emociones

Los resultados que obtuvimos valieron para, como mucho, hacer una pequeña aplicación que, conectada a una cámara, intentara determinar la emoción de la persona que se pusiera delante en base a lo que esta exagerara el gesto… algo fallaba terriblemente.Máquinas que detectan emociones

Una charla… en las oficinas de Google

Nuestro compañero Rubén Martínez (@eldarsilver), dio con una charla en la que la doctora Lisa Feldman Barrett expuso ante ingenieros de Google, evidencias tan demoledoras como esta imagen a continuación en la que muestra en el eje X, las expresiones faciales que se presuponen a emociones como enfado, asco, sorpresa, alegría, tristeza y miedo:

teoría-de-las-emociones-deconstruidas-hacia-las-máquinas-que-detectan-emociones

En el eje Y, figuran las evidencias basadas en diversos experimentos que reflejan la frecuencia con la que las personas muestran esas expresiones mientras experimentan la emoción correspondiente. Como vemos, no es tan frecuentemente como creíamos. Por ejemplo, a través de dieciséis estudios diferentes, esa cara de ojos saltones y boca entreabierta situada en el extremo derecho del eje X solamente representa miedo en un 9% de las ocasiones… Y en ciertas partes del mundo (como en las Islas Trobriand de Papua Nueva Guinea) se considera una cara de enfado, de amenaza. Máquinas que detectan emociones

¿Qué ocurre cuando, en los muchos estudios al respecto, distintos sujetos de prueba ven estas expresiones faciales? ¿Qué emoción asocian a las mismas? Veámoslo en la barra azul:

teoría-de-las-emociones-deconstruidas-hacia-las-máquinas-que-detectan-emociones-1

El problema viene de que, cuando abordamos la detección de emociones desde el prisma “tradicional”, estamos considerando las barras azules. Por decirlo de otra manera: estamos asumiendo que cuando, por ejemplo, una persona arruga el morro, está experimentando una emoción de asco, de profundo desagrado, como si realmente existiera una correspondencia 1 a 1 entre un gesto concreto y una emoción concreta.

Hacia una nueva forma de detectar emociones

Después de esto, la pregunta que cae por su propio peso es… Si la realidad está representada por las barras blancas, ¿por qué las barras azules son tan grandes en comparativa? Es decir, ¿por qué las personas asociamos con tanta frecuencia esas expresiones con esas emociones?

Para responder a est,o hay que echar un vistazo al tipo de material que se utiliza para preguntar a las personas que participan en los estudios que dan lugar a las barras azules:

teoría-de-las-emociones-deconstruidas-hacia-las-máquinas-que-detectan-emociones-2

Como vemos, reciben una cara con una lista de palabras de entre las cuales se les pide que escojan una. En este caso, este rostro es calificado como “Angry” el 67% de las veces, pero si se retiran las opciones y se da libertad a la persona para categorizar la expresión, solo el 36% de las veces se afirma que esa es una cara de enfado.

Por supuesto todo esto no quiere decir que la cara no tenga ningún tipo de peso a la hora de determinar la emoción de una persona, sino que nuestro cerebro mete muchos otros ingredientes en la coctelera antes de inferir dicha emoción: hay todo un contexto que entra en juego y que desaparece por completo en los experimentos anteriormente mencionados, de los cuales, por otra parte, salen algunos de los datasets que utilizamos posteriormente para tratar de abordar el gran melón de la detección de emociones. Es curioso que en nuevas versiones del FER 2013, las imágenes de expresiones faciales tengan más de una etiqueta o, lo que es lo mismo, se les haya asociado más de una emoción posible.

En el próximo artículo, veremos cómo abordar esto.


Alejandro Arranz. Data Engineer en datahack

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

MLlib o Spark MLlib es la librería de Machine Learning (ML) de Apache Spark. El framework de computación distribuida que incorpora esta librería permite hacer uso de una serie de algoritmos de Machine Learning.

Lo interesante de todo esto, es que los algoritmos de Machine Learning que están implementados dentro de MLlib pueden ser escalados y paralelizados, aprovechando toda la base de Spark.

Dentro de MLlib podemos encontrar dos APIs:

El cambio de pasar de API basada en RDDs a otra basada en DataFrames, se debe a que estos últimos unas estructuras de datos más rápidas y fáciles de manejar.

MLlib la biblioteca de Machine Learning de Spark

Spark MLlib dispone de los siguientes herramientas:

Dentro entre todas estas, cabría destacar las siguientes:

Estadística Básica

Incluye las técnicas de machine learning más básicas, como:

Algoritmos de Clasificación y Regresión

Los problemas de aprendizaje supervisado son aquellos en los que existe una variable explícita, algo concreto: edad, fuga, color de pelo… a predecir.

Para aprender a predecir dicha variable, tendremos que enseñar al modelo un histórico pasado, del cual ya sabemos la respuesta, es decir, se utilizan datasets etiquetados, en los que ya se tiene información acerca de lo sucedido. Es decir, para crear un modelo de detección de fraude, será necesario contar con un conjunto de datos donde se sepa quién ha hecho fraude y quién no.

Los supervisados se dividen en dos categorías, clasificadores y regresores, dependiendo de cómo sea la variable a predecir.

En los de clasificación la variable a predecir es una categoría o clase (valor categórico o discreto), por ejemplo: rubio/moreno/pelirrojo, fuga/no-fuga de cliente, software malicioso/no-malicioso, etc. En estos, el modelo da como resultado un valor de probabilidad para cada una de las categorías disponibles (distribución de probabilidad).

Para el caso de la regresión, la variable a predecir es numérica (normalmente continua pero no es estrictamente necesario), por ejemplo: edad, altura, valor de una casa, número de Gb que va a gastar un cliente, etc.

En Spark MLlib están implementados muchos de estos algoritmos, tal y como podemos ver en la siguiente tabla, obtenida de su documentación oficial:

MLlib la biblioteca de Machine Learning de Spark

Sistemas de Recomendación

Un sistema de recomendación es una subclase de un sistema de filtrado de información que busca predecir la "calificación" o "preferencia" que un usuario daría a un elemento. Se han vuelto muy populares en los últimos años y se utilizan en muchas áreas que incluyen: películas, música, noticias, libros, artículos de investigación, búsquedas, etiquetas sociales y productos en general.

Se pueden clasificar según la forma en que generen la lista de recomendaciones:

Spark MLlib permite el uso de filtros colaborativos, a través del algoritmo ALS (alternating least squares).

Clustering

Los algoritmos de clustering son capaces crear una serie clústeres o grupos de observaciones que son similares entre sí.

Hay dos tipos de algoritmos de clustering:

Spark MLlib, permite de los siguientes algoritmos de clustering: K-means, Latent Dirichlet allocation (LDA), Bisecting k-means, Gaussian Mixture Model (GMM). Puedes obtener más información acerca de los mismos en el siguiente link.

Gestión de Features

Spark MLlib dispone de un buen número de algoritmos para  la extracción, selección y transformación de variables. Tienes más información al respecto, en el siguiente link.

Optimization

Spark MLlib disponer de una serie de métodos para optimizar el entrenamiento de los algoritmos, es decir, mejorar su velocidad de entrenamiento sin que haya pérdida en el rendimiento.

Para ver más detalles acerca de estos métodos, consulta el siguiente link.


Y hasta aquí esta introducción esta introducción al MLlib de Spark, en próximas entregas ahondaremos en algunos de los aspectos que se han visto aquí.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

“Es por las instancias del dataset, hay un problema de overfitting que hace que el modelo no generalice”. O algo así. Esta es una de las primeras frases que escuché cuando empecé a trabajar con científicos de datos y, por supuesto, no entendí nada. Últimamente me he dado cuenta de que les comprendo (al menos cuando me hablan, cuando les oigo hablar entre ellos no entiendo ni papa). Y es que ¡ya es un montón de tiempo rodeada de datahackers!

Si trabajas con científicos de datos y tampoco te enteras de la mitad de lo que dicen, este pequeño diccionario, junto con los términos de Big Data que compartí unos meses atrás, te puede ayudar a entenderles (un poco):

Dataset:

Conjunto de datos del que se dispone para entrenar, validar y probar el sistema. Está compuesto de observaciones o muestras (samples), definidas a su vez por propiedades, características o, siguiendo la terminología más común en inglés, features. Dependiendo de si el dataset está etiquetado o no, cada una de sus observaciones podrá incorporar además el label o target, o lo que es lo mismo, aquello que se desea que el sistema sea capaz de predecir.

Observación o sample:

Cada una de las muestras o elementos que componen el dataset.

Característica o propiedad (Feature):

Cada una de las variables que definen cada observación o muestra del dataset, su naturaleza es diversa. En el caso de modelos de aprendizaje supervisado, se espera que al menos parte de las features que componen el dataset influyan en el label o target.

Objetivo (target)

Variable dependiente, atributo o factor que quieres predecir.

Conjunto de entrenamiento (train set):

Subconjunto de los datos que se usará para entrenar los modelos

Conjunto de validación (validation set):

Subconjunto de los datos que se usará para elegir el mejor de entre todos los modelos entrenados

Conjunto de pruebas (test set)

Subconjunto de datos que se usará para probar el modelo campeón elegido mediante el conjunto de validación. Los datos de este conjunto deben de proceder de la misma distribución que aquellos que el modelo se encontrará una vez se ponga en producción.

Aprendizaje supervisado (Supervised Learning)

Aquel en el que los datos de entrenamiento (train set) que se le pasan al algoritmo, van "etiquetados" o lo que es lo mismo, cada observación incluye la solución deseada (aquello que se desea que el algoritmo prediga) en su target o label.

Aprendizaje No supervisado (Unsupervised Learning)

Aquel en el que los datos de entrenamiento (train set) que se le pasan al algoritmo, no van etiquetados de forma alguna (no hay label o target). El sistema trata de aprender "sin profesor"

Algoritmo

Especificación matemática categórica que resuelve un problema complejo en base a un conjunto de datos inicial. Consiste en múltiples pasos que aplican en orden una serie de operaciones.

Entrenamiento:

Proceso por el que el modelo ajusta sus parámetros internos en base al conjunto de entrenamiento y a la configuración que previamente se le haya aplicado a través de sus hiperparámetros. Normalmente el entrenamiento se realizará tratando de minimizar el error cometido por el modelo sobre el conjunto de entrenamiento, en base a una determinada función de error o función de pérdida.

Parámetros VS Hiperparámetros:

Los parámetros son todos aquellos valores que un modelo se encarga de autoajustarse durante el entrenamiento con el objetivo de ser capaz de aprender a generalizar a partir del dataset recibido.

Los hiperparámetros comprenden aquella configuración del modelo que el programador puede ajustar antes del entrenamiento..

Modelo:

Una representación matemática de un proceso determinado capaz de inferir comportamientos en el dataset de entrenamiento, de forma que estos sean extrapolables a nuevos datos con los que el modelo no haya sido entrenado. En el caso del aprendizaje supervisado (aquel que es habitual cuando el dataset posee además de sus features un label), el modelo será capaz de predecir una categoría (en el caso de un problema de clasificación) o un número (en el caso de un problema de regresión).

Sobreajuste (Overfitting):

Situación en la que el modelo no ha sido capaz de aprender aquellos patrones o comportamientos generalizables o extrapolables de los datos de entrenamiento. Se caracteriza porque el modelo es capaz de comportarse con una precisión cercana a la perfección en el conjunto de entrenamiento. Mientras que su rendimiento es pobre con el resto de los dato: dicho en pocas palabras, el modelo se ha aprendido los datos de memoria. Las razones pueden ser diversas: desde un modelo demasiado complejo para el problema que se pretende abordar o con demasiada "libertad" para ajustar sus parámetros (se suele mitigar con técnicas de Regularización) o también puede ser que se requieran más datos para el problema que se quiere abordar.

Infraajuste (underfitting):

Situación en la que el modelo no ha sido capaz siquiera de aprender aquellos patrones o comportamientos que le permita desenvolverse adecuadamente con el dataset de entrenamiento. Llegados a este punto, conviene plantearse si el tiempo de entrenamiento ha sido suficiente. Si nos hemos pasado aplicando técnicas de regularización o si, quizás, el modelo aplicado es demasiado simple para el problema que se quiere resolver.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Implementando la inteligencia artificial (ai) en la empresa. En distintos artículos, hemos visto cómo planificar la integración de la Inteligencia Artificial (IA) en la empresa. En este, veremos cómo ejecutar y llevar a cabo esta planificación. Esta propuesta la hacemos basándonos en nuestros casi tres años de experiencia en el diseño, desarrollo e implementación de este tipo de proyectos y en algunas de las premisas que Andrew Ng, da en su libro “AI Transformation Playbook”.

COMENZANDO DESDE LO PEQUEÑO

Lo primero, es empezar con uno o dos proyectos piloto que sirvan para que la compañía vaya adquiriendo experiencia y conocimientos en este tipo de tecnologías. Estos pilotos tienen que tener la siguientes características:

DIVIDE Y VENCERÁS

Otra cuestión importante, a tener en cuenta a la hora de definir nuestro proyecto es que: un problema puede ser dividido en partes más pequeñas, y más fáciles de resolver. Por ejemplo, si nos planteamos la construcción de una aplicación de Inteligencia Artificial para ayudar al servicio de atención al cliente. A priori, este podría parecernos problema de difícil solución. Sin embargo, la cosa cambia si nos paramos a ver e identificar los procesos que implica:

Así, vemos que se puede descomponer en otros más sencillos y bien definidos, que podrían ser asumidos por una IA.

PONIÉNDONOS EN ACCIÓN

Una vez se tiene claro el tipo de proyecto que se quiere hacer y sus características, la mejor forma de llevarlos a cabo es:

  1. Definir un líder: alguien capaz de tender puentes entre los expertos de Inteligencia Artificial y especialista de negocio, haciendo que ambos mundos se entiendan y colaboren de forma efectiva. Esto asegurará el éxito del proyecto y su influencia en el resto de la organización.
  2. Crear un equipo pequeño: en un primer momento, podríamos pensar que para el desarrollo de un proyecto de IA son necesarias muchas personas. Sin embargo, un piloto de Inteligencia Artificial bien definido se puede hacer con equipo pequeño, entre 5 y 15 personas (depende del proyecto en sí). Esto favorece el trabajo en equipo y facilita la contención y asignación de recursos, entre otras cosas.
  3. Comunicar los avances: cuando el proyecto piloto alcance hitos clave, y especialmente cuando tengan un resultado exitoso, hay que darlos a conocer al resto de la empresa. Con esto, aseguraremos que se reconozca al equipo que lo desarrolla y que se vean los beneficios que aporta el proyecto a la empresa.

De este modo, podemos ver que con las ideas claras y una buena planificación, la implantación de la IA en la empresa no tiene por qué ser algo muy costoso, solo alcanzable para unos pocos. Más bien todo lo contrario, es algo accesible para todo tipo de empresa, que puede mejorar en gran medida los procesos de negocio, reducir los costes y abrir nuevas posibilidades de negocio.

Hasta aquí, el segundo artículo de esta mini-serie, con la que hemos querido compartir nuestras ideas y experiencias, con tod@s aquellos que estéis interesados.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Según un informe de McKinsey, la inteligencia artificial (IA) generará un crecimiento de 13 billones de $ en el PIB global para 2030, que se producirá en sectores como la manufactura, agricultura, energía, logística y educación, entre otros. Así, el actual auge de la IA presenta una oportunidad para que los ejecutivos de todas las industrias puedan diferenciar y defender sus negocios. Sin embargo, antes de lanzarse al mundo de la Inteligencia Artificial, hay que entender qué es realmente la IA (se explicó en un artículo anterior de este blog) y qué aspectos hay que tener en cuenta, a la hora de planificar e implementar la IA, de forma exitosa.

Todo esto lo comentaremos en una serie de dos artículos. En este primero, se hablará de cómo planificar la integración de la Inteligencia Artificial en la empresa. En el segundo, la forma de llevarla a cabo.

INTEGRACIÓN DE LA INTELIGENCIA ARTIFICIAL EN LA EMPRESA

Lo primero, antes de todo, es pensar en el negocio, es decir, planificar la integración de Inteligencia Artificial pensando primero en los objetivos de negocio. Así, siempre será mejor incorporar la IA en el plan estratégico de la empresa que construir una estrategia de Inteligencia Artificial en sí misma. Para esto, hay que ver como la IA puede ayudar a conseguir los objetivos de negocio, no convertirla en un objetivo en sí mismo.

De este modo, hay que tener claro que las empresas se tienen que servir de los sistemas de Inteligencia Artificial para funcionar de manera inteligente, aprovechar sus datos y mejorar su rentabilidad. Las empresas no necesitan la IA para convertirse en algo nuevo, que aún no comprenden. La necesitan para desarrollar sus fortalezas y convertirse en lo que ya son, pero mejor.

Así, la mejor forma de empezar es preguntándose:

La Inteligencia Artificial puede ayudar a conseguir todas estas cosas y mucho más. Pero para tener éxito, esta debe formar parte de un plan de negocios general, y no al revés.

A medida que la IA se vaya incorporando en el plan de negocios, hay que pensar qué puede y qué no puede hacerse con ella,  qué pasos hay que seguir y qué problemas pueden darse durante su adopción. La Inteligencia Artificial puede hacer grandes cosas, pero es importante verla desde un punto de vista realista, entendiendo los desafíos que supone su uso y adopción

¿QUÉ HACE BIEN LA INTELIGENCIA ARTIFICIAL?

Lo primero es entender qué hace bien la IA, y tener claro dónde puede ser más efectiva.

La IA es muy buena para resolver problemas específicos y bien definidos.

Esto es así porque se ha visto que los algoritmos de Inteligencia Artificial funcionan muy bien en entornos controlados y bien definidos.

Nos fijamos en uno de los casos de aplicación IA que más se habla actualmente, los vehículos autónomos: Waymo (Google / Alphabet), Uber, Tesla y otros. Podremos ver que es un problema específico, no bien definido. Sin embargo, puede dividirse en varios problemas específicos, bien definidos: planificar una ruta, identificar señales, detectar obstáculos (otros vehículos y peatones), controlar los frenos, etc. Problemas que en conjunto pueden parecer mucho, pero al verlos por separado y poder acotarlos, pueden ser resueltos con técnicas de Inteligencia Artificial.

Otro caso, que sirve para explicar este principio, es el caso de Chorus.ai , una IA que es capaz de transcribir las llamadas que escucha e identificar y anotar los elementos importantes que haya en las mismas. Sus creadores no han tratado de construir una máquina que “haga ventas”, un objetivo que no está ni bien definido ni es específico. Lo que hicieron fue transcribir una conversación (un problema difícil pero bien entendido) y buscar señales específicas que indiquen elementos interesantes en esa transcripción. Siendo así, un asistente de los vendedores, que realiza tareas rutinarias pero necesarias.

Potenciando a los humanos

Otro aspecto clave a tener en cuenta, cuando se va hacer uso de la Inteligencia Artificial, es hacerlo de forma que sirva para potenciar y ayudar a los humanos, no para reemplazarlos. Usar la IA para reemplazar a los humanos probablemente nos llevará a que hagamos un mal uso de la misma. Y, con esto, a que no aprovechemos las oportunidades que se abren, a la hora de hacer una buena integración de la IA con los humanos.

Si se usa la Inteligencia Artificial para la detección de fraudes, probablemente aumentará la cantidad de posibles casos detectados y no se necesitarán tantas personas para analizar los datos, pero sí para gestionar los casos que encuentren. De este modo, la IA puede usarse para realizar la parte más monótona y repetitiva del trabajo, y así poder dedicar más personal (y con un mayor nivel de cualificación) a las partes menos rutinarias y más creativas.

DIFICULTADES PARA SU IMPLEMENTACIÓN

Otro aspecto importante es entender las dificultades que pueden presentarse a la hora de llevar a cabo el desarrollo e integración de la IA, y los costes que ello supone.

Política de gestión de datos

El entrenamiento de un modelo de Inteligencia Artificial requiere datos. Probablemente muchos datos. La realidad es que es poco probable que en el punto de partida se tengan datos útiles si no se ha definido y puesto en marcha, previamente, una buena política de gestión de datos en la empresa.

Los pasos necesarios para desarrollar una buena política de gestión de datos para Inteligencia Artificial son:

  1. Identificar fuentes de datos
  2. Crear canales de transferencia de datos
  3. Limpiar y preparar datos
  4. Identificar los indicadores potenciales en los datos
  5. Y medir el resultado de los mismos

Entrenamiento y Reentrenamiento

Para obtener un buen modelo de Inteligencia Artificial, primero hay que entrenar los algoritmos que lo componen. Este entrenamiento consiste en ir alimentando a los algoritmos con un conjunto de datos “conocidos” (se sabe lo que ha pasado, es decir, quién ha hecho fraude y quién no), hasta que se obtengan unos resultados adecuados. El resultado de este proceso será un modelo, es decir, conjunto de algoritmos que han sido entrenados con datos. A continuación, a este se le pasarán un conjunto de datos “no conocidos” (prueba en real), y se verá si los resultados obtenidos siguen siendo satisfactorios. Si lo son, se daría por finalizado el entrenamiento, si no, habría que hacer modificaciones y repetir el entrenamiento.

Así, puede verse que el entrenamiento del modelo, puede requerir una parte importante los recursos dedicados a la fase de desarrollo de un proyecto de Inteligencia Artificial. Por tanto, a la hora de plantearse la realización de cualquiera de estos proyectos, hay que tener en cuenta el tiempo de entrenamiento, y que este puede verse afectado por una serie de problemas, entre los que se incluyen:

Los sistemas de Inteligencia Artificial son inescrutables

Los sistemas de IA tienen la reputación de ser inescrutables, es decir, dan resultados, pero normalmente no pueden decir por qué han dado esos resultados. En algunos casos, esto no es demasiado importante, pero en otros, como es el caso del análisis de imágenes médicas, el porqué es tan importante como el qué.


LO SIGUIENTE

Si todo lo que hemos visto hasta ahora te ha quedado claro y sigues con la idea de embarcarte en el mundo de la IA, puede decirse que estás listo para empezar la planificación de tu proyecto de Inteligencia Artificial, que tiene que ir acompañada de un buen equipo humano, que desarrolle unas buenas prácticas para trabajar con datos, tiempo suficiente para realizar los entrenamientos de los modelos y la consciencia de los problemas que pueden darse en el camino. No hay nada mágico en la IA.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Hoy en día, el término “Inteligencia Artificial” es parte de nuestro día a día, tanto a nivel personal como a nivel empresarial, debido al progreso tan fulgurante que ha tenido en los últimos y que ha hecho que pase del campo de la investigación a las primeras etapas de la adopción empresarial.  Esto es, en gran parte, porque compañías como Google, Baidu, Microsoft, Facebook e IBM (entre otras), han creado muchos productos basados en ella. Y están haciendo ver que la Inteligencia Artificial no es solo algo rentable, sino una gran apuesta que va a influir futuro de la humanidad no solo a nivel económico, sino también a nivel humano y social..

En el artículo anterior se dieron algunas pinceladas sobre algunos de los conceptos relacionados con el mundo del big data que vamos a describir. En este artículo, se pretende dar una definición concisa de lo que se conoce como Inteligencia Artificial (IA) y de otros dos conceptos que están muy relacionados con ella, el Machine Learning (ML) y el Deep Learning (DL).

La inteligencia artificial

Como ya comenté en un conceptos relacionados con el mundo del big data, la Inteligencia Artificial (IA), fue definida por John McCarthy en 1956, como “Conjunto de técnicas que sirven para dotar de inteligencia a una máquina”, es decir,  un conjunto de programas informáticos, basados en algoritmos, que imitan el comportamiento humano.

Frente a este concepto, mucha gente entiende lo que se conoce como Inteligencia Artificial General (en inglés, AGI), es decir, máquinas que son igual o más inteligentes que los humanos, capaces de hacer una gran variedad de tareas y emular cualidades humanas como la conciencia, la sensibilidad y el autoconocimiento. La realidad es que actualmente se han hecho pocos avances en este campo. Ejemplos similares a HAL 9000 o C-3PO, quedan actualmente en el terreno de la ciencia ficción.

Donde sí se han hecho grandes avances es en lo que se conoce como Inteligencia Artificial Estricta (narrow AI), que se centra en realización de funciones específicas, normalmente aspectos cognitivos del ser humano, como la realización de predicciones y recomendaciones, el reconocimiento de imágenes, procesado de lenguaje natural, tareas de traducción, etc. Para la realización de estás tareas se usan modelos de IA basados en algoritmos de Machine Learnig y Deep Learning.

Inteligencia Artificial, machine learning y deep learning

Figura I.- Organización del ML y DL dentro de la IA

Machine Learning

Así, el Machine Learning es una subcategoría de la inteligencia artificial que utiliza métodos estadísticos para realizar aquellas funciones cognitivas más sencillas, como por ejemplo: predicción de fraude, clasificación de imágenes o sistemas de recomendación financiera, entre otros.

Inteligencia Artificial, machine learning y deep learning

Figura II.- Ejemplo de la arquitectura de una red neuronal

Deep Learning

Por otro lado el Deep Learning, es una subcategoría dentro del machine learning que imita el modo de funcionamiento del cerebro humano, organizando sus elementos en capas y formando redes neuronales. Estás redes neuronales interpretan mejor los datos desestructurados y mejoran su eficiencia en función de la cantidad de datos. No ocurre lo mismo con los algoritmos de machine Learning, que tienen un punto de saturación, es decir, que llegado un momento, aunque se les proporcionen más datos, no mejoran su eficiencia. Por esto, el deep learning se utiliza para solventar los problemas más complicados y que requieren más datos, como detección de objetos, procesado natural del lenguaje (PNL), análisis de sentimientos o transformación de voz humana en texto (Speech to Text), entre otras aplicaciones.

Inteligencia Artificial, machine learning y deep learning

Figura III.- Eficiencia del aprendizaje de los algoritmos de ML y DL, respecto a la cantidad de datos

Y hasta aquí este artículo acerca de la definición y aclaración del concepto de Inteligencia Artificial, Machine Learning y Deep Learning. Seguiremos publicando artículos relacionados con este tema, que va ser más que determinante en el futuro. Muchas gracias a tod@s y nos vemos en la siguiente! 🙂

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Cuando no sabes mucho sobre el mundillo del Big Data & Analytics, puede amedrentar un poco leer cualquier cosa sobre el tema, aunque solo sea por las palabras que se utilizan. Aquí tienes una guía rápida de las más utilizadas y su significado.

Big Data:

Término que hace referencia a la gran cantidad de datos variados y no siempre estructurados que se generan con cada vez más rapidez y que pueden generar valor a nuestra empresa. Para recopilar, limpiar, procesar, analizar y visualizar todos esos datos necesitamos conocer y manejar un largo conjunto de herramientas.  Aprende a hacerlo con nuestro master Big Data & Analytics.

¿Quieres saber más sobre la definición de Big Data? Te recomiendo que te pases por el artículo “Las cinco v’s del Big Data”.

Inteligencia de Negocio (Business Intelligence o BI):

Uso de aplicaciones e infraestructuras de Big Data para acceder y analizar la información de forma que podamos tomar mejores y más óptimas decisiones que aumenten nuestro rendimiento.

Internet de las cosas (IoT):

Se refiere a los objetos cotidianos que están conectados permanente entre si y a repositorios de datos que almacenan la información que recogen de su entorno.

Descubre más sobre la relación entre Big Data, IoT e Inteligencia Artificial en este artículo.

Inteligencia Artificial (Artificial Intelligence):

Es el área de la computación que tiene por objeto la creación de máquinas inteligentes que se comporten y reaccionen de forma similar a los humanos.

Algoritmo

Especificación matemática categórica que resuelve un problema complejo en base a un conjunto de datos inicial. Consiste en múltiples pasos que aplican en orden una serie de operaciones.

Machine Learning:

Es un campo dentro de la Inteligencia Artificial que tiene por objetivo que las máquinas aprendan a resolver una determinada tarea partir de la experiencia, es decir, los datos. De este modo se facilita que una máquina llegue a la solución de un problema sin que un humano tenga que programar explicitamente qué pasos tiene que seguir para ello.

¿Quieres saber más sobre la definición de Machine Learning? Te recomiendo que te pases por el artículo “Machine Learning. Una introducción

Deep Learning:

Es a su vez una disciplina del Machine Learning que se caracteriza no solo por ser capaz de aprender a solucionar una determinada tarea a partir de los datos, sino porque además aprende a representar los datos de para llegar a esa solución. En contraste con el Machine Learning más elemental, que requiere de que los datos estén muy bien estructurados para funcionar correctamente. Esta característica permite al Deep Learning atacar a problemas hasta ahora impensables de solucionar para una máquina (visión artificial, reconocimiento de voz...)

Datalake:

Repositorio de gran cantidad de datos, generalmente en bruto y sin estructurar.

Datawarehouse:

Repositorio de gran cantidad de datos, ordenados, limpiados e integrados que están listos para su análisis.

Minería de datos (data mining):

Búsqueda de patrones en grandes sets de datos para refinarlos, clasificarlos, hacerlos comprensibles y poderlos explotar.

Computación en la nube (Cloud Computing)

A diferencia de la computación tradicional on premise (es decir, con las máquinas y demás aparatos físicos cableados y montados in situ), el Cloud computing ofrece al usuario la posibilidad de usar recursos de computación desentendiéndose de mantenimiento hardware y pagando por lo que usa. Los distintos proveedores de Cloud disponen además de un amplio ecosistema para facilitar al usuario la gestión y configuración de la infraestructura deseada en el Cloud.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

En nuestro afán por hacer llegar a todos una formación en Big Data y Analytics de calidad, datahack ha llegado a Sevilla y se está dando a conocer con su segundo evento en dos semanas. Una vez presentadas las credenciales, era momento de meterse un poco más en harina y acercar al potencial alumno aquello que se ofrece en el master. En esta ocasión se puso el foco en la parte relativa a Machine Learning. La intención no era dar una charla magistral, ni que la gente saliera impresionada, sino transmitir: acercar un concepto que en ocasiones parece difuso, desgranarlo y mostrar algunos de sus vericuetos a las personas que deseen instruirse en esta disciplina.

Una de las primeras ideas que se pretendía afianzar es que el Machine learning es un campo que lleva muchos años presente. Es quizá en tiempos más recientes (en los que la capacidad de procesamiento ha mejorado drásticamente y la cantidad de datos que se almacenan es crece exponencialmente) cuando ha recibido el reconocimiento que merece. Por tanto, ya no es un “hype”, sino que está aquí para quedarse.

Problemas que podemos abordar con el Machine Learning

Después de asentar el punto de partida a través de algunas definiciones, se pasó a desgranar algunos de los principales tipos de problemas que se pueden abordar a través del Machine Learning, como son el aprendizaje supervisado (incluyendo tareas de clasificación y de regresión) y el aprendizaje no supervisado.

Siguiendo el hilo de proporcionar un acercamiento real a la materia, se habló largo y tendido de los problemas que pueden aparecer (y que aparecerán) al ponerse manos a la obra. Por ejemplo, los relativos a los datos (distintos tipos de sesgos, representatividad, la calidad y limpieza de los mismos…) y por supuesto de los algoritmos (overfitting, underfitting y la regularización como posible solución al primero de ellos). Era importante aclarar la naturaleza iterativa del Machine Learning, el hecho de que no hay una checklist fácilmente aplicable que permita resolver todos los problemas que salgan al paso, con lo que es muy importante armarse de paciencia y no desesperar si los resultados tardan en llegar.

Qué hacer con los datos y los modelos entrenados

A medida que transcurría la representación las personas que asistieron se mostraron cada vez más participativas haciendo preguntas muy interesantes, algunas de las cuales permitían hilvanar un apartado con otro dando sensación de fluidez. Esto se hizo especialmente palpable en la parte final, que abordaba (¡por fin!) qué hacer con los datos y con los modelos entrenados con estos: aquí se expuso cómo dividir el conjunto de datos y cómo utilizar esos datos para entrenar distintos modelos, cómo apoyarse en los datos reservados para la validación para elegir el modelo campeón y muy especialmente destacar la importancia de los datos de test.

Esta porción es especialmente delicada ya que debe permanecer aislada de nosotros y de nuestros modelos (para evitar filtraciones), hasta que se haya escogido un modelo campeón y solo entonces será cuando dicho modelo se enfrente a los datos de test. El resultado revelará si el modelo está listo para pasar ser productivo o si, por lo contrario, necesitamos trabajar más a fondo para conseguir mejorarlo.

Más allá de la charla, cabe destacar a los asistentes que fueron: durante la charla demostraron mucho interés e hicieron preguntas sumamente interesantes y antes y después de las mismas, fue un placer hablar con ellos, de sus inquietudes y de sus intereses. Algunos incluso hicieron una fantástica crónica del evento (la foto, por cierto, la tomó él). Esperamos verles de nuevo (¡y que traigan más gente incluso!) en los siguientes jueves del Big Data. ¡Id bloqueando la agenda para la siguiente, sobre Blockchain y Sidechain!


Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down