El pasado 28 de noviembre, se celebraron las Jornadas de Big Data organizadas por Impro, donde había una mesa redonda moderada por nuestra CEO, Lourdes Hernández Vozmediano. Lo primero que hicimos fue conocer a los ponentes y los proyectos que están desarrollando:

José Antonio Moreno Muñoz, Jefe de servicio de Gestión de la Información del instituto de estadística y cartografía.

La base de datos de personas de Andalucía

Nos habló de su proyecto estrella, la base de datos de personas de Andalucía. Desde 1996, almacenan datos procedentes de los padrones municipales de habitantes. Además, se van enriqueciendo con la información procedente de los boletines de partos y defunciones para adelantarse a lo que más adelante llega a través del padrón. Sobre eso, van integrando más datos: demandantes de empleo y contrataciones, titulaciones universitarias, e incluso datos sobre afiliación a la seguridad social y pensiones contributivas.

Incorporan además datos de Muface. Se trata de un proyecto a partir del cual se difunde toda la información derivada de esos registros a un nivel de desagregación territorial “máximo”, ya que se publican datos en lo que se denomina la malla estadística, que está integrada por celdillas de 250 por 250 metros.

Además, plantea que una de las líneas que se van a empezar a abordar es la evaluación de políticas públicas e incluso, ya, están trabajando con los datos de egresados, seguridad social y los de contratos y demandantes de empleo, para hacer una primera evaluación del impacto que tiene la formación en la insercción laboral.

Otros proyectos

En otra línea de trabajo, nos cuenta que en el ámbito de la compra pública innovadora van a plantear un proyecto que tiene como objetivo desarrollar un conjunto de librerías y componentes que se insertarían en las aplicaciones móviles corporativas y a través de los cuales les proporcionarían los datos a una plataforma de gestión y normalización de dichos datos para poder analizarlos y ponerlos en valor. Se trata de un proyecto Big Data orientado a complementar con información de ese origen a la administrativa ya existente para ofrecer información más actual y a la par, ofrecer datos para sectores a los que la estadística pública le resulta más complicado llegar, como es el caso de la movilidad, turismo, usos del tiempo de la población, etc.

Leonor Rodríguez Catalán: jefa de la división de transformación digital en EMASESA Metropolitana

Nos comentó su proyecto de Business Intelligence donde miden el ciclo de vida del agua. Está trabajando también en la transparencia de datos y en el portal de datos abiertos.

Otros proyectos que están abordando son la lectura de contadores inteligentes, y un repositorio virtual para la mejora de la biodiversidad y el medio ambiente. 

Antonio García Vázquez: Gerente de EPOCSA diputación de Cádiz:

Su proyecto estrella es el destino turístico inteligente, que pretende posicionar a Cádiz como uno de los destinos turísticos favoritos, dado que es una de las mayores fuentes de ingresos de la ciudad.

También están con el sistema de recaudación tributaria, donde aún tienen los datos por explotar, y lo que sí tienen hace tiempo es un sistema de Business Intelligence con los datos del back office: institucional, nóminas, información de rrhh, etc. 

Beneficios de los proyectos

Al preguntar a los ponentes por los beneficios obtenidos de los proyectos, los tres coincidieron en que aún es difícil medir el retorno de la inversión de estos, porque estamos en una fase incipiente aún. No obstante, sin duda son proyectos que todas las empresas y los organismos públicos deben abordar en el corto o medio plazo.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

En este artículo queremos contaros la noticia de que, un año más, nos han aceptado una charla en el ahora llamado Big Things y previamente conocido como Big Data Spain. Una nueva oportunidad para encontrarnos con amigos, antiguos alumnos del máster de Datahack, profesores... Y sobre todo para ver qué trabajos se están haciendo en el sector de la Inteligencia Artificial o el Big Data. Este año parece que el espectro está más abierto porque se incluyen áreas como el Internet of Things. O el Quantum Computing (del que podéis encontrar una serie de hasta la fecha 6 entradas que hemos escrito en el blog). 

NUESTRAS PRIMERAS PARTICIPACIONES

Si echamos la vista atrás, hemos tenido la suerte (a la que quizás algo ha ayudado el trabajo y las horas de dedicación :P) de poder asistir como ponentes desde el mismo año de creación del área de Labs dentro de Datahack. En 2017 pudimos presentar una charla sobre cómo aplicar algoritmos de Actor-Critic de Reinforcement Learning para conseguir que un malware “aprendiese” a evadir las medidas de detección de un motor AntiVirus. El título de la charla era “Attacking Machine Learning used in AntiVirus with Reinforcement Learning”.

Antes de dedicarme a probar cómo combinar modelos de Deep Learning con robótica trabajé durante unos cuantos años (más de 10, no sabía si poner la cifra porque los años vuelan y eso es que nos hacemos mayores) en temas de hacking ofensivo y esta charla me permitió aunar 2 mundos, el de la ciberseguridad y el de la Inteligencia Artificial. Si tenéis curiosidad podéis verla en este enlace.

DIA4RA

En 2018 ya estábamos metidos de lleno con el proyecto DIA4RA (siglas de Desarrollo de Inteligencia Artificial para Robótica Asistencial) en el que colaboramos con el departamento de Robótica de la Universidad Rey Juan Carlos de Fuenlabrada (Intelligent Robotics Labs @IntellRobotLabs). Aprovechamos para felicitarles porque recientemente han ganado el SCIROC Challenge. BAYESIAN VOICE EMOTION

El objetivo de este proyecto es el de combinar modelos de Deep Learning con algoritmos de Robótica para dotar a un robot Pepper (al nuestro le hemos puesto el nombre AIDA, podéis encontrar más información sobre el por qué de dicho nombre y sobre anécdotas del proyecto en el blog) de las capacidades necesarias para ayudar a terapeutas a tratar a pacientes con Alzheimer. BAYESIAN VOICE EMOTION

Uno de los módulos del proyecto consistía en desarrollar un sistema que permitiese al robot reconocer nuevas identidades empleando una única imagen del rostro de la persona que acabe de conocer. El modelo de Deep Learning que empleamos para solucionar esta tarea sirvió como propuesta para el CFP del Big Data Spain 2018. Además, incluimos a la charla una introducción a una alternativa basada más en investigaciones de neurociencia como son las Spiking Neural Networks. También tuvimos la fortuna de poder contar este proyecto. Más información y el vídeo de la charla puede encontrarse en estos enlaces

LA CHARLA DE ESTE AÑO

Avanzamos hasta 2019. Uno de los principales retos que nos encontramos a la hora de desplegar en un entorno real modelos de visión artificial, speech2text, text2speech, detección de emociones a partir de la combinación de expresiones faciales, del tono de la voz y del contenido del mensaje es que es muy complicado que la distribución del conjunto de entrenamiento de dichos modelos capture la distribución de los datos que se va a encontrar el robot en tiempo de inferencia. BAYESIAN VOICE EMOTION

Aquí es donde vimos la necesidad de contar con una medida adicional que nos informase del grado de certeza en las predicciones del modelo y de trabajar con distribuciones de datos en vez de solo con ejemplos puntuales. BAYESIAN VOICE EMOTION

Para abordar esta necesidad, vimos que un comienzo sería emplear técnicas Bayesianas para añadir a las predicciones de los modelos de Deep Learning medidas del del grado de falta de certeza Aleatoria y Epistémica. En particular, la idea de la charla es presentar los retos que nos hemos ido encontrando al aplicar modelos de Deep Learning sobre un robot que debe interacturar con personas en un entorno abierto. Y cómo el aplicar estas técnicas Bayesianas que proporcionan información sobre la falta de certeza en las predicciones al modelo de detección de emociones a partir del tono de voz de una persona con la que esté tratando el robot. Además de cómo esta información adicional puede ayudar a tomar mejores decisiones en la interacción robot-persona.

¡NOS VEMOS EN BIG THINGS!

El título que le hemos puesto a la charla es: Bayesian Voice Emotion Detection Applied to Robotics: Adding Uncertainty Measures to a Robotic Brain. Si tenéis curiosidad sobre el tema o si queréis que hablemos sobre Inteligencia Artificial, Neurociencia, Quantum Computing o simplemente echarnos unas risas, nos vemos en el próximo Big Things el 20 y el 21 de Noviembre en el Kinépolis de Madrid.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Sí, habéis leído bien, datahack vuela a Sevilla, así que, si eres del sur, ¡tendrás la oportunidad de hacer nuestro máster de Big Data cerca de casa! Ya hemos hecho algunos proyectos en la ciudad, como la Academia Digital de Fundación ONCE para personas con discapacidad. Pero hemos decidido dar un paso más y ofreceros nuestros programas de formación más avanzados también en esa ciudad.

Nuevos cursos Big Data en Sevilla

Crecemos este 2019 dando nuestros cursos de Big Data en Sevilla. Son muchas las personas del sur del país que se han interesado en realizar nuestro programa acelerado de Big Data y Analytics, por lo que abrimos una nueva escuela de datahack en Sevilla con nuestro compañero Goyo Romero encargándose de su gerencia desde allí.

Nueva escuela en Sevilla

Con esta de Sevilla, ya van cuatro escuelas de datahack. Empezamos en Madrid en 2015, después en Bilbao en 2017 y Barcelona a principios de añoLa nueva escuela abrirá sus puertas tras el verano en Avda República Argentina 21B, Planta 3, Sala 13.Contará con el mismo programa acelerado, profesores expertos en cada materia y la realización de proyectos reales como forma de aprender Big Data y Analytics.

Mismo programa acelerado de Big Data y Analytics

En la escuela de Sevilla, mantendremos el mismo programa acelerado de Big Data y Analytics. Y como no podía ser de otra manera, los profesores que impartirán el programa serán profesionales de la materia.

datahack en Sevilla

Empezamos muy pronto la andadura de datahack en Sevilla. Este martes 16 inauguraremos la sede con charlas sobre empleo en el sector de Big Data & Analytics, Iot, Inteligencia artificial y Big data... Un evento único para informáticos.

Comienzo del programa de Big Data en Sevilla

La fecha prevista para el comienzo de los cursos, será el 29 de octubre, con el Curso de Visualización. El 9 de noviembre es la fecha elegida para el comienzo del Máster, y otros cursos como el de Análisis de datos con Python y Blockchain. Un buen momento para empezar nuevos retos y desafíos como es emprenderse en el mundo del Big Data y Analytics. Se espera que al año se hagan tres convocatorias de la modalidad fin de semana del máster. La siguiente sería en enero y la tercera antes del comienzo del verano de 2019.

Anímate y especialízate con el máster acelerado de Big Data y Analytics de datahack.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

El pasado día 27 de febrero, nuestra escuela de Madrid albergó la charla Big Data para Dummies. En ella, Lourdes Hernández hizo una introducción al fascinante mundo de la ciencia de los datos.

Qué es Big Data y para qué sirve

Tras una breve introducción explicando qué es el Big data, comenzó a mostrarnos por qué utilizarlo y todas las posibilidades que ofrece para ayudarnos a crecer:
  • mejor conocimiento del cliente para su mejor captación y retención
  • apoyo en la toma de decisiones
  • optimización de los procesos de negocio...
  • e incluso la posibilidad de crear nuevos modelos de negocio.
Todo ello quedó ilustrado con numerosos ejemplos y casos de éxito antes de pasar a la siguiente gran parte de la charla:

Machine learning y otras palabras imprescindibles en Big Data

En esta parte se mostraron los tipos de aprendizaje de las máquinas (supervisado o no supervisado), se explicó qué son los clusters, las regresiones, los árboles de decisión... Tras ello, se nos explicaron brevemente conceptos como Hadoop, Spark, NoSQL o marchine learning.
Finalmente, se resolvieron todas las dudas de los asistentes, muchos de los cuales salieron de lo más animados para profundizar en el Big data.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Mario nos mostró la lista de las principales compañías del ámbito financiero en España que están abordando proyectos BigData.

Las principales áreas en las que se están llevando a cabo estos proyectos son:

Ámbito Regulatorio: las entidades tienen que realizar un análisis de los potenciales clientes antes de que empiecen a trabajar con ellos, para evitar que provengan del ámbito de la delincuencia, el blanqueo de capitales, etc. Hasta ahora, algunas utilizaban técnicas muy rudimentarias y poco fiables, como pegar en la ficha del cliente el pantallazo que le devuelve Google al poner su nombre. Tal vez tengamos a un cliente como público objetivo óptimo de una campaña, pero no estemos validando cuál es su nivel de riesgo.

Proyectos BigData

Data&Beers - Proyectos BigData reales en españa - Mario Renau

IFRS9, una normativa, como continuación de Basilea II, que pretende establecer unas pautas de control para evitar la posible caída de determinados bancos, que pueden suponer el colapso de un país o incluso de un continente entero.

Plataforma estratégica de contabilidad, donde cargan y almacenan todos los movimientos contables para poder realizar análisis adicionales a los propios de contabilidad, detectar desviaciones, comportamientos erróneos, etc.

Visión 720º de un cliente. Hay un 10% de clientes que se van y no sabemos por qué. Quizá no estemos cruzando bien toda la información de las distintas áreas y no nos demos cuenta de que podemos estar dando un mal servicio al cliente, ni nos estemos fijando en el impacto que este cliente tiene sobre su comunidad, familia, empresa o seguidores. Una visión 720º del cliente exige tener la visión 360º dentro de nuestra entidad y de otros 360º fuera de ella: 720º.

Proyectos BigData

Data&Beers - Proyectos BigData con Mario Renau

Por lo general son proyectos BigData con un impacto estratégico en las entidades, por lo que requieren la participación de un Program Manager. No utilizan las últimas versiones, dado que son proyectos con un cierto recorrido y las entidades necesitan certificar el software que utilizan. El ir certificando las nuevas versiones que salen es un proceso largo.

Los resultados son fabulosos, como demuestra uno de los casos concretos que Mario Renau expuso, donde un proceso PL/SQL, cuyo código llegaba desde Madrid a Vigo, pasó de tardar en ejecutarse 23 horas a hacerlo en 23 minutos, a lo que hay que sumar los notables ahorros en software e infraestructura, lo que hace que los proyectos se financien solos.

En general, hay una tendencia a realizar el almacenamiento en Data Lakes multicapa o SandBoxes, donde se almacenan los datos en crudo. Luego hay distintas capas de negocio: analítica, datos agregados y procesados y así sucesivamente. Se incluye la lógica de negocio en todas las capas. De momento, la mayoría de proyectos BigData, va en esa línea.

Si quieres asistir al próximo Data&Beers, consulta nuestros Eventos Datahack

Conocer las características del perfil profesional de Big Data es uno de los grandes retos que debemos afrontar en España, porque todavía estamos comenzando y hay pocos proyectos. No tenemos muy claro qué es eso del Big Data y cómo funciona exactamente; pero sabemos con seguridad que debemos empezar con ello sí o sí.

Buscamos una idea (que siempre podemos copiar) o comenzamos por algo sencillo, como la migración de nuestros almacenes de datos a otros más rápidos y económicos.

Compramos la idea de Big Data. Muy bien. ¿Quién maneja esto del Big Data? Porque alguien lo tendrá que mantener. O tenemos a algún friki inquieto que haya experimentado con algo similar, o va a ser muy difícil reciclar a alguien de nuestro personal tradicional de sistemas.

Recruiters: ¿Qué perfil profesional de Big Data tenemos que buscar?

Tanto los Head Hunters como los departamentos de Recursos Humanos e incluso los directores de IT, no tienen claro qué buscar. Si echamos un vistazo a webs de contratación de personas, encontraremos peticiones de lo más diversas, desde unas que piden “expertos en Big Data con conocimientos en SAS” a otras que buscan “expertos en Big Data con certificación” (Así, sin más) o incluso que solicitan expertos en absolutamente todos los campos relacionados con Big Data. ¡Por pedir, que no falte! Claro, las búsquedas resultan enormemente infructuosas.

Como aseveraba Tamara Dull, directora de tecnologías emergentes de SAS Best Practices, en el SAS Forum España 2015, Hadoop llegó en 2011. Si se busca un perfil profesional de Big Data con cinco años de experiencia en Hadoop, se tendrá que esperar, por lo menos, hasta dentro de unos meses. Si además se desea experiencia en proyectos reales, habrá que esperar de dos a tres años más, aunque bien sea cierto que ya existen en nuestro país empresas (algunas muy buenas) trabajando en proyectos reales de Big Data, tanto grandes como pequeños.

¿Qué hacemos, pues? Quizá lo mejor sea buscar interés y capacidad antes que mucha experiencia. Big Data es un sector de viva actualidad, por lo que es necesario que los candidatos participen activamente en foros, estén en un proceso de formación continuo y no pierdan ningún detalle de lo que ocurre en el sector. No pueden ser personas que tengan suficiente con tener su salario y su puesto, sino gente inquieta y que quiera mejorar.

El candidato ideal y el perfil profesional de Big Data

Perfil profesional de Big Data

 

Por lo general, los candidatos suelen ser gente “friki” (con todo el cariño y sin ningún matiz despectivo; es que probablemente, si no fueran frikis, no se dedicarían a esto). Es gente inquieta y con deseos de hacer cosas, que tienen por delante, en los próximos cinco o diez años, un futuro prometedor.

Como en una gran mayoría de trabajos, la actitud, la responsabilidad y el trabajo en equipo son esenciales. Seas friki o no, trabajes donde trabajes, según nuestra experiencia es en estas cualidades donde radica el 90 por ciento del éxito de lo que se haga.

Dicho esto, pasemos a ver cuáles son los tres perfiles profesionales claramente diferenciados de Big Data:

1.- Big Data Developer. Es el encargado de captar los datos, almacenarlos, procesarlos y asegurarse de que todo funcione bien y de que los datos queden disponibles para que otras personas los puedan usar. Es el responsable de mover los datos de un sitio a otro. Suelen provenir de ingenierías, informática o matemáticas (los matemáticos sirven para todo). Poseen conocimientos en Hadoop y su ecosistema, amén de Spark

2.- Data Scientist. Realiza el análisis en profundidad de los datos. Se encarga de limpiarlos, agregarlos y sacar conclusiones de ellos. Debe poseer conocimientos sólidos de estadística, herramientas como R y SAS, y también del ecosistema Hadoop. No solo analiza estos datos, sino que también los interpreta y los pone a disposición de los usuarios o el siguiente profesional que vaya a utilizar a continuación dichos datos. Se requiere un perfil de analista.

3.- Big Data Administrator. Como siempre, alguien debe velar por que toda la “cacharrería” funcione de la manera correcta. Actividades como balancear cargas, distribuir tareas por los nodos u optimizar consultas son las tareas de las que se encarga este profesional. Es necesario un perfil técnico con conocimientos e interés en la infraestructura, además de conocimientos de Hadoop.

chevron-down