BIG DATA Y BILBAO. UNA HISTORIA DE AMOR

Un resumen de materiales expuestos en la Charla con profesionales del Big Data y Masterclass de Spark en Bilbao

Que el Big Data despierta el m谩ximo inter茅s en Bilbao ya lo sab铆amos. Por eso, no fue ninguna sorpresa encontrarnos el auditorio del Bilbao Berrikuntza Faktoria (BBF) lleno (隆gracias a todos!). Lourdes Hern谩ndez Vozmediano, nuestra CEO, present贸 el evento dando unas pinceladas de qu茅 es datahack, escuela de formaci贸n pr谩ctica en Big Data & Analytics, con divisi贸n de consultor铆a e i+d.

Habl贸 de proyectos propios en el que el uso de inteligencia artificial se pone a disposici贸n de la detecci贸n y tratamiento de enfermedades degenerativas. Tambi茅n de nuestra comunidad de conocimiento, desde la que organizamos eventos como este para dar a conocer todos los temas innovadores que estamos desarrollando en nuestras sedes de Madrid, Barcelona, Sevilla y Bilbao.

Particularmente aqu铆, donde la historia ha sido de ida y vuelta: tras una primera edici贸n en 2017 del master Big Data & Analytics (la ida), los dos socios tuvieron unas oportunidades laborales geniales que les llevaron a no poder seguir con el proyecto. Ahora, estamos de vuelta con energ铆as renovadas y proyectos bajo el brazo con clientes como el Banco de Santander, Cruz Roja, Mango o el Ayuntamiento de Barcelona.

Masterclass de Spark

脕ngel Conde Manj贸n, primera de las dos estrellas invitadas (@Neuw84m), es el l铆der del equipo de Data Analytics e Inteligencia Artificial en Ikerlan (@IK4_IKERLAN). Es, adem谩s, profesor en Datahack de los m贸dulos de Kafka y Spark

En la introducci贸n nos comenta las posibilidades que ofrece Spark: anal铆ticas Big Data en memora, soporte SQL, aprendizaje autom谩tico, procesamiento en tiempo real, Grafos y APIs para trabajar en Scala, Java, Python y R.

Nos cont贸 la historia de Spark desde el paper de Google MapReduce en 2002, pasando por el Spark paper en 2019 en Bercley hasta 2014 cuando apareci贸 el Spark Top-level.

Luego nos mostr贸 una comparativa con otras herramientas como MapReduce, Hadoop, Storm o Flink, con las distintas funcionalidades, como Optimizaci贸n, procesamiento Batch, Streaming, integraci贸n, etc. Con esto, mostr贸 que Spark es la m谩s completa de todas, y que sin duda es el presente y futuro en el 谩rea de Big Data.

big data y bilbao

En temas de arquitectura, destac贸 el uso de Mesos y Kubernetes como una posibilidad real para la mejora en la implantaci贸n de los proyectos.

El futuro de Spark se basa en el est谩ndar en anal铆ticas Barch, sus mejoras en streaming (aunque flink es m谩s fuerte), la mayor integraci贸n con Tensor Flow y la integraci贸n con nuevos sistemas de ficheros (Ozone).

Spark en la pr谩ctica

Tras la introducci贸n hizo una demo muy interesante de un ejercicio sencillo de machine learning, con un cuaderno de Jupyter, ejecutado sobre una m谩quina virtual en Colab contra un cl煤ster de Google.聽

Nos mostr贸 c贸mo sencillamente un algoritmo calculaba el valor de Pi: en 100.000 iteraciones daba un valor aproximado de 3.1426, aunque se tomaba su tiempo. Si iteraba solo con 100 era casi inmediato, pero el valor aproximado era 3.71. Tambi茅n realiz贸 algunos pasos de c贸mo crear y leer una tabla de valores.

Para los curiosos, ten茅is el notebook en el siguiente enlace. 隆Os animo a probarlo!

Finanzas y Spark: casos de uso en BBVA

Pedro G贸mez tom贸 el testigo a continuaci贸n. Pedro es Data Scientist Manager en BBVA. Nos coment贸 c贸mo ha ido evolucionando el uso de los datos en el banco para convertirse en una empresa data driven y generar valor desde los datos.

El punto de partida era una infraestructura en una base de datos relacional. Desde ah铆, migraron a una arquitectura Big Data basada 100% en tecnolog铆as open source. De datos y herramientas propietarias pasaron al uso de R, Python, Jupyter y Spark, que es el principal motor de computaci贸n.

A continuaci贸n coment贸 las disciplinas que existen en un banco, como inteligencia comercial (todo el tratamiento de los clientes), fraude y riesgos, eficiencia operativa y una 煤ltima de creciente creaci贸n que es el 谩rea de monetizaci贸n de datos.

Destaca el 谩rea de fraude en tarjetas, con datos muestrales muy desbalanceados, para el que utilizan Spark y Big DL, el proyecto piloto de biometr铆a de reconocimiento facial para pagos con tarjeta. Tambi茅n los modelos de propensi贸n utilizando grafos y marketing social, modelos de abandono mediante im谩genes de clientes, e incluso la app de BBVA, en el apartado de Planificaci贸n Financiera, que permite predecir los ingresos y gastos de un cliente, e incluso el grado de confianza de dicha predicci贸n.

Sabemos que esto no es como haber estado all铆. Por eso os esperamos en nuestro pr贸ximo encuentro. Aqu铆 puedes ver nuestra agenda, da igual cuando leas esto.

M脕STER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendr谩s amplios conocimientos sobre las herramientas y t茅cnicas anal铆ticas necesarias para la modelizaci贸n de los principales retos de negocio, con el fin de mejorar la toma de decisiones a trav茅s de los datos y el conocimiento.


Marcelo Molina, Big Data & Analytics Director

Deja un comentario

Datahack logo