Big Data y Bilbao, una historia de amor

big data y bilbao - una historia de amor

Un resumen de materiales expuestos en la Charla con profesionales del Big Data y Masterclass de Spark en Bilbao

Que el Big Data despierta el máximo interés en Bilbao ya lo sabíamos. Por eso, no fue ninguna sorpresa encontrarnos el auditorio del Bilbao Berrikuntza Faktoria (BBF) lleno (¡gracias a todos!). Lourdes Hernández Vozmediano, nuestra CEO, presentó el evento dando unas pinceladas de qué es datahack, escuela de formación práctica en Big Data & Analytics, con división de consultoría e i+d.

Habló de proyectos propios en el que el uso de inteligencia artificial se pone a disposición de la detección y tratamiento de enfermedades degenerativas. También de nuestra comunidad de conocimiento, desde la que organizamos eventos como este para dar a conocer todos los temas innovadores que estamos desarrollando en nuestras sedes de Madrid, Barcelona, Sevilla y Bilbao.

Particularmente aquí, donde la historia ha sido de ida y vuelta: tras una primera edición en 2017 del master Big Data & Analytics (la ida), los dos socios tuvieron unas oportunidades laborales geniales que les llevaron a no poder seguir con el proyecto. Ahora, estamos de vuelta con energías renovadas y proyectos bajo el brazo con clientes como el Banco de Santander, Cruz Roja, Mango o el Ayuntamiento de Barcelona.

Masterclass de Spark

Ángel Conde Manjón, primera de las dos estrellas invitadas (@Neuw84m), es el líder del equipo de Data Analytics e Inteligencia Artificial en Ikerlan (@IK4_IKERLAN). Es, además, profesor en Datahack de los módulos de Kafka y Spark

En la introducción nos comenta las posibilidades que ofrece Spark: analíticas Big Data en memora, soporte SQL, aprendizaje automático, procesamiento en tiempo real, Grafos y APIs para trabajar en Scala, Java, Python y R.

Nos contó la historia de Spark desde el paper de Google MapReduce en 2002, pasando por el Spark paper en 2019 en Bercley hasta 2014 cuando apareció el Spark Top-level.

Luego nos mostró una comparativa con otras herramientas como MapReduce, Hadoop, Storm o Flink, con las distintas funcionalidades, como Optimización, procesamiento Batch, Streaming, integración, etc. Con esto, mostró que Spark es la más completa de todas, y que sin duda es el presente y futuro en el área de Big Data.

big data y bilbao

En temas de arquitectura, destacó el uso de Mesos y Kubernetes como una posibilidad real para la mejora en la implantación de los proyectos.

El futuro de Spark se basa en el estándar en analíticas Barch, sus mejoras en streaming (aunque flink es más fuerte), la mayor integración con Tensor Flow y la integración con nuevos sistemas de ficheros (Ozone).

Spark en la práctica

Tras la introducción hizo una demo muy interesante de un ejercicio sencillo de machine learning, con un cuaderno de Jupyter, ejecutado sobre una máquina virtual en Colab contra un clúster de Google. 

Nos mostró cómo sencillamente un algoritmo calculaba el valor de Pi: en 100.000 iteraciones daba un valor aproximado de 3.1426, aunque se tomaba su tiempo. Si iteraba solo con 100 era casi inmediato, pero el valor aproximado era 3.71. También realizó algunos pasos de cómo crear y leer una tabla de valores.

Para los curiosos, tenéis el notebook en el siguiente enlace. ¡Os animo a probarlo!

Finanzas y Spark: casos de uso en BBVA

Pedro Gómez tomó el testigo a continuación. Pedro es Data Scientist Manager en BBVA. Nos comentó cómo ha ido evolucionando el uso de los datos en el banco para convertirse en una empresa data driven y generar valor desde los datos.

El punto de partida era una infraestructura en una base de datos relacional. Desde ahí, migraron a una arquitectura Big Data basada 100% en tecnologías open source. De datos y herramientas propietarias pasaron al uso de R, Python, Jupyter y Spark, que es el principal motor de computación.

A continuación comentó las disciplinas que existen en un banco, como inteligencia comercial (todo el tratamiento de los clientes), fraude y riesgos, eficiencia operativa y una última de creciente creación que es el área de monetización de datos.

Destaca el área de fraude en tarjetas, con datos muestrales muy desbalanceados, para el que utilizan Spark y Big DL, el proyecto piloto de biometría de reconocimiento facial para pagos con tarjeta. También los modelos de propensión utilizando grafos y marketing social, modelos de abandono mediante imágenes de clientes, e incluso la app de BBVA, en el apartado de Planificación Financiera, que permite predecir los ingresos y gastos de un cliente, e incluso el grado de confianza de dicha predicción.

Sabemos que esto no es como haber estado allí. Por eso os esperamos en nuestro próximo encuentro. Aquí puedes ver nuestra agenda, da igual cuando leas esto.


Marcelo Molina, Big Data & Analytics Director

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *