Apache Spark
es uno de los principales frameworks de procesamiento distribuido en Big Data, que proporciona una serie de plataformas interconectadas, estándares y sistemas para llevar a cabo proyectos de Big Data.

Al ser de código abierto, permite a cualquier usuario utilizar su código de manera libre para crear nuevas versiones destinadas a mejorarlo y a resolver los problemas que vayan surgiendo.

Delta Lake es una capa de almacenamiento open source que proporciona transacciones ACID a través de un control de concurrencia óptimo entre las escrituras y el aislamiento de snapshots para lecturas consistentes durante las escrituras.

Al añadir Delta Lake a Apache Spark, haremos este más productivo. Con Delta Lake tendremos más calidad en los datos, siendo un escenario perfecto para implementar un “Change Data Capture” (CDC).

El día 24 de marzo, Miguel Ángel Sotomayor impartirá el taller Spark y Delta Lake en Google Colab. La integración de múltiples fuentes nunca fue tan fácil.

Aprende en este taller los aspectos básicos de Spark y Delta Lake, con ejemplos sencillos en Google Colab.

Apúntate en:

🚨  Es aconsejable tener unos conocimientos básicos previos en Spark para que aproveches mejor la sesión.

Esta sesión será online: es un taller en directo.

No hace falta que conectes tu cámara.

Durante la charla podrás preguntar todas las dudas que tengas al profesor y las irá resolviendo. ¡Aprende con nosotros!

Al registrarte recibirás un enlace en tu email con el que podrás conectarte a la sesión.


Spark y Delta Lake en Google Colab. La integración de múltiples fuentes nunca fue tan fácil.

Ponente
Miguel Ángel Sotomayor
Big Data Engineer
Dirección evento
24/03/2021
18:30
Dirección evento
Online

Deja un comentario

Datahack logo