Alta expectativa en calidad de datos con Great expectations
Information
¿Alguna vez te pasó que haciendo una ingesta modifican el formato del dato en el origen y te enteraste una vez que la ingesta estaba terminada?
Una de las principales problemáticas al momento de construir un datalake es como validar los datos que nos llegan desde todas las fuentes y formatos posibles. En este workshop te vamos a contar cómo configuramos y usamos Great Expectations para mejorar la calidad de nuestros datos. Te mostraremos cómo nos anticipamos a cambios en los orígenes en un caso de uso. También te vamos a mostrar cómo configurar esta poderosa herramienta de validación de datos y cómo la integramos con Spark.
Pre-requisitos
- python3.6 en adelante, pandas y great_expectations
Sobre Francisco Tomas Guerra
Ingeniero de datos. Llevo todo tipo de datos de una fuente X a una fuente Y. Me gusta y me asusta investigar que se está haciendo y que se puede hacer con todos nuestros datos.
Sobre Sergio Sulca
Ingeniero de datos y dataOps. Me encargo de soluciones de Big Data, procesos ETL/ELT y Monitoreo.