Data Engineering with Azure Databricks
Omschrijving
In de training "Data Engineering with Azure Databricks" gaan we twee dagen lang aan de slag met Databricks om een Data Lakehouse te bouwen. Het hele spectrum komt hierin voorbij: architectuur en ontwerp, inrichting van Databricks, Implementatie van transformaties, orchestratie van je taken, versiebeheer en alles wat er meer nodig is voor je Data Lakehouse. Aan het eind van de training ben je in staat om zelfstandig een Data Lakehouse op te zetten binnen Databricks.
Deze training is primair gericht op Data Engineers en Data Warehouse-ontwikkelaars of -beheerders die ervaring hebben met Data Warehousing of andere vormen van (batch) data processing. Deelnemers weten dat zij zich meer willen verdiepen in Databricks en het bouwen van een Data Lakehouse. De meeste deelnemers hebben al wel enige ervaring met cloudomgevingen, maar het is niet verplicht: ook wanneer je bijvoorbeeld van een on-premises Data Warehouse de stap aan het maken bent naar een Data Lakehouse sluit deze training goed aan.
Na afloop van deze training:
- Weet je hoe de architectuur van een Data Lakehouse eruit ziet en werkt
- Snap je de principes van Databricks, Data Lakehouses en Delta Lake
- Kun je Databricks zelfstandig inrichten t.b.v. een Data Lakehouse
- Begrijp je hoe Delta Lake Storage werkt en hoe het een Data Lakehouse mogelijk maakt
- Kun je bestanden in je Data Lake beheren met behulp van Databricks
- Kun je orchestratie binnen Databricks doen met behulp van jobs
- Weet je welke lagen er in een Data Lakehouse bestaan en hoe je data uit jouw praktijk hier kunt laten landen
- Kun je transformatie en integratie op de data doen in Databricks met behulp van PySpark en SparkSQL
- Weet je hoe om te gaan met schema's en schema evolutie
Voorkennis om de training Azure DevOps voor Data Engineers te volgen
Om deel te nemen aan deze training is het belangrijk dat je voorkennis hebt over de volgende onderwerpen:
- Basiskennis van SQL:
- Query-concepten (SELECT, WHERE, GROUP BY, ORDER BY, LIMIT en JOIN)
- DDL (CREATE, ALTER, DROP van tabellen en databases)
- DML (DELETE, INSERT, UPDATE, MERGE)
- Kennis van Data Engineering in de cloud (VM's, storage accounts, AD-accounts, etc.)
- Basiskennis van Python (modules, data inlezen, eenvoudige bewerkingen)
Onderwerpen
- Data Lakes en Data Warehouses
- Delta Lake
- ETL met Spark SQL
- Python en Spark SQL
- Incrementele dataverwerking met Structured Streaming en Auto Loader
- Data Lakehouse architectuur: de "medallions" (gold, silver, bronze)
- Delta Live Tables
- Orchestratie met Jobs
- Databricks SQL
- Rechtenbeheer
- Dashboards en queries in productie brengen
- Dbfs: het DataBricks File System
- Beheren van je Data Lake vanuit Databricks
- Data transformeren in een Data Lakehouse met behulp van PySpark
- Databricks tables: managed en unmanaged
- Hive Metastore
- Versiebeheer in Databricks
- Time travel
- Schema enforcement
- Schema evolution
Studiemateriaal
In de training "Data Engineering with Azure Databricks" werken we met officieel Databricks materiaal. Wij zorgen ervoor dat je al het benodigde materiaal op tijd ontvangt.
Beschikbare datums
Titel | Datum |
---|---|
Data Engineering with Azure Databricks Dag 1 | |
Data Engineering with Azure Databricks Dag 2 |
Titel | Datum |
---|---|
Data Engineering with Azure Databricks (English) (EN) day 1 | |
Data Engineering with Azure Databricks (English) (EN) day 2 |