Was ist Dataform?
Dataform ist ein vollständig verwalteter Service von Google Cloud für SQL-basierte Datentransformation in BigQuery. Der Service ermöglicht Data-Teams, Transformationspipelines als Code zu definieren, mit Abhängigkeitsmanagement, automatisierten Tests und Git-basierter Versionierung.
Dataform nutzt SQLX, eine erweiterte SQL-Syntax, die Referenzen zwischen Tabellen, Assertions und JavaScript-Templating unterstützt. Dies macht Data-Warehouse-Pipelines wartbarer und testbarer als lose Sammlungen von SQL-Skripten.
Kernfunktionen
- SQLX-Workflows: Erweiterte SQL-Syntax mit Abhängigkeiten, Referenzen und Makros
- Abhängigkeitsmanagement: Automatische Ausführungsreihenfolge basierend auf Tabellenabhängigkeiten
- Assertions und Tests: Automatisierte Datenqualitätsprüfungen als Teil der Pipeline
- Git-Integration: Versionierung und Code-Review für Transformationslogik
Typische Anwendungsfälle
Data-Warehouse-Modellierung
Data-Teams nutzen Dataform, um Rohdaten in BigQuery in strukturierte, analysierbare Modelle zu transformieren. Staging-, Zwischen- und Mart-Tabellen werden als SQLX-Dateien definiert und automatisch in der richtigen Reihenfolge ausgeführt.
ELT-Pipelines
In ELT-Architekturen übernimmt Dataform den Transformationsschritt nach dem Laden der Rohdaten in BigQuery. Regelmäßige Ausführungen stellen sicher, dass Analysetabellen aktuell bleiben.
Vorteile
- Nativ in BigQuery und Google Cloud integriert
- Verwaltete Ausführungsumgebung ohne eigene Infrastruktur
- Bessere Code-Qualität durch Tests und Code-Review
- Kostenlos (nur BigQuery-Verarbeitungskosten)
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei Dataform: Data-Warehouse-Architektur, SQLX-Pipeline-Entwicklung und Best Practices für Datentransformation.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Dataform?
Dataform ist ein verwalteter Service von Google Cloud für SQL-basierte Datentransformation in BigQuery. Es ermöglicht die Definition von Transformationspipelines als SQLX-Code mit Abhängigkeitsmanagement, Tests und Versionierung.
Was ist SQLX?
SQLX ist eine Erweiterung von SQL, die Dataform nutzt. Sie fügt Features wie Referenzen zwischen Tabellen, Assertions (Tests), JavaScript-Templating und wiederverwendbare Makros hinzu.
Wie unterscheidet sich Dataform von dbt?
Dataform und dbt verfolgen ähnliche Konzepte. Dataform ist nativ in Google Cloud und BigQuery integriert mit einer verwalteten Ausführungsumgebung. dbt bietet eine breitere Datenbank-Unterstützung.
