Dataplex organisiert verteilte Daten in logische Data Lakes ohne Datenbewegung. Zentrale Governance, automatische Metadaten und Datenqualitäts-Monitoring.
Was ist Dataplex?
Dataplex ist ein Data Fabric, das Daten über Cloud Storage und BigQuery hinweg in logische Strukturen organisiert. Statt Daten in einen zentralen Data Lake zu kopieren, erstellt Dataplex virtuelle Views über verteilte Datenquellen.
Der Service bietet automatische Metadaten-Discovery, Datenqualitäts-Prüfungen und zentrale Governance-Policies.
Konzepte
Lake
Logischer Container für zusammengehörige Daten. Typisch pro Geschäftsbereich oder Projekt.
Zone
Gruppierung nach Verarbeitungsgrad:
- Raw Zone: Rohdaten ohne Transformation
- Curated Zone: Bereinigte, strukturierte Daten
Asset
Die tatsächlichen Daten: Cloud Storage Buckets oder BigQuery Datasets. Assets werden Zones zugeordnet.
Lake: Customer Analytics
├── Zone: Raw
│ ├── Asset: gs://raw-events (Cloud Storage)
│ └── Asset: gs://raw-transactions
└── Zone: Curated
├── Asset: bq://project.curated.events (BigQuery)
└── Asset: bq://project.curated.customersKernfunktionen
- Virtuelle Organisation: Daten bleiben wo sie sind
- Auto Discovery: Schema und Statistiken automatisch erfasst
- Data Quality: Regeln definieren und automatisch prüfen
- Zentrale Policies: IAM-Policies auf Lake-Ebene
- Data Catalog Integration: Alle Metadaten durchsuchbar
Typische Anwendungsfälle
Data Lake Management
Organisieren Sie Hunderte von Storage Buckets und BigQuery Datasets in logische Lakes. Teams finden Daten ohne zu wissen, wo sie physisch liegen.
Datenqualitäts-Monitoring
Definieren Sie Qualitätsregeln (keine Nullwerte in Schlüsselfeldern, gültige Datumsformate) und prüfen Sie automatisch nach Schedule. Alerts bei Verstößen.
Cross-Team Governance
Zentrale Policies für Datenzugang über mehrere Teams. Data Owners definieren, wer auf welche Zones zugreifen darf.
Automatische Dokumentation
Dataplex erfasst automatisch Schemas, Statistiken und Samples. Teams verstehen Daten ohne manuelle Dokumentation.
Dataplex vs. Data Catalog
| Feature | Dataplex | Data Catalog |
|---|---|---|
| Metadaten-Suche | Ja (via Data Catalog) | Ja |
| Datenorganisation | Lakes, Zones, Assets | Nein |
| Datenqualität | Ja | Nein |
| Policies | Lake-Level | Tag-basiert |
| Discovery | Automatisch | Automatisch |
Vorteile
- Kein Datenkopieren: Virtuelle Organisation
- Automatisch: Discovery und Profiling ohne manuellen Aufwand
- Unified: Eine Sicht auf Cloud Storage und BigQuery
- Governance: Zentrale Policies und Datenqualität
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei Dataplex: Data Lake Design, Datenqualitäts-Strategien und Governance-Framework-Implementation.
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Was ist Dataplex?
Dataplex ist ein Data Fabric Service, der verteilte Daten in logische Lakes organisiert ohne sie zu verschieben. Er bietet zentrale Governance, automatische Metadaten-Discovery und Datenqualitäts-Checks über Cloud Storage und BigQuery hinweg.
Was ist der Unterschied zwischen Dataplex und Data Catalog?
Data Catalog ist für Metadaten-Suche und Tagging. Dataplex geht weiter und organisiert Daten in Lakes/Zones, bietet Datenqualitäts-Checks und ermöglicht zentrale Policies. Dataplex nutzt Data Catalog für die Metadaten-Schicht.
Was sind Lakes, Zones und Assets in Dataplex?
Ein Lake ist ein logischer Container für zusammengehörige Daten (z.B. pro Geschäftsbereich). Zones gruppieren Assets nach Verarbeitungsgrad (Raw, Curated). Assets sind die tatsächlichen Daten in Cloud Storage Buckets oder BigQuery Datasets.
Wie funktioniert Datenqualität in Dataplex?
Dataplex Data Quality definiert Regeln (Nullwerte, Formate, Ranges, Uniqueness) und prüft sie automatisch nach Schedule. Ergebnisse erscheinen in Data Catalog und können Alerts triggern. Auto Data Quality schlägt Regeln basierend auf Profiling vor.
Was kostet Dataplex?
Dataplex berechnet nach Compute Units (CU) für Discovery, Quality Scans und Processing. Discovery ist relativ günstig, Quality Scans auf großen Datasets können teurer werden. Die ersten 30 Tage pro Lake sind kostenlos.
