Zum Hauptinhalt springen
Cloud / Google Cloud / Produkte / Dataplex - Unified Data Governance und Management

Dataplex - Unified Data Governance und Management

Dataplex organisiert verteilte Daten in logische Lakes ohne Datenbewegung. Automatische Metadaten, Datenqualität und zentrale Governance.

Data Analytics
Preismodell Pay-per-use (CU-Stunden)
Verfügbarkeit Global mit EU-Regionen
Datensouveränität EU-Regionen verfügbar
Zuverlässigkeit 99.9% Verfügbarkeit SLA

Dataplex organisiert verteilte Daten in logische Data Lakes ohne Datenbewegung. Zentrale Governance, automatische Metadaten und Datenqualitäts-Monitoring.

Was ist Dataplex?

Dataplex ist ein Data Fabric, das Daten über Cloud Storage und BigQuery hinweg in logische Strukturen organisiert. Statt Daten in einen zentralen Data Lake zu kopieren, erstellt Dataplex virtuelle Views über verteilte Datenquellen.

Der Service bietet automatische Metadaten-Discovery, Datenqualitäts-Prüfungen und zentrale Governance-Policies.

Konzepte

Lake

Logischer Container für zusammengehörige Daten. Typisch pro Geschäftsbereich oder Projekt.

Zone

Gruppierung nach Verarbeitungsgrad:

  • Raw Zone: Rohdaten ohne Transformation
  • Curated Zone: Bereinigte, strukturierte Daten

Asset

Die tatsächlichen Daten: Cloud Storage Buckets oder BigQuery Datasets. Assets werden Zones zugeordnet.

Lake: Customer Analytics
├── Zone: Raw
│   ├── Asset: gs://raw-events (Cloud Storage)
│   └── Asset: gs://raw-transactions
└── Zone: Curated
    ├── Asset: bq://project.curated.events (BigQuery)
    └── Asset: bq://project.curated.customers

Kernfunktionen

  • Virtuelle Organisation: Daten bleiben wo sie sind
  • Auto Discovery: Schema und Statistiken automatisch erfasst
  • Data Quality: Regeln definieren und automatisch prüfen
  • Zentrale Policies: IAM-Policies auf Lake-Ebene
  • Data Catalog Integration: Alle Metadaten durchsuchbar

Typische Anwendungsfälle

Data Lake Management

Organisieren Sie Hunderte von Storage Buckets und BigQuery Datasets in logische Lakes. Teams finden Daten ohne zu wissen, wo sie physisch liegen.

Datenqualitäts-Monitoring

Definieren Sie Qualitätsregeln (keine Nullwerte in Schlüsselfeldern, gültige Datumsformate) und prüfen Sie automatisch nach Schedule. Alerts bei Verstößen.

Cross-Team Governance

Zentrale Policies für Datenzugang über mehrere Teams. Data Owners definieren, wer auf welche Zones zugreifen darf.

Automatische Dokumentation

Dataplex erfasst automatisch Schemas, Statistiken und Samples. Teams verstehen Daten ohne manuelle Dokumentation.

Dataplex vs. Data Catalog

FeatureDataplexData Catalog
Metadaten-SucheJa (via Data Catalog)Ja
DatenorganisationLakes, Zones, AssetsNein
DatenqualitätJaNein
PoliciesLake-LevelTag-basiert
DiscoveryAutomatischAutomatisch

Vorteile

  • Kein Datenkopieren: Virtuelle Organisation
  • Automatisch: Discovery und Profiling ohne manuellen Aufwand
  • Unified: Eine Sicht auf Cloud Storage und BigQuery
  • Governance: Zentrale Policies und Datenqualität

Integration mit innFactory

Als Google Cloud Partner unterstützt innFactory Sie bei Dataplex: Data Lake Design, Datenqualitäts-Strategien und Governance-Framework-Implementation.

Typische Anwendungsfälle

Data Lake Management
Datenqualitäts-Monitoring
Zentrale Governance über Teams
Automatische Metadaten-Discovery

Technische Spezifikationen

Components Lakes, Zones, Assets
Discovery Automatische Schema-Erkennung
Quality Auto Data Quality Rules
Sources Cloud Storage, BigQuery

Häufig gestellte Fragen

Was ist Dataplex?

Dataplex ist ein Data Fabric Service, der verteilte Daten in logische Lakes organisiert ohne sie zu verschieben. Er bietet zentrale Governance, automatische Metadaten-Discovery und Datenqualitäts-Checks über Cloud Storage und BigQuery hinweg.

Was ist der Unterschied zwischen Dataplex und Data Catalog?

Data Catalog ist für Metadaten-Suche und Tagging. Dataplex geht weiter und organisiert Daten in Lakes/Zones, bietet Datenqualitäts-Checks und ermöglicht zentrale Policies. Dataplex nutzt Data Catalog für die Metadaten-Schicht.

Was sind Lakes, Zones und Assets in Dataplex?

Ein Lake ist ein logischer Container für zusammengehörige Daten (z.B. pro Geschäftsbereich). Zones gruppieren Assets nach Verarbeitungsgrad (Raw, Curated). Assets sind die tatsächlichen Daten in Cloud Storage Buckets oder BigQuery Datasets.

Wie funktioniert Datenqualität in Dataplex?

Dataplex Data Quality definiert Regeln (Nullwerte, Formate, Ranges, Uniqueness) und prüft sie automatisch nach Schedule. Ergebnisse erscheinen in Data Catalog und können Alerts triggern. Auto Data Quality schlägt Regeln basierend auf Profiling vor.

Was kostet Dataplex?

Dataplex berechnet nach Compute Units (CU) für Discovery, Quality Scans und Processing. Discovery ist relativ günstig, Quality Scans auf großen Datasets können teurer werden. Die ersten 30 Tage pro Lake sind kostenlos.

Google Cloud Partner

innFactory ist zertifizierter Google Cloud Partner. Wir bieten Beratung, Implementierung und Managed Services.

Google Cloud Partner

Ähnliche Produkte anderer Cloud-Anbieter

Andere Cloud-Anbieter bieten vergleichbare Services in dieser Kategorie. Als Multi-Cloud Partner helfen wir bei der richtigen Wahl.

27 vergleichbare Produkte bei anderen Cloud-Anbietern gefunden.

Bereit, mit Dataplex - Unified Data Governance und Management zu starten?

Unsere zertifizierten Google Cloud Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren