Unified Metadata-Management für Data Discovery und Data Governance auf Google Cloud. Automatische Erkennung, Klassifizierung und Verwaltung von Datenbeständen.
Was ist Dataplex Universal Catalog?
Dataplex Universal Catalog (ehemals Data Catalog) ist Googles zentraler Metadata-Management-Service, der Unternehmen hilft, ihre wachsenden Datenbestände zu verstehen, zu organisieren und zu verwalten. In einer Zeit, in der Unternehmen Daten über Dutzende von Systemen verteilt speichern, wird es zunehmend schwierig, den Überblick zu behalten, welche Daten wo liegen und wer Zugriff darauf hat.
Der Service crawlt automatisch Google Cloud-Datenquellen wie BigQuery, Cloud Storage und Pub/Sub, extrahiert technische Metadaten und macht sie durchsuchbar. Teams können zusätzlich Business-Metadaten als Tags hinzufügen, um fachliche Kontexte zu erfassen. Dies schließt die Lücke zwischen technischen Daten-Assets und Business-Verständnis.
Data Catalog ist mehr als ein reines Such-Tool. Der Service ermöglicht Data Governance durch Policy Tags, die Zugriffs-Policies auf Spaltenebene durchsetzen. Data Lineage zeigt, wie Daten durch Transformationen fließen. Sensitive Data Protection Integration identifiziert automatisch personenbezogene Daten. Diese Funktionen machen Data Catalog zum Rückgrat moderner Data-Governance-Strategien.
Typische Anwendungsfälle
Data Discovery und Katalogisierung
Für Organisationen mit Hunderten von BigQuery-Datasets und Cloud Storage-Buckets ist die manuelle Verwaltung von Metadaten nicht mehr praktikabel. Data Catalog crawlt automatisch alle Datenquellen, erfasst Schema-Informationen und macht sie über eine zentrale Suche auffindbar. Data Analysts können schnell relevante Datasets finden, ohne zu wissen, in welchem Projekt oder welcher Region sie gespeichert sind.
Metadata Management
Technische Metadaten allein reichen oft nicht aus. Data Catalog ermöglicht es, Business-Metadaten als Tags zu hinterlegen: Wer ist der Data Owner? Welche Aktualisierungsfrequenz hat das Dataset? Welche Business-Prozesse nutzen diese Daten? Diese Informationen können strukturiert erfasst und in der Suche berücksichtigt werden.
Data Lineage Tracking
Data Lineage zeigt visuell, wie Daten durch BigQuery-Pipelines fließen. Welche Tabellen sind Quellen? Welche Transformationen werden angewendet? Welche Downstream-Systeme konsumieren die Daten? Diese Transparenz ist essentiell für Impact-Analysen: Wenn sich ein Quell-Schema ändert, welche Systeme sind betroffen?
Data Governance und Compliance
Policy Tags ermöglichen es, Datenschutz-Policies zentral zu definieren und automatisch durchzusetzen. Eine Policy wie “PII-Daten nur für DSGVO-Beauftragte sichtbar” kann auf Spaltenebene in BigQuery angewendet werden. Data Catalog stellt sicher, dass diese Policies konsistent über alle Datasets hinweg gelten.
Sensitive Data Identification
Integration mit Sensitive Data Protection (ehemals DLP API) ermöglicht es, automatisch personenbezogene Daten, Kreditkartennummern oder andere sensitive Informationen zu identifizieren. Diese Erkennungen können als Tags hinterlegt und in Zugriffs-Policies berücksichtigt werden.
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei der Implementierung von Data Catalog als zentrales Element Ihrer Data-Governance-Strategie. Wir helfen bei der Definition von Tagging-Strategien, Integration mit bestehenden Systemen und Automatisierung von Metadaten-Management-Prozessen.
Unsere Expertise umfasst die Konzeption von Policy-Tag-Hierarchien für DSGVO-Compliance, Entwicklung von Custom Entry-Integrationen für externe Datenquellen und Aufbau von Data Lineage-Pipelines für End-to-End-Transparenz.
Kontaktieren Sie uns für eine Beratung zu Data Catalog und Data Governance auf Google Cloud.
Verfügbare Varianten & Optionen
Standard
- Vollständig verwaltet
- Automatische Metadaten-Erkennung
- Integriert mit BigQuery, Cloud Storage, Pub/Sub
- Tagging und Klassifizierung
- Preise variieren nach Nutzung
- Begrenzte Anpassungsmöglichkeiten für Metadaten-Schemas
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Was ist Data Catalog?
Data Catalog ist ein vollständig verwalteter Metadata-Management-Service, der automatisch Metadaten aus Google Cloud-Datenquellen erfasst, organisiert und durchsuchbar macht. Der Service unterstützt Data Discovery, Governance und Compliance durch zentrale Katalogisierung aller Datenbestände.
Welche Datenquellen unterstützt Data Catalog?
Data Catalog unterstützt nativ BigQuery, Cloud Storage, Pub/Sub, Cloud SQL, Cloud Spanner und weitere Google Cloud-Services. Über Custom Entries können auch externe Datenquellen wie On-Premises-Datenbanken oder andere Cloud-Plattformen integriert werden.
Wie funktioniert die automatische Metadaten-Erkennung?
Data Catalog crawlt automatisch unterstützte Google Cloud-Datenquellen und extrahiert technische Metadaten wie Schema-Informationen, Tabellennamen und Spaltentypen. Zusätzlich können Business-Metadaten manuell als Tags hinzugefügt werden, um fachliche Kontexte zu erfassen.
Was sind Policy Tags und wie werden sie verwendet?
Policy Tags sind spezielle Tags, die mit IAM-Policies verknüpft werden können, um den Zugriff auf sensitive Daten zu steuern. Sie ermöglichen es, Datenschutz-Policies zentral zu definieren und automatisch auf Spaltenebene in BigQuery durchzusetzen. Dies ist besonders relevant für DSGVO-Compliance.
Kann Data Catalog Data Lineage tracken?
Ja, Data Catalog bietet Data Lineage-Funktionen, die zeigen, wie Daten durch verschiedene Transformationen und Systeme fließen. Dies ist besonders nützlich für Impact-Analysen, Fehlersuche und Compliance-Nachweise. Lineage wird automatisch für BigQuery-Pipelines erfasst.
Wie wird Data Catalog abgerechnet?
Data Catalog nutzt Pay-per-use-Preise basierend auf der Anzahl der gespeicherten Metadaten-Einträge und API-Aufrufe. Automatisch erkannte Metadaten aus BigQuery und anderen Google Cloud-Services sind kostenlos. Nur Custom Entries und zusätzliche Tags werden berechnet.
Ist Data Catalog DSGVO-konform?
Ja, Data Catalog ist in EU-Regionen verfügbar und erfüllt alle DSGVO-Anforderungen. Durch Policy Tags und zentrale Metadaten-Verwaltung unterstützt der Service aktiv bei der Einhaltung von Datenschutz-Vorschriften, indem sensitive Daten identifiziert und geschützt werden können.
Welche Suchfunktionen bietet Data Catalog?
Data Catalog bietet eine leistungsstarke Volltextsuche über alle Metadaten, einschließlich Tabellennamen, Spaltennamen, Beschreibungen und Tags. Die Suche unterstützt Wildcards, Boolean-Operatoren und kann nach Tags, Datentypen oder Datenquellen gefiltert werden.
