Was ist Dataproc Metastore?
Dataproc Metastore ist ein vollständig verwalteter, hochverfügbarer Hive Metastore Service von Google Cloud. Der Service fungiert als zentrales Metadaten-Repository für Data-Lake-Workloads und speichert Tabellendefinitionen, Schemata und Partitionsinformationen, auf die verschiedene Compute-Engines zugreifen.
Ohne verwalteten Metastore müssen Dataproc-Cluster eigene Metadaten-Datenbanken betreiben, die bei Cluster-Löschung verloren gehen. Dataproc Metastore entkoppelt die Metadaten vom Compute und ermöglicht so ephemere Cluster ohne Datenverlust.
Kernfunktionen
- Verwalteter Hive Metastore: Vollständig verwalteter Service ohne Infrastrukturmanagement
- Multi-Engine-Zugriff: Gemeinsame Metadaten für Spark, Presto, Hive und weitere Engines
- Hochverfügbarkeit: Automatische Replikation und Failover
- IAM-Integration: Feingranulare Zugriffssteuerung auf Metadaten
Typische Anwendungsfälle
Data-Lake-Architektur
In Data-Lake-Architekturen auf Cloud Storage dient Dataproc Metastore als zentrales Schema-Repository. Verschiedene Teams und Tools greifen auf die gleichen Tabellendefinitionen zu.
Ephemere Cluster-Workflows
Data-Engineering-Teams erstellen Dataproc-Cluster für einzelne Jobs und löschen sie danach. Der zentrale Metastore bewahrt die Tabellendefinitionen unabhängig vom Cluster-Lebenszyklus.
Vorteile
- Keine Metastore-Infrastruktur zu verwalten
- Metadaten überleben Cluster-Lebenszyklus
- Konsistente Schemadefinitionen über Teams und Tools
- Integration mit BigQuery für Lakehouse-Architekturen
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei Dataproc Metastore: Data-Lake-Architektur, Metadatenmanagement und Lakehouse-Strategien.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Dataproc Metastore?
Dataproc Metastore ist ein vollständig verwalteter Hive Metastore Service von Google Cloud. Er speichert und verwaltet Metadaten für Data-Lake-Workloads, sodass Spark, Presto und Hive auf gemeinsame Tabellendefinitionen zugreifen können.
Warum brauche ich einen zentralen Metastore?
Ohne zentralen Metastore muss jeder Dataproc-Cluster eigene Metadaten verwalten. Ein zentraler Metastore ermöglicht, dass mehrere Cluster und Services auf die gleichen Tabellendefinitionen zugreifen, was Konsistenz und Wiederverwendbarkeit verbessert.
Welche Tools arbeiten mit Dataproc Metastore?
Dataproc Metastore ist kompatibel mit Apache Spark, Presto, Apache Hive, Dataproc Serverless und weiteren Tools, die das Hive Metastore Interface nutzen.
