Zum Hauptinhalt springen
Cloud / Google Cloud / Produkte / Dataproc Metastore - Verwalteter Hive Metastore

Dataproc Metastore - Verwalteter Hive Metastore

Dataproc Metastore ist ein vollständig verwalteter Hive Metastore Service für Metadatenverwaltung von Data-Lake-Workloads.

Data Analytics
Preismodell Bezahlung nach Nutzung
Verfügbarkeit Global mit EU-Regionen
Datensouveränität EU-Regionen verfügbar
Zuverlässigkeit 99,9% SLA

Was ist Dataproc Metastore?

Dataproc Metastore ist ein vollständig verwalteter, hochverfügbarer Hive Metastore Service von Google Cloud. Der Service fungiert als zentrales Metadaten-Repository für Data-Lake-Workloads und speichert Tabellendefinitionen, Schemata und Partitionsinformationen, auf die verschiedene Compute-Engines zugreifen.

Ohne verwalteten Metastore müssen Dataproc-Cluster eigene Metadaten-Datenbanken betreiben, die bei Cluster-Löschung verloren gehen. Dataproc Metastore entkoppelt die Metadaten vom Compute und ermöglicht so ephemere Cluster ohne Datenverlust.

Kernfunktionen

  • Verwalteter Hive Metastore: Vollständig verwalteter Service ohne Infrastrukturmanagement
  • Multi-Engine-Zugriff: Gemeinsame Metadaten für Spark, Presto, Hive und weitere Engines
  • Hochverfügbarkeit: Automatische Replikation und Failover
  • IAM-Integration: Feingranulare Zugriffssteuerung auf Metadaten

Typische Anwendungsfälle

Data-Lake-Architektur

In Data-Lake-Architekturen auf Cloud Storage dient Dataproc Metastore als zentrales Schema-Repository. Verschiedene Teams und Tools greifen auf die gleichen Tabellendefinitionen zu.

Ephemere Cluster-Workflows

Data-Engineering-Teams erstellen Dataproc-Cluster für einzelne Jobs und löschen sie danach. Der zentrale Metastore bewahrt die Tabellendefinitionen unabhängig vom Cluster-Lebenszyklus.

Vorteile

  • Keine Metastore-Infrastruktur zu verwalten
  • Metadaten überleben Cluster-Lebenszyklus
  • Konsistente Schemadefinitionen über Teams und Tools
  • Integration mit BigQuery für Lakehouse-Architekturen

Integration mit innFactory

Als Google Cloud Partner unterstützt innFactory Sie bei Dataproc Metastore: Data-Lake-Architektur, Metadatenmanagement und Lakehouse-Strategien.

Typische Anwendungsfälle

Data-Lake-Metadatenverwaltung
Hive Metastore als Service
Schemamanagement

Häufig gestellte Fragen

Was ist Dataproc Metastore?

Dataproc Metastore ist ein vollständig verwalteter Hive Metastore Service von Google Cloud. Er speichert und verwaltet Metadaten für Data-Lake-Workloads, sodass Spark, Presto und Hive auf gemeinsame Tabellendefinitionen zugreifen können.

Warum brauche ich einen zentralen Metastore?

Ohne zentralen Metastore muss jeder Dataproc-Cluster eigene Metadaten verwalten. Ein zentraler Metastore ermöglicht, dass mehrere Cluster und Services auf die gleichen Tabellendefinitionen zugreifen, was Konsistenz und Wiederverwendbarkeit verbessert.

Welche Tools arbeiten mit Dataproc Metastore?

Dataproc Metastore ist kompatibel mit Apache Spark, Presto, Apache Hive, Dataproc Serverless und weiteren Tools, die das Hive Metastore Interface nutzen.

Google Cloud Partner

innFactory ist zertifizierter Google Cloud Partner. Wir bieten Beratung, Implementierung und Managed Services.

Google Cloud Partner

Vergleichbare Produkte anderer Cloud-Anbieter

Als Multi-Cloud Partner helfen wir Ihnen, die richtige Plattform für Ihre spezifischen Anforderungen zu wählen.

Bereit, mit Dataproc Metastore - Verwalteter Hive Metastore zu starten?

Unsere zertifizierten Google Cloud Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren