Google Cloud Datastream ermöglicht serverlose Echtzeit-Datenreplikation von Datenbanken zu analytischen Systemen.
Was ist Datastream?
Datastream ist ein serverloser Change Data Capture (CDC) und Replikationsservice. Er erfasst Datenbankänderungen in Echtzeit und streamt diese zu BigQuery, Cloud Storage oder anderen Zielen. Der Service erfordert keine Infrastrukturverwaltung und skaliert automatisch mit dem Datenvolumen.
Kernfunktionen
- Serverless CDC: Automatische Erfassung von Datenbankänderungen ohne Infrastruktur
- Echtzeit-Streaming: Änderungen werden in Sekunden zum Ziel übertragen
- Schema-Erkennung: Automatische Erkennung und Propagierung von Schemaänderungen
- Private Connectivity: Sichere Verbindung zu On-Premise Datenbanken über VPN/Interconnect
- Unified Streams: Ein Stream kann mehrere Tabellen und Schemas replizieren
Typische Anwendungsfälle
Echtzeit-Analytics mit BigQuery
Kontinuierliche Replikation von Transaktionsdaten aus Oracle oder MySQL zu BigQuery für Echtzeit-Dashboards und Analysen. Die Quelldatenbank wird dabei nicht mit Analytics-Queries belastet.
Datenbank-Migration mit Zero Downtime
Vorbereitung einer Datenbank-Migration durch kontinuierliche Synchronisation der Daten. Der Cutover erfolgt mit minimaler Downtime, da die Zieldatenbank bereits synchron ist.
Event-Driven Architectures
Trigger von Cloud Functions oder Dataflow-Pipelines basierend auf Datenbankänderungen. Datastream liefert die Änderungen, nachgelagerte Services verarbeiten sie.
Vorteile
- Keine Infrastruktur: Vollständig serverlos ohne Cluster oder Server zu verwalten
- Minimale Quelllast: CDC über Transaktionslogs belastet die Quelldatenbank kaum
- Einfache Einrichtung: Streams über Console oder Terraform in Minuten konfigurieren
- Zuverlässig: Automatische Wiederholung und Exactly-Once-Semantik
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei Datastream: Aufbau von Echtzeit-Analytics-Pipelines, Migration von On-Premise Datenbanken, Integration mit bestehenden ETL-Prozessen und Architektur von Event-Driven Systemen.
Verfügbare Varianten & Optionen
Datastream
- Vollständig serverless
- Echtzeit-CDC ohne Coding
- Private Connectivity
- Begrenzte Quelldatenbanken
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Welche Quelldatenbanken unterstützt Datastream?
Datastream unterstützt Oracle, MySQL, PostgreSQL und AlloyDB als Quellen. Als Ziele werden BigQuery, Cloud Storage und Cloud SQL unterstützt.
Was ist der Unterschied zwischen Datastream und Database Migration Service?
Datastream ist für kontinuierliche Echtzeit-Replikation konzipiert, während Database Migration Service für einmalige Migrationen optimiert ist. Datastream eignet sich für Analytics-Pipelines, DMS für Datenbank-Migrationen.
Wie funktioniert Change Data Capture mit Datastream?
Datastream liest Änderungen aus dem Transaktionslog der Quelldatenbank (z.B. Oracle Redo Logs, MySQL Binlog) und streamt diese in Echtzeit zum Ziel. Die Quelldatenbank wird dabei minimal belastet.
Kann Datastream mit On-Premise Datenbanken verbunden werden?
Ja, über Private Connectivity mit Cloud VPN oder Interconnect können On-Premise Oracle, MySQL oder PostgreSQL Datenbanken als Quellen konfiguriert werden.
Wie wird Datastream abgerechnet?
Die Abrechnung erfolgt nach verarbeitetem Datenvolumen (CDC-Daten und Backfill-Daten getrennt). Es gibt keine Mindestgebühren und keine Kosten bei Inaktivität.
