Cloud-native Data Integration Service mit visueller Oberfläche für ETL-Pipelines. Serverless, vollständig verwaltet und basierend auf CDAP Open Source.
Was ist Data Fusion?
Data Fusion ist Googles Antwort auf die wachsende Komplexität von Datenintegration in hybriden und Multi-Cloud-Umgebungen. Während traditionelle ETL-Tools oft proprietär und schwer zu skalieren sind, bietet Data Fusion eine Cloud-native, visuelle Lösung basierend auf Open Source (CDAP).
Der Service ermöglicht es, komplexe Datenpipelines durch Drag-and-Drop zu erstellen, ohne Code schreiben zu müssen. Über 150 vorgefertigte Connectors decken die gängigsten Datenquellen ab. Unter der Haube nutzt Data Fusion Apache Spark für Batch-Processing und ermöglicht damit die Verarbeitung von Petabyte-großen Datasets.
Data Fusion ist mehr als ein ETL-Tool. Der Service bietet Data Lineage auf Field-Level, integriertes Pipeline-Monitoring und die Möglichkeit, Pipelines als Code zu exportieren. Dies macht ihn zur natürlichen Wahl für Unternehmen, die DataOps-Praktiken etablieren und gleichzeitig Business-Analysten ermöglichen möchten, selbständig Pipelines zu erstellen.
Typische Anwendungsfälle
ETL/ELT-Pipelines für BigQuery
Data Fusion ist die bevorzugte Lösung für visuelles Erstellen von ETL-Pipelines, die Daten aus verschiedenen Quellen in BigQuery laden. Sie können Transformationen wie Joins, Aggregationen, Deduplizierung und Datenqualitäts-Checks visuell definieren. Scheduling ermöglicht automatische, wiederkehrende Ausführungen.
Cloud-zu-Cloud-Datenintegration
Integrieren Sie Daten zwischen verschiedenen Cloud-Plattformen ohne eigene Infrastruktur. Beispiel: Daten von AWS S3 nach Google Cloud Storage replizieren, transformieren und in BigQuery laden. Data Fusion managed die Orchestrierung und Skalierung automatisch.
On-Premises zu Cloud Migration
Für Hybrid-Cloud-Szenarien bietet Data Fusion sichere Verbindungen zu On-Premises-Datenbanken über VPC-Peering oder Cloud VPN. Inkrementelle Replikation ermöglicht sanfte Migrationen ohne Downtime. Change Data Capture (CDC) hält Quell- und Zielsysteme synchron.
Real-time Streaming-Pipelines
Verarbeiten Sie Event-Streams aus Pub/Sub, Kafka oder Cloud Storage-Events in Echtzeit. Windowing, Aggregationen und Stream-Joins sind visuell konfigurierbar. Ergebnisse können in BigQuery für Analysen oder Bigtable für Low-Latency-Zugriffe geschrieben werden.
Data Lake Ingestion
Automatisieren Sie die Ingestion von Rohdaten in Cloud Storage Data Lakes. Data Fusion kann Dateien aus verschiedenen Quellen abholen, validieren, transformieren und partitioniert in Cloud Storage ablegen. Integration mit Data Catalog ermöglicht automatische Metadaten-Katalogisierung.
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei der Implementierung von Data Fusion für unternehmensweite Datenintegration. Wir helfen bei der Architektur von Hybrid-Cloud-Pipelines, Entwicklung von Custom Plugins und Optimierung von Pipeline-Performance.
Unsere Expertise umfasst die Migration von Legacy-ETL-Tools zu Data Fusion, Implementierung von DataOps-Praktiken mit CI/CD-Integration und Aufbau von Data Lineage-Strategien für Governance und Compliance.
Kontaktieren Sie uns für eine Beratung zu Data Fusion und Data Integration auf Google Cloud.
Verfügbare Varianten & Optionen
Basic
- Kostengünstiger Einstieg
- Für einfache ETL-Pipelines
- Keine Pipeline-Limits
- Keine Hochverfügbarkeit
- Begrenzte Skalierung
- Kein SLA
Enterprise
- Hochverfügbarkeit über Zonen
- Erweiterte Transformationen
- Pipeline-Monitoring und Lineage
- CMEK-Verschlüsselung
- Höhere Kosten
- Komplexere Konfiguration
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Was ist Data Fusion?
Data Fusion ist ein vollständig verwalteter, Cloud-nativer Data-Integration-Service mit visueller Oberfläche. Er basiert auf CDAP (Cask Data Application Platform) Open Source und ermöglicht es, ETL/ELT-Pipelines ohne Code durch Drag-and-Drop zu erstellen. Data Fusion wird von Apache Spark als Execution Engine unterstützt.
Wann sollte ich Data Fusion statt Dataflow verwenden?
Data Fusion eignet sich für Teams ohne tiefe Programmierkenntnisse, die ETL-Pipelines visuell erstellen möchten. Dataflow ist besser für komplexe, Code-basierte Streaming-Pipelines mit Apache Beam. Wenn Sie GUI-basierte Data Integration mit 150+ vorgefertigten Connectors benötigen, ist Data Fusion die richtige Wahl.
Welche Datenquellen und Ziele unterstützt Data Fusion?
Data Fusion bietet über 150 vorgefertigte Connectors für BigQuery, Cloud Storage, Cloud SQL, Spanner, Bigtable, Pub/Sub, sowie externe Quellen wie Oracle, SAP, Salesforce, S3, Azure Blob Storage und On-Premises-Datenbanken. Custom Plugins können für proprietäre Systeme entwickelt werden.
Was ist der Unterschied zwischen Basic und Enterprise Edition?
Basic Edition eignet sich für Entwicklungs- und Testumgebungen mit einfachen Pipelines ohne Hochverfügbarkeits-Anforderungen. Enterprise Edition bietet zonale Redundanz, erweiterte Transformationen, Pipeline-Lineage, Monitoring-Dashboards und CMEK-Verschlüsselung für Produktionsumgebungen.
Kann Data Fusion Streaming-Pipelines verarbeiten?
Ja, Data Fusion unterstützt sowohl Batch- als auch Streaming-Pipelines. Streaming-Quellen wie Pub/Sub, Kafka oder Cloud Storage-Events können verarbeitet und in Echtzeit in BigQuery, Bigtable oder andere Ziele geschrieben werden. Windowing und Aggregationen sind ebenfalls möglich.
Wie wird Data Fusion abgerechnet?
Data Fusion berechnet sich nach Instance-Laufzeit (pro Stunde) und Pipeline-Ausführungen. Basic Edition kostet weniger als Enterprise Edition. Zusätzlich fallen Kosten für Compute-Ressourcen an, die von Pipeline-Jobs genutzt werden (Dataproc-Cluster). Inaktive Instances können gestoppt werden, um Kosten zu sparen.
Ist Data Fusion DSGVO-konform?
Ja, Data Fusion ist in EU-Regionen verfügbar und erfüllt alle DSGVO-Anforderungen. Enterprise Edition bietet CMEK (Customer-Managed Encryption Keys) für zusätzliche Kontrolle über Verschlüsselung. VPC-Peering ermöglicht sichere Verbindungen zu On-Premises-Systemen ohne Public Internet.
Unterstützt Data Fusion Data Lineage?
Ja, Enterprise Edition bietet automatische Data Lineage auf Field-Level. Sie können visuell nachvollziehen, wie Daten durch Transformationen fließen, welche Felder von welchen Quellen stammen und wo sie landen. Dies ist essentiell für Impact-Analysen und Compliance.
