Google Cloud Dataproc ermöglicht die schnelle Bereitstellung von Apache Spark und Hadoop Clustern für Big Data Workloads.
Was ist Dataproc?
Dataproc ist ein vollständig verwalteter Service für Apache Spark, Hadoop, Presto und andere Open-Source-Tools. Cluster starten in etwa 90 Sekunden und werden sekundengenau abgerechnet. Mit Dataproc Serverless können Spark-Jobs ohne jegliches Cluster-Management ausgeführt werden.
Kernfunktionen
- Schnelle Cluster-Bereitstellung: Cluster in 90 Sekunden einsatzbereit mit vorkonfigurierten Images
- Dataproc Serverless: Spark-Jobs ohne Cluster-Management mit automatischer Skalierung
- Native GCP-Integration: Direkte Verbindung zu BigQuery, Cloud Storage und Vertex AI
- Autoscaling: Automatische Anpassung der Cluster-Größe basierend auf Workload
- Spot-VM-Unterstützung: Bis zu 80% Kostenersparnis durch präemptive Instanzen
Typische Anwendungsfälle
ETL und Datenverarbeitung
Migration bestehender Hadoop- oder Spark-ETL-Pipelines in die Cloud mit minimalen Code-Änderungen. Dataproc unterstützt alle gängigen Spark-APIs und Bibliotheken.
Data Lake Analytics
Analyse großer Datenmengen in Cloud Storage mit Spark SQL oder Presto. Direkte Integration mit BigQuery ermöglicht hybride Analysen über Data Lake und Data Warehouse.
Machine Learning mit Spark MLlib
Training von ML-Modellen auf großen Datensätzen mit Spark MLlib. Integration mit Vertex AI für Model Deployment und Monitoring.
Vorteile
- Open-Source-Kompatibilität: Unveränderte Spark-, Hadoop- und Presto-Workloads ausführen
- Kosteneffizienz: Sekundengenaue Abrechnung und Spot-VMs für temporäre Workloads
- Schnelle Migration: Bestehende On-Premise-Workloads ohne Refactoring migrieren
- Flexible Optionen: Wahl zwischen Cluster-basiert und Serverless je nach Anforderung
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei Dataproc: Migration von On-Premise Hadoop-Clustern, Optimierung bestehender Spark-Jobs, Architektur von Data Lake Analytics Lösungen und Kostenoptimierung durch richtige Cluster-Konfiguration.
Verfügbare Varianten & Optionen
Dataproc on Compute Engine
- Volle Kontrolle über Cluster-Konfiguration
- Spot-VMs für Kostenoptimierung
- Autoscaling-Unterstützung
- Cluster-Management erforderlich
Dataproc Serverless
- Kein Cluster-Management
- Automatische Ressourcenskalierung
- Schnellster Start
- Weniger Konfigurationsoptionen
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Was ist der Unterschied zwischen Dataproc und Dataflow?
Dataproc ist für bestehende Spark/Hadoop-Workloads optimiert, während Dataflow ein vollständig serverloser Service für Apache Beam Pipelines ist. Dataproc eignet sich besser für Migrationen von On-Premise Hadoop-Clustern.
Wie schnell ist ein Dataproc-Cluster einsatzbereit?
Dataproc-Cluster starten in etwa 90 Sekunden. Dataproc Serverless eliminiert die Startzeit für Spark-Jobs komplett.
Kann ich bestehende Spark-Jobs ohne Änderungen ausführen?
Ja, Dataproc ist vollständig kompatibel mit Apache Spark, Hadoop, Hive, Pig und Presto. Bestehende Jobs können ohne Code-Änderungen migriert werden.
Wie wird Dataproc abgerechnet?
Dataproc berechnet sekundengenau basierend auf den verwendeten Compute Engine VMs plus einem geringen Dataproc-Aufschlag. Spot-VMs können die Kosten um bis zu 80% reduzieren.
Ist Dataproc DSGVO-konform?
Ja, Dataproc ist in EU-Regionen verfügbar und erfüllt alle DSGVO-Anforderungen. Daten können mit Customer-Managed Encryption Keys (CMEK) verschlüsselt werden.
