Was ist Dataproc Serverless for Apache Spark?
Dataproc Serverless for Apache Spark ist ein Service von Google Cloud, der die Ausführung von Apache Spark Jobs ohne Cluster-Management ermöglicht. Sie reichen Ihren Spark-Code ein, und die Plattform provisioniert automatisch die benötigten Ressourcen, führt den Job aus und gibt die Ressourcen wieder frei.
Im Gegensatz zu Dataproc auf Compute Engine entfällt die Notwendigkeit, Cluster zu provisionieren, zu konfigurieren und zu verwalten. Jobs starten in Sekunden statt Minuten, und die Abrechnung erfolgt rein nutzungsbasiert.
Kernfunktionen
- Kein Cluster-Management: Spark-Jobs ohne Provisionierung oder Konfiguration von Clustern
- Schneller Start: Jobs beginnen in Sekunden statt der üblichen 90 Sekunden für Cluster
- Auto-Scaling: Automatische Anpassung der Ressourcen während der Job-Ausführung
- BigQuery-Integration: Direktes Lesen und Schreiben von BigQuery-Tabellen in Spark-Jobs
Typische Anwendungsfälle
Ad-hoc-Datenanalyse
Data Scientists und Analysten nutzen Dataproc Serverless für explorative Analysen mit Spark, ohne auf Cluster warten oder diese verwalten zu müssen. Notebooks starten sofort.
Geplante ETL-Pipelines
Regelmäßig ausgeführte Spark-ETL-Jobs profitieren von Dataproc Serverless, da keine Cluster zwischen den Ausführungen vorgehalten werden müssen. Die Integration mit Cloud Composer ermöglicht Orchestrierung.
Vorteile
- Kein Infrastrukturmanagement oder Cluster-Tuning
- Schnellere Iterationszyklen für Data Engineers
- Kosteneffizient: Zahlung nur für tatsächliche Ausführungszeit
- Nahtlose Integration mit BigQuery, Cloud Storage und Vertex AI
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei Dataproc Serverless: Spark-Job-Migration, Pipeline-Architektur und Kostenoptimierung.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Dataproc Serverless for Apache Spark?
Dataproc Serverless ermöglicht die Ausführung von Apache Spark Jobs ohne Cluster-Provisionierung oder -Management. Google Cloud übernimmt die Infrastruktur vollständig, und Jobs starten innerhalb von Sekunden.
Was ist der Unterschied zu Dataproc auf Compute Engine?
Bei Dataproc auf Compute Engine provisionieren und konfigurieren Sie eigene Cluster. Bei Dataproc Serverless reichen Sie nur den Spark-Code ein und die Plattform kümmert sich um alle Infrastrukturaspekte.
Wie wird Dataproc Serverless abgerechnet?
Die Abrechnung erfolgt pro Dataproc Compute Unit (DCU) Stunde. Sie zahlen nur für die tatsächlich genutzten Ressourcen während der Job-Ausführung, ohne Kosten für Leerlaufzeiten.
