Zum Hauptinhalt springen
Cloud / Google Cloud / Produkte / Dataproc Serverless for Apache Spark - Serverlose Spark-Ausführung

Dataproc Serverless for Apache Spark - Serverlose Spark-Ausführung

Dataproc Serverless ermöglicht die Ausführung von Apache Spark Jobs ohne Cluster-Management auf Google Cloud.

Data Analytics
Preismodell Bezahlung nach Nutzung (per DCU-hour)
Verfügbarkeit Global mit EU-Regionen
Datensouveränität EU-Regionen verfügbar
Zuverlässigkeit 99,9% SLA

Was ist Dataproc Serverless for Apache Spark?

Dataproc Serverless for Apache Spark ist ein Service von Google Cloud, der die Ausführung von Apache Spark Jobs ohne Cluster-Management ermöglicht. Sie reichen Ihren Spark-Code ein, und die Plattform provisioniert automatisch die benötigten Ressourcen, führt den Job aus und gibt die Ressourcen wieder frei.

Im Gegensatz zu Dataproc auf Compute Engine entfällt die Notwendigkeit, Cluster zu provisionieren, zu konfigurieren und zu verwalten. Jobs starten in Sekunden statt Minuten, und die Abrechnung erfolgt rein nutzungsbasiert.

Kernfunktionen

  • Kein Cluster-Management: Spark-Jobs ohne Provisionierung oder Konfiguration von Clustern
  • Schneller Start: Jobs beginnen in Sekunden statt der üblichen 90 Sekunden für Cluster
  • Auto-Scaling: Automatische Anpassung der Ressourcen während der Job-Ausführung
  • BigQuery-Integration: Direktes Lesen und Schreiben von BigQuery-Tabellen in Spark-Jobs

Typische Anwendungsfälle

Ad-hoc-Datenanalyse

Data Scientists und Analysten nutzen Dataproc Serverless für explorative Analysen mit Spark, ohne auf Cluster warten oder diese verwalten zu müssen. Notebooks starten sofort.

Geplante ETL-Pipelines

Regelmäßig ausgeführte Spark-ETL-Jobs profitieren von Dataproc Serverless, da keine Cluster zwischen den Ausführungen vorgehalten werden müssen. Die Integration mit Cloud Composer ermöglicht Orchestrierung.

Vorteile

  • Kein Infrastrukturmanagement oder Cluster-Tuning
  • Schnellere Iterationszyklen für Data Engineers
  • Kosteneffizient: Zahlung nur für tatsächliche Ausführungszeit
  • Nahtlose Integration mit BigQuery, Cloud Storage und Vertex AI

Integration mit innFactory

Als Google Cloud Partner unterstützt innFactory Sie bei Dataproc Serverless: Spark-Job-Migration, Pipeline-Architektur und Kostenoptimierung.

Typische Anwendungsfälle

Serverlose Spark-Jobs
Ad-hoc-Datenanalyse
ETL-Pipelines

Häufig gestellte Fragen

Was ist Dataproc Serverless for Apache Spark?

Dataproc Serverless ermöglicht die Ausführung von Apache Spark Jobs ohne Cluster-Provisionierung oder -Management. Google Cloud übernimmt die Infrastruktur vollständig, und Jobs starten innerhalb von Sekunden.

Was ist der Unterschied zu Dataproc auf Compute Engine?

Bei Dataproc auf Compute Engine provisionieren und konfigurieren Sie eigene Cluster. Bei Dataproc Serverless reichen Sie nur den Spark-Code ein und die Plattform kümmert sich um alle Infrastrukturaspekte.

Wie wird Dataproc Serverless abgerechnet?

Die Abrechnung erfolgt pro Dataproc Compute Unit (DCU) Stunde. Sie zahlen nur für die tatsächlich genutzten Ressourcen während der Job-Ausführung, ohne Kosten für Leerlaufzeiten.

Google Cloud Partner

innFactory ist zertifizierter Google Cloud Partner. Wir bieten Beratung, Implementierung und Managed Services.

Google Cloud Partner

Bereit, mit Dataproc Serverless for Apache Spark - Serverlose Spark-Ausführung zu starten?

Unsere zertifizierten Google Cloud Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren