Dataproc Serverless for Apache Spark - Serverlose Spark-Ausführung · innFactory

Was ist Dataproc Serverless for Apache Spark?

Dataproc Serverless for Apache Spark ist ein Service von Google Cloud, der die Ausführung von Apache Spark Jobs ohne Cluster-Management ermöglicht. Sie reichen Ihren Spark-Code ein, und die Plattform provisioniert automatisch die benötigten Ressourcen, führt den Job aus und gibt die Ressourcen wieder frei.

Im Gegensatz zu Dataproc auf Compute Engine entfällt die Notwendigkeit, Cluster zu provisionieren, zu konfigurieren und zu verwalten. Jobs starten in Sekunden statt Minuten, und die Abrechnung erfolgt rein nutzungsbasiert.

Kernfunktionen

Kein Cluster-Management: Spark-Jobs ohne Provisionierung oder Konfiguration von Clustern
Schneller Start: Jobs beginnen in Sekunden statt der üblichen 90 Sekunden für Cluster
Auto-Scaling: Automatische Anpassung der Ressourcen während der Job-Ausführung
BigQuery-Integration: Direktes Lesen und Schreiben von BigQuery-Tabellen in Spark-Jobs

Typische Anwendungsfälle

Ad-hoc-Datenanalyse

Data Scientists und Analysten nutzen Dataproc Serverless für explorative Analysen mit Spark, ohne auf Cluster warten oder diese verwalten zu müssen. Notebooks starten sofort.

Geplante ETL-Pipelines

Regelmäßig ausgeführte Spark-ETL-Jobs profitieren von Dataproc Serverless, da keine Cluster zwischen den Ausführungen vorgehalten werden müssen. Die Integration mit Cloud Composer ermöglicht Orchestrierung.

Vorteile

Kein Infrastrukturmanagement oder Cluster-Tuning
Schnellere Iterationszyklen für Data Engineers
Kosteneffizient: Zahlung nur für tatsächliche Ausführungszeit
Nahtlose Integration mit BigQuery, Cloud Storage und Vertex AI

Integration mit innFactory

Als Google Cloud Partner unterstützt innFactory Sie bei Dataproc Serverless: Spark-Job-Migration, Pipeline-Architektur und Kostenoptimierung.

Häufig gestellte Fragen

Was ist Dataproc Serverless for Apache Spark?

Dataproc Serverless ermöglicht die Ausführung von Apache Spark Jobs ohne Cluster-Provisionierung oder -Management. Google Cloud übernimmt die Infrastruktur vollständig, und Jobs starten innerhalb von Sekunden.

Was ist der Unterschied zu Dataproc auf Compute Engine?

Bei Dataproc auf Compute Engine provisionieren und konfigurieren Sie eigene Cluster. Bei Dataproc Serverless reichen Sie nur den Spark-Code ein und die Plattform kümmert sich um alle Infrastrukturaspekte.

Wie wird Dataproc Serverless abgerechnet?

Die Abrechnung erfolgt pro Dataproc Compute Unit (DCU) Stunde. Sie zahlen nur für die tatsächlich genutzten Ressourcen während der Job-Ausführung, ohne Kosten für Leerlaufzeiten.

Dataproc Serverless for Apache Spark - Serverlose Spark-Ausführung

Was ist Dataproc Serverless for Apache Spark?

Kernfunktionen

Typische Anwendungsfälle

Ad-hoc-Datenanalyse

Geplante ETL-Pipelines

Vorteile

Integration mit innFactory

Typische Anwendungsfälle

Häufig gestellte Fragen

Was ist Dataproc Serverless for Apache Spark?

Was ist der Unterschied zu Dataproc auf Compute Engine?

Wie wird Dataproc Serverless abgerechnet?

Schnellzugriff

Google Cloud Partner

Vergleichbare Produkte anderer Cloud-Anbieter

Azure Synapse Analytics - Unified Analytics Platform

Bereit, mit Dataproc Serverless for Apache Spark - Serverlose Spark-Ausführung zu starten?