Cloud Run - Serverless Container Platform auf Google Cloud · innFactory

Cloud Run ist Googles vollständig verwaltete Serverless Container Platform, die das Ausführen von containerisierten Anwendungen ohne Infrastruktur-Management ermöglicht. Mit automatischem Scaling von null bis tausende Instanzen, Abrechnung auf 100ms Basis und Unterstützung für jede Programmiersprache ist Cloud Run ideal für moderne Web-Anwendungen, APIs, Microservices und AI-Workloads.

Was ist Cloud Run?

Cloud Run ist eine serverless Compute-Plattform, die die Flexibilität von Containern mit der Einfachheit von vollständig verwaltetem Hosting kombiniert. Anders als traditionelle Cloud-Plattformen müssen Sie sich nicht um Server, Cluster oder Skalierung kümmern – Cloud Run übernimmt das automatisch.

Die Plattform basiert auf Knative, einem Open-Source Kubernetes-Framework, und nutzt Googles globale Infrastruktur mit über 20 Regionen weltweit. Sie zahlen nur für die tatsächlich genutzten Ressourcen, berechnet auf die nächsten 100 Millisekunden. Bei keinem Traffic skaliert der Service automatisch auf null Instanzen, wodurch keine Kosten entstehen.

Cloud Run unterstützt jede Programmiersprache und jedes Framework, das in einem Container läuft. Sie können entweder eigene Container-Images bereitstellen oder direkt aus Source Code deployen – Cloud Run erstellt dann automatisch optimierte Container mit Buildpacks für gängige Sprachen wie Go, Python, Node.js, Java, .NET und Ruby.

Cloud Run vs. Cloud Functions vs. GKE

Die Wahl der richtigen Compute-Plattform hängt von Ihren spezifischen Anforderungen ab:

Kriterium	Cloud Run	Cloud Functions	GKE
Deployment-Modell	Container (HTTP/gRPC)	Funktionen (Events)	Kubernetes Cluster
Komplexität	Mittel	Niedrig	Hoch
Infrastruktur-Management	Keine	Keine	Vollständige Kontrolle
Cold Start	< 1s	< 1s	N/A (immer laufend)
Max. Execution Time	60min (24h Jobs)	60min	Unbegrenzt
Sprach-Unterstützung	Alle (Container)	Go, Node.js, Python, Java, .NET, Ruby, PHP	Alle (Container)
GPU-Support	Ja (L4)	Nein	Ja
Networking	HTTP, gRPC, WebSocket	HTTP, Events	Vollständig konfigurierbar
Preismodell	Pay-per-use (100ms)	Pay-per-use (100ms)	Pay-per-node
Scale to Zero	Ja	Ja	Nein

Wann Cloud Run nutzen:

Web-Anwendungen und REST/GraphQL APIs
Microservices mit HTTP/gRPC
Container-basierte Workloads ohne Kubernetes-Komplexität
AI Inference mit GPU-Beschleunigung
Batch Jobs und Scheduled Tasks

Wann Cloud Functions nutzen:

Einfache Event-Handler (Pub/Sub, Storage, Firestore)
Lightweight Functions ohne Container-Image
Minimale Konfiguration gewünscht

Wann GKE nutzen:

Komplexe Kubernetes-native Anwendungen
Erweiterte Networking-Anforderungen (Service Mesh, Ingress)
Stateful Workloads mit persistentem Storage
Multi-Tenant Cluster mit mehreren Teams
Vollständige Kontrolle über Cluster-Konfiguration

Cloud Run Jobs für Batch Processing

Cloud Run Jobs sind speziell für Batch Processing, Datenverarbeitung und geplante Tasks konzipiert, die nicht über HTTP-Requests ausgelöst werden.

Hauptunterschiede zu Cloud Run Services:

Keine HTTP-Endpoints: Jobs werden über gcloud CLI, Cloud Scheduler oder Pub/Sub getriggert
Längere Laufzeit: Bis zu 24 Stunden pro Task (statt 60 Minuten)
Parallele Ausführung: Ein Job kann mehrere Tasks parallel ausführen
Task-basiertes Scaling: Automatische Parallelisierung basierend auf Task-Anzahl

Typische Anwendungsfälle:

ETL Pipelines: Daten-Extraktion, Transformation und Laden aus verschiedenen Quellen
Batch-Verarbeitung: Massendaten-Verarbeitung, Bildkonvertierung, Video-Rendering
Scheduled Maintenance: Tägliche/wöchentliche Cleanup-Jobs, Backups, Reports
ML Training/Batch Inference: Modell-Training oder Batch-Vorhersagen auf großen Datensätzen
Data Migration: Einmalige oder periodische Datenmigrationen

Beispiel-Architektur für Batch Processing:

Cloud Scheduler → Cloud Run Job (10 Tasks parallel) → Cloud Storage/BigQuery

Jeder Task bearbeitet einen Teil der Daten, wobei Cloud Run automatisch bis zu 1000 Tasks parallel ausführen kann.

Typische Anwendungsfälle

1. Web-Anwendungen und APIs

Cloud Run ist ideal für moderne Web-Anwendungen mit dynamischem Traffic. Automatisches Scaling bewältigt Traffic-Spitzen mühelos, während Scale-to-Zero bei niedrigem Traffic Kosten spart.

Beispiel-Architektur:

Frontend: Cloud Run Service mit Next.js/React
Backend API: Cloud Run Service mit FastAPI/Express
Datenbank: Cloud SQL oder Firestore
CDN: Cloud CDN für statische Assets
Auth: Firebase Auth oder Identity Platform

Vorteile:

Globales Deployment in 20+ Regionen
Automatisches HTTPS-Zertifikat
Custom Domains und URL-Mapping
Integriertes Load Balancing

2. AI Inference mit GPU-Beschleunigung

Cloud Run unterstützt NVIDIA L4 GPUs für Real-Time AI Inference. GPU-Instanzen starten in 5 Sekunden und skalieren auf null bei keinem Traffic.

Beispiel-Workloads:

Large Language Models (Llama 3, Mistral, Gemma 2)
Computer Vision (Objekterkennung, Bildklassifizierung)
Video-Transcoding und -Analyse
Speech-to-Text und Text-to-Speech

Beispiel-Architektur:

Client Request → Cloud CDN → Cloud Run (GPU) → Model Serving → Response

3. Event-Driven Microservices

Cloud Run integriert nahtlos mit Pub/Sub und Eventarc für asynchrone, ereignisgesteuerte Architekturen.

Beispiel-Events:

Neue Datei in Cloud Storage → Cloud Run verarbeitet Bild/Video
Neue Nachricht in Pub/Sub → Cloud Run führt Business Logic aus
Database Trigger (Firestore) → Cloud Run synchronisiert Daten

4. Scheduled Cron Jobs

Kombinieren Sie Cloud Run Jobs mit Cloud Scheduler für periodische Tasks.

Beispiele:

Tägliche Backup-Jobs
Stündliche Daten-Aggregation
Wöchentliche Report-Generierung
Monitoring und Alerting

5. Mobile und IoT Backends

Cloud Run Services bieten skalierbare Backend-Infrastruktur für Mobile Apps und IoT-Geräte.

Features:

WebSocket-Support für Echtzeit-Kommunikation
gRPC für effiziente Client-Server-Kommunikation
API-Versionierung und Traffic-Splitting
Firebase Integration für Auth und Push Notifications

Best Practices

1. Optimieren Sie Cold Start Performance

Verwenden Sie schlanke Base Images: Alpine Linux oder Distroless Images reduzieren Image-Größe und Start-Zeit
Minimale Instanzen konfigurieren: Setzen Sie --min-instances=1 für produktionskritische Services
Lazy Loading: Laden Sie große Dependencies nur bei Bedarf, nicht beim Container-Start
Startup CPU Boost: Cloud Run gibt beim Start temporär zusätzliche CPU (aktiviert per default)

gcloud run deploy my-service \
  --min-instances=1 \
  --cpu-boost \
  --image=gcr.io/my-project/my-image

2. Konfigurieren Sie Concurrency optimal

Standard Concurrency (80): Gut für die meisten Workloads
Hohe Concurrency (200-1000): Für I/O-bound Services (Datenbank-Abfragen, API-Calls)
Niedrige Concurrency (1-10): Für CPU-intensive Tasks oder Memory-intensive Workloads

gcloud run deploy my-service \
  --concurrency=200 \
  --memory=2Gi \
  --cpu=2

3. Nutzen Sie Secrets und Configuration Management

Secrets aus Secret Manager: Niemals Secrets im Container-Image
Environment Variables: Für Konfiguration die sich zwischen Umgebungen unterscheidet
Volume Mounts: Für größere Config-Dateien (aus Secret Manager oder Cloud Storage)

gcloud run deploy my-service \
  --set-secrets=DATABASE_URL=database-url:latest \
  --set-env-vars=ENVIRONMENT=production

4. Implementieren Sie Graceful Shutdown

Cloud Run sendet SIGTERM 10 Sekunden vor dem Container-Stop. Nutzen Sie diese Zeit für Cleanup:

import signal
import sys

def graceful_shutdown(signum, frame):
    print("Shutting down gracefully...")
    # Close database connections
    # Complete in-flight requests
    sys.exit(0)

signal.signal(signal.SIGTERM, graceful_shutdown)

5. Monitoring und Observability

Cloud Logging: Automatische Log-Collection (stdout/stderr)
Cloud Monitoring: Metriken für Requests, Latency, Errors
Cloud Trace: Distributed Tracing für Microservices
Custom Metrics: Exportieren Sie Business-Metriken via OpenTelemetry

6. Kostenoptimierung

Scale to Zero nutzen: Für Entwicklung, Staging und niedrig-frequentierte Services
Committed Use Discounts: 17-52% Rabatt für vorhersagbare Workloads
Request Timeout setzen: Vermeiden Sie unnötig lange laufende Requests
Richtige Resource Allocation: Überprovisionierung vermeiden (Monitoring prüfen)

7. Security Best Practices

IAM für Service-to-Service Auth: Nutzen Sie Cloud Run Invoker Role statt API Keys
Binary Authorization: Nur signierte Container-Images deployen
VPC Service Controls: Daten-Exfiltration verhindern
Least Privilege: Service Accounts mit minimalen Berechtigungen

# Service nur für authentifizierte Requests
gcloud run deploy my-service \
  --no-allow-unauthenticated

# Service Account mit minimalen Rechten
gcloud run deploy my-service \
  --service-account=my-service@project.iam.gserviceaccount.com

Integration mit innFactory

Als Google Cloud Partner unterstützt innFactory Sie bei der Cloud Run Implementation:

Architektur und Design

Microservices-Architektur mit Cloud Run Services
Event-Driven Design mit Pub/Sub und Eventarc
Multi-Region Deployments für High Availability
AI/ML Integration mit Vertex AI und Cloud Run GPUs

Migration und Modernisierung

Migration von App Engine zu Cloud Run
Containerisierung bestehender Anwendungen
Lift-and-Shift von On-Premise Workloads
Kubernetes (GKE) zu Cloud Run Migration für geeignete Workloads

Betrieb und Optimierung

CI/CD Pipelines mit Cloud Build und GitHub Actions
Infrastructure as Code mit Terraform
Monitoring und Alerting Setup
Kostenoptimierung und Performance-Tuning

Spezialisierte Workloads

AI Inference mit GPU-Beschleunigung (LLMs, Computer Vision)
Real-Time Data Processing mit Pub/Sub
API Management mit Apigee und Cloud Run
Serverless Data Pipelines

Kontaktieren Sie uns für eine kostenlose Beratung zu Cloud Run und Serverless-Architekturen auf Google Cloud.

Verfügbare Varianten & Optionen

Cloud Run Services

Stärken

Zero Infrastructure Management
Automatisches Scaling auf null
Schnelle Deployments unter 1 Minute
GPU-Unterstützung für AI Inference

Einschränkungen

Stateless Anwendungen
Request Timeout bis 60 Minuten

Cloud Run Jobs

Stärken

Batch Processing mit paralleler Ausführung
Läuft bis zu 24 Stunden
Task-basierte Skalierung

Einschränkungen

Keine HTTP-Endpoints
Asynchrone Ausführung

Cloud Run Functions

Stärken

Einfache Event-Handler
Vollständige Cloud Run Service Kontrolle
Source-Code Deployment

Einschränkungen

Begrenzte Konfigurationsoptionen

Typische Anwendungsfälle

Web Applications und REST/GraphQL APIs

Microservices und Backend Services

Event-driven Workloads mit Pub/Sub und Eventarc

AI Inference mit GPU-Beschleunigung (LLMs, Computer Vision)

Scheduled Jobs und Cron Tasks

WebSocket und gRPC Services

Mobile und IoT Backends

Technische Spezifikationen

Cold start Typisch unter 1 Sekunde

Concurrency Bis zu 1000 gleichzeitige Requests pro Container-Instanz

CPU Bis zu 8 vCPUs

Gpu NVIDIA L4 GPUs verfügbar (Start in 5 Sekunden)

Languages Jede Sprache die in Containern läuft (Go, Python, Node.js, Java, .NET, Ruby, PHP, etc.)

Memory 128 MiB bis 32 GiB

Protocols HTTP/1, HTTP/2, gRPC, WebSockets

Regions 20+ Regionen weltweit

Scaling Automatisch von 0 bis 1000 Instanzen

Timeout Bis zu 60 Minuten pro Request (Services), bis zu 24 Stunden (Jobs)

Häufig gestellte Fragen

Was ist Cloud Run?

Cloud Run ist eine vollständig verwaltete Serverless Container Platform von Google Cloud. Sie ermöglicht das Ausführen von Containern ohne Infrastruktur-Management, skaliert automatisch basierend auf Traffic und rechnet nur tatsächlich genutzte Ressourcen ab (100ms Granularität). Cloud Run unterstützt jede Programmiersprache, die in Containern läuft, und bietet GPU-Beschleunigung für AI-Workloads.

Was ist der Unterschied zwischen Cloud Run Services, Jobs und Functions?

Cloud Run Services sind für HTTP-basierte Workloads (APIs, Web Apps) mit automatischem Scaling. Cloud Run Jobs sind für Batch Processing und lange laufende Tasks (bis 24h) ohne HTTP-Endpoints. Cloud Run Functions bieten eine vereinfachte Erfahrung für Event-Handler mit weniger Konfigurationsoptionen, basieren aber auf der Cloud Run Infrastruktur.

Wann sollte ich Cloud Run statt Cloud Functions oder GKE verwenden?

Nutzen Sie Cloud Run wenn Sie Container-basierte Anwendungen mit HTTP/gRPC Endpoints benötigen, mehr Kontrolle als bei Cloud Functions wünschen, aber weniger Komplexität als GKE möchten. Cloud Run eignet sich für die meisten Web- und API-Workloads. GKE ist besser für komplexe Kubernetes-native Anwendungen mit erweiterten Networking-Anforderungen. Cloud Functions ist ideal für einfache Event-Handler ohne Container-Verwaltung.

Unterstützt Cloud Run GPU-Beschleunigung für AI-Modelle?

Ja, Cloud Run bietet NVIDIA L4 GPUs für AI Inference Workloads. GPU-Instanzen starten in etwa 5 Sekunden und skalieren auf null wenn nicht genutzt. Dies ist ideal für das Hosting von Large Language Models (LLMs wie Llama, Mistral, Gemma), Computer Vision, Video-Transcoding und andere GPU-intensive Anwendungen.

Wie funktioniert das Scaling bei Cloud Run?

Cloud Run skaliert automatisch basierend auf eingehenden Requests von 0 bis zu 1000 Instanzen. Bei keinem Traffic skaliert der Service auf null Container (keine Kosten). Bei Traffic-Spitzen werden innerhalb von Sekunden neue Instanzen gestartet. Sie können minimale und maximale Instanzen konfigurieren sowie die Concurrency pro Instanz steuern.

Kann ich Cloud Run mit privaten VPC-Netzwerken verbinden?

Ja, Cloud Run unterstützt Direct VPC Connectivity. Sie können ausgehenden Traffic direkt an Ihr VPC-Netzwerk senden und mit anderen Services wie Cloud SQL, Memorystore oder privaten GKE-Clustern kommunizieren. Für eingehenden Traffic können Sie Cloud Run als private Services konfigurieren, die nur über Load Balancer oder VPC erreichbar sind.

Wie funktioniert die Abrechnung bei Cloud Run?

Cloud Run rechnet nach tatsächlicher Nutzung ab mit 100ms Granularität. Sie zahlen für CPU, RAM, Requests und ausgehenden Traffic. Es gibt ein großzügiges kostenloses Kontingent von 2 Millionen Requests, 180.000 vCPU-Sekunden und 360.000 GiB-Sekunden pro Monat. Bei keinem Traffic entstehen keine Kosten durch Scale-to-Zero.

Ist Cloud Run DSGVO-konform und welche EU-Regionen sind verfügbar?

Ja, Cloud Run ist DSGVO-konform. Verfügbare EU-Regionen sind europe-west1 (Belgien), europe-west3 (Frankfurt), europe-west4 (Niederlande), europe-west6 (Zürich), europe-west9 (Paris), europe-north1 (Finnland). Google Cloud bietet umfassende Datenschutzkontrollen, Compliance-Zertifizierungen und Datenresidenz-Garantien.

Kann Cloud Run WebSocket-Verbindungen und Streaming handhaben?

Ja, Cloud Run unterstützt WebSockets, HTTP Streaming (Server-Sent Events), gRPC Streaming und andere Long-Running Connections bis zu 60 Minuten. Dies ermöglicht Echtzeit-Anwendungen wie Chat-Apps, Live-Dashboards oder Streaming-APIs.

Wie deploye ich Anwendungen auf Cloud Run?

Cloud Run bietet mehrere Deployment-Optionen - Container Image aus Artifact Registry/Container Registry, direkt aus Source Code (Buildpacks für Go, Node.js, Python, Java, .NET, Ruby), CI/CD Integration mit Cloud Build oder GitHub Actions, sowie Infrastructure as Code mit Terraform oder gcloud CLI. Ein einfaches "gcloud run deploy" genügt für den Start.

Was sind die Limits von Cloud Run?

Wichtige Limits - Request Timeout bis 60 Minuten für Services (24h für Jobs), Memory bis 32 GiB, CPU bis 8 vCPUs, Concurrency bis 1000 Requests pro Instanz, maximale Container-Image-Größe 10 GiB, maximale Instanzen 1000. Für die meisten Workloads sind diese Limits ausreichend. Höhere Limits können bei Bedarf angefordert werden.

Cloud Run - Serverless Container Platform auf Google Cloud

Was ist Cloud Run?

Cloud Run vs. Cloud Functions vs. GKE

Cloud Run Jobs für Batch Processing

Typische Anwendungsfälle

1. Web-Anwendungen und APIs

2. AI Inference mit GPU-Beschleunigung

3. Event-Driven Microservices

4. Scheduled Cron Jobs

5. Mobile und IoT Backends

Best Practices

1. Optimieren Sie Cold Start Performance

2. Konfigurieren Sie Concurrency optimal

3. Nutzen Sie Secrets und Configuration Management

4. Implementieren Sie Graceful Shutdown

5. Monitoring und Observability

6. Kostenoptimierung

7. Security Best Practices

Integration mit innFactory

Architektur und Design

Migration und Modernisierung

Betrieb und Optimierung

Spezialisierte Workloads

Verfügbare Varianten & Optionen

Cloud Run Services

Cloud Run Jobs

Cloud Run Functions

Typische Anwendungsfälle

Technische Spezifikationen

Häufig gestellte Fragen

Was ist Cloud Run?

Was ist der Unterschied zwischen Cloud Run Services, Jobs und Functions?

Wann sollte ich Cloud Run statt Cloud Functions oder GKE verwenden?

Unterstützt Cloud Run GPU-Beschleunigung für AI-Modelle?

Wie funktioniert das Scaling bei Cloud Run?

Kann ich Cloud Run mit privaten VPC-Netzwerken verbinden?

Wie funktioniert die Abrechnung bei Cloud Run?

Ist Cloud Run DSGVO-konform und welche EU-Regionen sind verfügbar?

Kann Cloud Run WebSocket-Verbindungen und Streaming handhaben?

Wie deploye ich Anwendungen auf Cloud Run?

Was sind die Limits von Cloud Run?

Schnellzugriff

Google Cloud Partner

Vergleichbare Produkte anderer Cloud-Anbieter

AWS Lambda

Azure Container Apps - Azure Computing

Bereit, mit Cloud Run - Serverless Container Platform auf Google Cloud zu starten?