Zum Hauptinhalt springen
Cloud / Google Cloud / Produkte / GKE Inference Gateway - LLM-Routing auf Kubernetes

GKE Inference Gateway - LLM-Routing auf Kubernetes

GKE Inference Gateway: Kubernetes-natives Gateway zum Serving generativer KI auf GKE mit LLM-bewusstem Routing und Disaggregated Serving.

AI/ML
Preismodell Keine separate Produktgebühr, Abrechnung der genutzten GKE-Ressourcen
Verfügbarkeit Verfügbar in GKE-Regionen weltweit inkl. EU
Datensouveränität EU-Regionen verfügbar
Zuverlässigkeit N/A (keine eigene SLA, GKE-SLA gilt für den Cluster) SLA

Was ist GKE Inference Gateway?

GKE Inference Gateway ist ein Kubernetes-natives Gateway zum Serving generativer KI auf Google Kubernetes Engine (GKE). Es erweitert das GKE Gateway und basiert auf der offenen Gateway API Inference Extension (llm-d). Im Gegensatz zu klassischem Load Balancing trifft es Routing-Entscheidungen modellbewusst: Anfragen werden anhand von Live-Metriken wie KV-Cache-Auslastung, GPU- oder TPU-Auslastung und Warteschlangenlänge an die am besten geeignete Pod-Replica geleitet, nicht per generischem Round-Robin.

Damit löst GKE Inference Gateway ein zentrales Problem beim Betrieb eigener LLM-Inferenz auf Kubernetes: Generische Lastverteilung ignoriert die Eigenheiten von Sprachmodellen und führt zu hoher Time-to-First-Token, ungleicher Beschleuniger-Auslastung und unnötigen Token-Kosten. Das LLM-bewusste Routing und das Disaggregated Serving senken Latenz und Kosten messbar und machen das Serving generativer KI auf GKE planbarer.

Kernfunktionen

  • Modellbewusstes Routing: Anfragen werden anhand des Modellnamens (OpenAI-API-Format) geroutet. Das ermöglicht Traffic-Splitting, graduelle Rollouts und dynamisches Multiplexen mehrerer LoRA-Adapter auf gemeinsamen Beschleunigern.
  • Prefix-Cache-bewusstes Routing: Anfragen mit gemeinsamem Kontext werden an dieselben Replicas geleitet, um Cache-Treffer zu maximieren. Laut Google verbessert das die Time-to-First-Token bei prefix-lastigen Multi-Turn-Workloads und reduziert den Beschleuniger-Bedarf.
  • Disaggregated Serving: Die rechenintensive Prefill-Phase wird von der speicherintensiven Decode-Phase auf unabhängig skalierbare Knoten getrennt. Google berichtet rund 60 Prozent höheren Durchsatz sowie bessere TTFT- und TPOT-Werte.
  • LLM-optimiertes Autoscaling und Observability: Das Autoscaling (HPA) nutzt Model-Server-Metriken zur effizienten Skalierung. Cloud-Monitoring-Dashboards zeigen Anfragerate, Latenz, Fehler und Sättigung.

Typische Anwendungsfälle

Self-hosted LLM-Serving auf GKE: Wer Sprachmodelle in eigener Verantwortung auf GKE betreibt, verteilt die Last beschleuniger- und cache-bewusst statt per Round-Robin. Das senkt Latenz und nutzt teure GPUs und TPUs gleichmäßiger aus.

Multi-Tenant-LoRA-Serving: Mehrere feinabgestimmte LoRA-Adapter laufen auf gemeinsamen Beschleunigern und werden anhand des Modellnamens adressiert. So lassen sich viele spezialisierte Modellvarianten kosteneffizient bereitstellen.

Graduelle Modell-Rollouts: Neue Modellversionen erhalten über Traffic-Splitting nach Modellname zunächst nur einen Teil der Anfragen. Das erlaubt kontrollierte Rollouts und schnelles Zurückrollen ohne separate Infrastruktur.

Vorteile

  • Niedrigere Time-to-First-Token und geringere Token-Kosten durch LLM-bewusstes und Prefix-Cache-bewusstes Routing.
  • Höherer Durchsatz durch Disaggregated Serving mit getrennt skalierbarer Prefill- und Decode-Phase.
  • Keine separate Produktgebühr, Abrechnung nur der genutzten GKE-Ressourcen, mit Betrieb in EU-Regionen.

Integration mit innFactory

Als zertifizierter Google Cloud Partner unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.

Typische Anwendungsfälle

Serving von LLMs und generativer KI auf GKE mit lastabhängigem Routing
Mehrere LoRA-Adapter auf gemeinsamen Beschleunigern multiplexen
Graduelle Rollouts und Traffic-Splitting nach Modellname
Multi-Turn-Chat-Workloads mit Prefix-Cache-bewusstem Routing beschleunigen

Häufig gestellte Fragen

Was ist GKE Inference Gateway?

GKE Inference Gateway ist eine Erweiterung des GKE Gateway, die Routing und Load Balancing für generative KI- und LLM-Workloads auf Kubernetes optimiert. Statt generischem Round-Robin nutzt es Live-Metriken wie KV-Cache-Auslastung, Beschleuniger-Auslastung und Warteschlangenlänge, um Anfragen an die passende Pod-Replica zu leiten. Die Einzel-Cluster-Variante ist seit September 2025 allgemein verfügbar.

Wann sollte ich GKE Inference Gateway einsetzen?

Setzen Sie es ein, wenn Sie LLMs oder generative KI auf GKE selbst betreiben und Latenz sowie Token-Kosten senken wollen. Es eignet sich für Multi-Turn-Chat mit Prefix-Cache-bewusstem Routing, für das Serving vieler LoRA-Adapter auf gemeinsamen GPUs oder TPUs sowie für graduelle Modell-Rollouts mit Traffic-Splitting nach Modellname.

Was kostet GKE Inference Gateway?

Es gibt keine separate Produktgebühr für GKE Inference Gateway. Sie zahlen die zugrunde liegenden GKE-Ressourcen: Compute und Beschleuniger (GPU/TPU), Load Balancing und Netzwerk. Die Kosten richten sich also nach dem Umfang Ihrer Inferenz-Infrastruktur.

Ist GKE Inference Gateway in der EU verfügbar und wie ist es abgesichert?

GKE Inference Gateway läuft in den GKE-Regionen, einschließlich EU-Regionen, sodass Daten in der EU verarbeitet werden können. Für KI-Sicherheit lässt es sich mit Model Armor und NVIDIA NeMo Guardrails integrieren, um Eingaben und Antworten auf schädliche Inhalte und Bedrohungen zu prüfen.

Google Cloud Partner

innFactory ist zertifizierter Google Cloud Partner. Wir bieten Beratung, Implementierung und Managed Services.

Google Cloud Partner

Ähnliche Produkte anderer Cloud-Anbieter

Andere Cloud-Anbieter bieten vergleichbare Services in dieser Kategorie. Als Multi-Cloud Partner helfen wir bei der richtigen Wahl.

80 vergleichbare Produkte bei anderen Cloud-Anbietern gefunden.

Bereit, mit GKE Inference Gateway - LLM-Routing auf Kubernetes zu starten?

Unsere zertifizierten Google Cloud Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren