Zum Hauptinhalt springen
Cloud / STACKIT / Produkte / STACKIT AI Model Serving: Souveräne LLMs

STACKIT AI Model Serving: Souveräne LLMs

STACKIT AI Model Serving: Open-Weight-LLMs wie Llama, Qwen und GPT-OSS DSGVO-konform aus deutschen Rechenzentren, OpenAI-kompatibel.

Data & AI
Preismodell Pay-as-you-go pro Token (Input/Output)
Verfügbarkeit Region eu01 (Deutschland)
Datensouveränität Keine Speicherung, kein Training mit Kundendaten
Zuverlässigkeit Betrieb auf der datensouveränen STACKIT Cloud SLA

Was ist STACKIT AI Model Serving?

STACKIT AI Model Serving ist eine vollständig gemanagte Plattform für den DSGVO-konformen Zugriff auf führende Open-Weight Large Language Models. Der Dienst stellt Modelle wie Llama 3.3, Gemma 3, GPT-OSS und Qwen3 über eine einheitliche, OpenAI-kompatible API bereit. Alle Prompts und Responses werden in deutschen Rechenzentren (Region eu01) verarbeitet. STACKIT speichert keine Kundendaten und trainiert die Modelle nicht mit Ihren Anfragen. So erhalten Sie generative KI mit voller Datensouveränität und ohne Anbieterabhängigkeit.

Der Dienst ist seit Mai 2025 verfügbar und wird laufend um aktuelle Modelle erweitert. Die Abrechnung erfolgt pay-as-you-go nach verbrauchten Tokens, sodass Sie ohne feste Instanzkosten starten können.

Kernfunktionen

  • Zugriff auf Open-Weight-Modelle: Llama 3.3 70B, Gemma 3 27B, GPT-OSS 120B und 20B, Qwen3-VL 235B sowie das Coding-Modell Qwen3.6 27B
  • OpenAI-kompatible REST API mit Chat-Completions- und Embeddings-Endpunkten für eine schnelle Integration
  • Kontextfenster bis 262K Tokens und Generierung umfangreicher Antworten je nach Modell
  • Tool Calling und Reasoning für agentische Workflows sowie Vision-Unterstützung (bis zu 3 Bilder pro Anfrage)
  • Text- und multimodale Embedding-Modelle für semantische Suche und Cross-Modal Retrieval
  • Keine Speicherung von Kundendaten und kein Training mit Ihren Daten, betrieben in der Region eu01

Typische Anwendungsfälle

Chatbots und virtuelle Assistenten: Kundenservice-Bots mit natürlicher Konversation für Support, Beratung und FAQ-Beantwortung, vollständig in der EU betrieben.

Retrieval Augmented Generation (RAG): Anbindung eigener Wissensdatenbanken über Embedding-Modelle und Cross-Modal Retrieval, etwa mit der quelloffenen STACKIT RAG-Vorlage.

Dokumentenanalyse: Verarbeitung von Verträgen, Berichten und juristischen Dokumenten mit automatischer Zusammenfassung und Extraktion.

Code-Generierung und Review: Unterstützung der Softwareentwicklung mit dem Coding-Modell Qwen3.6 27B für Generierung, Debugging und technisches Reasoning.

Vorteile

  • Volle Datensouveränität: Verarbeitung in deutschen Rechenzentren, keine Datenspeicherung und kein Training mit Ihren Daten
  • Anbieterunabhängigkeit durch offene Modelle und offene Schnittstellen statt proprietärer Bindung
  • Einfache Migration: bestehende OpenAI-Integrationen funktionieren durch die kompatible API mit minimalen Änderungen
  • Planbare Kosten dank pay-as-you-go-Abrechnung nach Tokens ohne feste Instanzgebühren
  • DSGVO- und EU-AI-Act-Konformität als Grundlage für regulierte Branchen

Integration mit innFactory

Als offizieller STACKIT Partner unterstützt innFactory Sie bei AI Model Serving entlang des gesamten Lebenszyklus: Architektur und Modellauswahl, Migration bestehender OpenAI-Anwendungen, Aufbau von RAG-Pipelines, sicherer Betrieb sowie Kostenoptimierung. So bringen Sie souveräne KI schnell und compliant in Produktion.

Verfügbare Varianten & Optionen

Embedding- und Vision-Modelle

Stärken
  • Text- und multimodale Embeddings
  • Bildverständnis (bis 3 Bilder pro Anfrage)
  • Cross-Modal Retrieval für RAG
Einschränkungen
  • Kein Feintuning der Shared Models

Typische Anwendungsfälle

Chatbots und virtuelle Assistenten
Retrieval Augmented Generation (RAG)
Dokumentenanalyse und Zusammenfassung
Code-Generierung und Review

Technische Spezifikationen

API OpenAI-kompatible REST API (eu01)
Capabilities Tool Calling, Reasoning, Vision, Embeddings
Compliance DSGVO, EU AI Act
Context window Bis 262K Tokens (modellabhängig)
Data residency Verarbeitung in Deutschland (Region eu01)
Models Llama 3.3 70B, Gemma 3 27B, GPT-OSS 120B/20B, Qwen3-VL 235B, Qwen3.6 27B, Embeddings

Häufig gestellte Fragen

Welche KI-Modelle sind verfügbar?

STACKIT stellt Open-Weight-Modelle über eine einheitliche API bereit, darunter Llama 3.3 70B, Gemma 3 27B, GPT-OSS 120B und 20B sowie Qwen3-VL 235B und das Coding-Modell Qwen3.6 27B. Für Embeddings stehen E5 Mistral 7B und ein multimodales Qwen3-VL-Embedding-Modell zur Verfügung.

Sind proprietäre Modelle wie GPT-4, Claude oder Gemini verfügbar?

Nein. STACKIT AI Model Serving setzt bewusst auf offene Modelle (Open Weights), die in deutschen Rechenzentren betrieben werden. Dadurch bleiben Sie anbieterunabhängig und behalten volle Datensouveränität.

Werden meine Prompts gespeichert oder für Training verwendet?

Nein. STACKIT speichert keine Kundendaten aus den Anfragen und trainiert die Modelle nicht mit Ihren Daten. Prompts und Responses verlassen den deutschen Rechtsraum nicht.

Ist die API OpenAI-kompatibel?

Ja. Der Dienst bietet eine OpenAI-kompatible REST API mit den Endpunkten /v1/chat/completions und /v1/embeddings. Bestehender OpenAI-Code funktioniert mit minimalen Anpassungen: Sie ändern lediglich Basis-URL und API-Token. Die API ist zustandslos, der Konversationsverlauf wird pro Anfrage mitgesendet.

Wie funktioniert die Abrechnung?

Die Nutzung erfolgt pay-as-you-go nach verbrauchten Input- und Output-Tokens, abhängig vom gewählten Modell. Es gibt keine festen Instanzkosten für die Shared Models.

Wo werden die Modelle betrieben?

Die Modelle laufen in der Region eu01 auf der datensouveränen STACKIT Cloud in Deutschland. Die Basis-URL der OpenAI-kompatiblen API lautet https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1.

STACKIT Partner

innFactory ist offizieller STACKIT Partner. Wir bieten Beratung, Implementierung und Managed Services für die souveräne Cloud.

STACKIT Official Partner

Bereit, mit STACKIT AI Model Serving: Souveräne LLMs zu starten?

Unsere zertifizierten STACKIT Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren