Was ist STACKIT AI Model Serving?
STACKIT AI Model Serving ist eine vollständig gemanagte Plattform für den DSGVO-konformen Zugriff auf führende Open-Weight Large Language Models. Der Dienst stellt Modelle wie Llama 3.3, Gemma 3, GPT-OSS und Qwen3 über eine einheitliche, OpenAI-kompatible API bereit. Alle Prompts und Responses werden in deutschen Rechenzentren (Region eu01) verarbeitet. STACKIT speichert keine Kundendaten und trainiert die Modelle nicht mit Ihren Anfragen. So erhalten Sie generative KI mit voller Datensouveränität und ohne Anbieterabhängigkeit.
Der Dienst ist seit Mai 2025 verfügbar und wird laufend um aktuelle Modelle erweitert. Die Abrechnung erfolgt pay-as-you-go nach verbrauchten Tokens, sodass Sie ohne feste Instanzkosten starten können.
Kernfunktionen
- Zugriff auf Open-Weight-Modelle: Llama 3.3 70B, Gemma 3 27B, GPT-OSS 120B und 20B, Qwen3-VL 235B sowie das Coding-Modell Qwen3.6 27B
- OpenAI-kompatible REST API mit Chat-Completions- und Embeddings-Endpunkten für eine schnelle Integration
- Kontextfenster bis 262K Tokens und Generierung umfangreicher Antworten je nach Modell
- Tool Calling und Reasoning für agentische Workflows sowie Vision-Unterstützung (bis zu 3 Bilder pro Anfrage)
- Text- und multimodale Embedding-Modelle für semantische Suche und Cross-Modal Retrieval
- Keine Speicherung von Kundendaten und kein Training mit Ihren Daten, betrieben in der Region eu01
Typische Anwendungsfälle
Chatbots und virtuelle Assistenten: Kundenservice-Bots mit natürlicher Konversation für Support, Beratung und FAQ-Beantwortung, vollständig in der EU betrieben.
Retrieval Augmented Generation (RAG): Anbindung eigener Wissensdatenbanken über Embedding-Modelle und Cross-Modal Retrieval, etwa mit der quelloffenen STACKIT RAG-Vorlage.
Dokumentenanalyse: Verarbeitung von Verträgen, Berichten und juristischen Dokumenten mit automatischer Zusammenfassung und Extraktion.
Code-Generierung und Review: Unterstützung der Softwareentwicklung mit dem Coding-Modell Qwen3.6 27B für Generierung, Debugging und technisches Reasoning.
Vorteile
- Volle Datensouveränität: Verarbeitung in deutschen Rechenzentren, keine Datenspeicherung und kein Training mit Ihren Daten
- Anbieterunabhängigkeit durch offene Modelle und offene Schnittstellen statt proprietärer Bindung
- Einfache Migration: bestehende OpenAI-Integrationen funktionieren durch die kompatible API mit minimalen Änderungen
- Planbare Kosten dank pay-as-you-go-Abrechnung nach Tokens ohne feste Instanzgebühren
- DSGVO- und EU-AI-Act-Konformität als Grundlage für regulierte Branchen
Integration mit innFactory
Als offizieller STACKIT Partner unterstützt innFactory Sie bei AI Model Serving entlang des gesamten Lebenszyklus: Architektur und Modellauswahl, Migration bestehender OpenAI-Anwendungen, Aufbau von RAG-Pipelines, sicherer Betrieb sowie Kostenoptimierung. So bringen Sie souveräne KI schnell und compliant in Produktion.
Verfügbare Varianten & Optionen
Chat- und Reasoning-Modelle
- Llama 3.3, Gemma 3, GPT-OSS, Qwen3
- Tool Calling und Reasoning
- Kontextfenster bis 262K Tokens
- Open-Weight-Modelle, keine proprietären Modelle
Embedding- und Vision-Modelle
- Text- und multimodale Embeddings
- Bildverständnis (bis 3 Bilder pro Anfrage)
- Cross-Modal Retrieval für RAG
- Kein Feintuning der Shared Models
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Welche KI-Modelle sind verfügbar?
STACKIT stellt Open-Weight-Modelle über eine einheitliche API bereit, darunter Llama 3.3 70B, Gemma 3 27B, GPT-OSS 120B und 20B sowie Qwen3-VL 235B und das Coding-Modell Qwen3.6 27B. Für Embeddings stehen E5 Mistral 7B und ein multimodales Qwen3-VL-Embedding-Modell zur Verfügung.
Sind proprietäre Modelle wie GPT-4, Claude oder Gemini verfügbar?
Nein. STACKIT AI Model Serving setzt bewusst auf offene Modelle (Open Weights), die in deutschen Rechenzentren betrieben werden. Dadurch bleiben Sie anbieterunabhängig und behalten volle Datensouveränität.
Werden meine Prompts gespeichert oder für Training verwendet?
Nein. STACKIT speichert keine Kundendaten aus den Anfragen und trainiert die Modelle nicht mit Ihren Daten. Prompts und Responses verlassen den deutschen Rechtsraum nicht.
Ist die API OpenAI-kompatibel?
Ja. Der Dienst bietet eine OpenAI-kompatible REST API mit den Endpunkten /v1/chat/completions und /v1/embeddings. Bestehender OpenAI-Code funktioniert mit minimalen Anpassungen: Sie ändern lediglich Basis-URL und API-Token. Die API ist zustandslos, der Konversationsverlauf wird pro Anfrage mitgesendet.
Wie funktioniert die Abrechnung?
Die Nutzung erfolgt pay-as-you-go nach verbrauchten Input- und Output-Tokens, abhängig vom gewählten Modell. Es gibt keine festen Instanzkosten für die Shared Models.
Wo werden die Modelle betrieben?
Die Modelle laufen in der Region eu01 auf der datensouveränen STACKIT Cloud in Deutschland. Die Basis-URL der OpenAI-kompatiblen API lautet https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1.
