Zum Hauptinhalt springen
Cloud / Azure / Produkte / Model Router - Automatisches LLM-Routing

Model Router - Automatisches LLM-Routing

Model Router: leitet jeden Prompt in Echtzeit an das passende LLM, optimiert Kosten, Latenz und Qualität aus einem Deployment.

ai-machine-learning
Preismodell Pay-per-use, abgerechnet zum Input-Tarif des gewählten Modells
Verfügbarkeit East US 2 und Sweden Central; Data Zone Standard mit EU-Datenhaltung
Datensouveränität Data Zone Standard für EU-Datenhaltung verfügbar
Zuverlässigkeit N/A (es gelten die SLAs der zugrunde liegenden Modelle) SLA

Was ist Model Router?

Model Router ist ein trainiertes Sprachmodell in Microsoft Foundry, das jeden Prompt in Echtzeit an das am besten geeignete große Sprachmodell (LLM) weiterleitet. Sie deployen Model Router wie jedes andere Foundry-Modell und erhalten ein einziges Deployment, das mehrere LLMs hinter einer einheitlichen Chat-Schnittstelle bündelt. Die Routing-Entscheidung basiert auf Attributen wie Komplexität, erforderlichem Reasoning und Aufgabentyp. Ihr Anwendungscode muss dafür nicht angepasst werden.

Model Router löst ein konkretes Problem im Betrieb von KI-Anwendungen: Wer für jede Anfrage dasselbe leistungsstarke Modell nutzt, zahlt auch für triviale Aufgaben den höchsten Preis. Model Router setzt kleinere und günstigere Modelle ein, wenn sie ausreichen, und greift auf größere oder Reasoning-Modelle zurück, wenn die Aufgabe es verlangt. So lassen sich Kosten und Latenz senken, während die Qualität vergleichbar bleibt. Aktuell stehen dutzende zugrunde liegende Modelle mehrerer Anbieter zur Auswahl, darunter die GPT-5-Reihe, Claude-, Grok-, DeepSeek- und Llama-Modelle.

Kernfunktionen

  • Echtzeit-Routing aus einem Deployment: Model Router analysiert jeden Prompt zur Laufzeit und wählt das passende Modell aus, ohne Ihre Prompts zu speichern. Sie verwalten ein Deployment statt vieler einzelner Modell-Deployments.
  • Drei Routing-Modi plus Modell-Auswahl: Balanced (Standard) wählt das kostengünstigste Modell innerhalb eines engen Qualitätsbandes von etwa 1 bis 2 Prozent. Cost erweitert das Band auf etwa 5 bis 6 Prozent für maximale Einsparungen. Quality wählt das höchstbewertete Modell und ignoriert die Kosten. Mit Model subset legen Sie fest, welche Modelle überhaupt für das Routing zugelassen sind.
  • Automatisches Failover und Prompt Caching: Treten bei einem Modell vorübergehende Probleme auf, leitet Model Router die Anfrage transparent an das nächstgeeignete Modell weiter. Das Failover ist standardmäßig aktiv. Prompt Caching wird automatisch genutzt, wenn das ausgewählte Modell es unterstützt.
  • Vision, Tools und Governance: Model Router verarbeitet Bildeingaben für Vision-fähige Chats, trifft die Routing-Entscheidung aber ausschließlich anhand des Texts. Audio-Eingaben werden nicht verarbeitet. Agentische Szenarien mit Tools im Foundry Agent Service werden unterstützt, und Azure Policy regelt zentral, welche Modelle in ein Deployment aufgenommen werden dürfen.

Typische Anwendungsfälle

Kostenoptimierung bei hohem Volumen: Anwendungen mit vielen einfachen Anfragen und einzelnen komplexen Aufgaben profitieren vom Cost- oder Balanced-Modus. Triviale Anfragen werden an günstige Modelle geleitet, sodass das Budget für die wirklich anspruchsvollen Aufgaben reserviert bleibt.

Einheitliche Schnittstelle für gemischte Workloads: Teams, die unterschiedliche Aufgabentypen über eine API abdecken wollen, von kurzen Klassifikationen bis zu mehrstufigem Reasoning, erhalten mit Model Router eine einzige Chat-Schnittstelle, die jeweils das passende Modell auswählt.

Höhere Verfügbarkeit durch Failover: Anwendungen mit Anspruch auf stabile Antwortzeiten nutzen das eingebaute automatische Failover. Fällt ein Modell vorübergehend aus, übernimmt das nächstgeeignete Modell, ohne dass die Anwendung Logik dafür implementieren muss.

Vorteile

  • Niedrigere Kosten und geringere Latenz bei vergleichbarer Qualität, da kleinere Modelle genutzt werden, wenn sie ausreichen.
  • Geringerer Betriebsaufwand durch ein einziges Deployment statt vieler einzelner Modell-Deployments.
  • Mehr Kontrolle über Kosten, Compliance und Performance durch Routing-Modi und Model subset, kombiniert mit Azure-Policy-Governance.

Integration mit innFactory

Als Microsoft Solutions Partner unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.

Typische Anwendungsfälle

Kostenoptimierung bei hohem Anfragevolumen ohne Qualitätsverlust
Einheitliche Chat-Schnittstelle für gemischte Aufgaben unterschiedlicher Komplexität
Automatisches Failover zwischen Modellen für höhere Verfügbarkeit
Agentische Szenarien mit Tool-Unterstützung im Foundry Agent Service

Häufig gestellte Fragen

Was ist Model Router?

Model Router ist ein trainiertes Sprachmodell in Microsoft Foundry, das jeden Prompt in Echtzeit analysiert und an das passende große Sprachmodell weiterleitet. Sie deployen ihn wie jedes andere Foundry-Modell und erhalten ein einziges Deployment, das mehrere LLMs hinter einer Schnittstelle bündelt. Ihr Anwendungscode bleibt unverändert.

Wann sollte ich Model Router einsetzen?

Model Router eignet sich, wenn Ihre Anwendung Aufgaben unterschiedlicher Komplexität verarbeitet und Sie nicht für jede Anfrage ein teures Modell bezahlen möchten. Einfache Anfragen gehen an kleinere, günstigere Modelle, komplexe Reasoning-Aufgaben an leistungsfähigere. Sinnvoll ist der Einsatz auch für höhere Verfügbarkeit durch automatisches Failover und für agentische Szenarien im Foundry Agent Service.

Was kostet Model Router?

Die Nutzung wird nach dem Pay-per-use-Prinzip abgerechnet: Sie zahlen für Input-Prompts zum Tarif des jeweils ausgewählten zugrunde liegenden Modells gemäß Pricing-Seite. Es fällt keine separate Routing-Gebühr an. Die Kosten Ihres Deployments lassen sich im Azure-Portal überwachen. Prompt Caching senkt die Kosten zusätzlich, wenn das gewählte Modell es unterstützt.

Ist Model Router in der EU verfügbar und wie ist die Datenhaltung geregelt?

Model Router ist in den Regionen East US 2 und Sweden Central verfügbar und unterstützt die Deployment-Typen Global Standard sowie Data Zone Standard. Mit Data Zone Standard bleiben Anfragen innerhalb der Datenzonengrenzen, was EU-Datenhaltung ermöglicht. Model Router speichert Ihre Prompts nicht und routet nur an Modelle, die mit Ihren Zugriffs- und Datenzonengrenzen vereinbar sind.

Microsoft Solutions Partner

innFactory ist Microsoft Solutions Partner. Wir bieten Beratung, Implementierung und Managed Services für Azure.

Microsoft Solutions Partner Microsoft Data & AI

Ähnliche Produkte anderer Cloud-Anbieter

Andere Cloud-Anbieter bieten vergleichbare Services in dieser Kategorie. Als Multi-Cloud Partner helfen wir bei der richtigen Wahl.

Google Cloud

Agent Development Kit (ADK) - Multi-Agent-Framework

Agent Development Kit (ADK): Open-Source-Framework von Google für den Bau, das Testen und Deployment von Single- und …

Preismodell Kostenlos / Open Source (Apache 2.0); …
SLA N/A (Framework); SLA abhängig vom gewählten Deployment-Ziel
Vergleichen →
AWS

Amazon Bedrock AgentCore - Runtime für KI-Agenten

Amazon Bedrock AgentCore: serverlose Runtime und Services, um produktive KI-Agenten sicher zu betreiben, zu skalieren …

Preismodell Pay-per-use (verbrauchsbasiert, …
SLA N/A
Vergleichen →
AWS

Amazon Bedrock Agents: Autonome KI-Agenten

Amazon Bedrock Agents baut autonome KI-Agenten, die mehrstufige Aufgaben planen, Tools und APIs nutzen und in …

Preismodell Pay-per-use (nur Modell-Tokens, keine …
SLA 99,9%
Vergleichen →
AWS

Amazon Bedrock Data Automation - Daten strukturieren

Amazon Bedrock Data Automation wandelt Dokumente, Bilder, Audio und Video per API in strukturierte Ausgaben um: für IDP, …

Preismodell Pay-per-use (pro Seite / pro Bild / pro …
SLA N/A
Vergleichen →
AWS

Amazon Bedrock Marketplace - Foundation-Modell-Katalog

Amazon Bedrock Marketplace: Katalog mit 100+ Foundation Models, die Sie abonnieren, auf SageMaker-Endpunkten …

Preismodell Pay-per-use: Softwaregebühr an …
SLA N/A
Vergleichen →
AWS

Amazon Bedrock: Generative KI Plattform

Amazon Bedrock: Foundation Models von Anthropic, OpenAI, Amazon Nova, Meta und mehr über eine API. EU-Regionen und …

Preismodell Pro Token, Batch, Provisioned Throughput
SLA 99,9% Verfügbarkeit
Vergleichen →

74 vergleichbare Produkte bei anderen Cloud-Anbietern gefunden.

Bereit, mit Model Router - Automatisches LLM-Routing zu starten?

Unsere zertifizierten Azure Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren