Was ist Model Router?
Model Router ist ein trainiertes Sprachmodell in Microsoft Foundry, das jeden Prompt in Echtzeit an das am besten geeignete große Sprachmodell (LLM) weiterleitet. Sie deployen Model Router wie jedes andere Foundry-Modell und erhalten ein einziges Deployment, das mehrere LLMs hinter einer einheitlichen Chat-Schnittstelle bündelt. Die Routing-Entscheidung basiert auf Attributen wie Komplexität, erforderlichem Reasoning und Aufgabentyp. Ihr Anwendungscode muss dafür nicht angepasst werden.
Model Router löst ein konkretes Problem im Betrieb von KI-Anwendungen: Wer für jede Anfrage dasselbe leistungsstarke Modell nutzt, zahlt auch für triviale Aufgaben den höchsten Preis. Model Router setzt kleinere und günstigere Modelle ein, wenn sie ausreichen, und greift auf größere oder Reasoning-Modelle zurück, wenn die Aufgabe es verlangt. So lassen sich Kosten und Latenz senken, während die Qualität vergleichbar bleibt. Aktuell stehen dutzende zugrunde liegende Modelle mehrerer Anbieter zur Auswahl, darunter die GPT-5-Reihe, Claude-, Grok-, DeepSeek- und Llama-Modelle.
Kernfunktionen
- Echtzeit-Routing aus einem Deployment: Model Router analysiert jeden Prompt zur Laufzeit und wählt das passende Modell aus, ohne Ihre Prompts zu speichern. Sie verwalten ein Deployment statt vieler einzelner Modell-Deployments.
- Drei Routing-Modi plus Modell-Auswahl: Balanced (Standard) wählt das kostengünstigste Modell innerhalb eines engen Qualitätsbandes von etwa 1 bis 2 Prozent. Cost erweitert das Band auf etwa 5 bis 6 Prozent für maximale Einsparungen. Quality wählt das höchstbewertete Modell und ignoriert die Kosten. Mit Model subset legen Sie fest, welche Modelle überhaupt für das Routing zugelassen sind.
- Automatisches Failover und Prompt Caching: Treten bei einem Modell vorübergehende Probleme auf, leitet Model Router die Anfrage transparent an das nächstgeeignete Modell weiter. Das Failover ist standardmäßig aktiv. Prompt Caching wird automatisch genutzt, wenn das ausgewählte Modell es unterstützt.
- Vision, Tools und Governance: Model Router verarbeitet Bildeingaben für Vision-fähige Chats, trifft die Routing-Entscheidung aber ausschließlich anhand des Texts. Audio-Eingaben werden nicht verarbeitet. Agentische Szenarien mit Tools im Foundry Agent Service werden unterstützt, und Azure Policy regelt zentral, welche Modelle in ein Deployment aufgenommen werden dürfen.
Typische Anwendungsfälle
Kostenoptimierung bei hohem Volumen: Anwendungen mit vielen einfachen Anfragen und einzelnen komplexen Aufgaben profitieren vom Cost- oder Balanced-Modus. Triviale Anfragen werden an günstige Modelle geleitet, sodass das Budget für die wirklich anspruchsvollen Aufgaben reserviert bleibt.
Einheitliche Schnittstelle für gemischte Workloads: Teams, die unterschiedliche Aufgabentypen über eine API abdecken wollen, von kurzen Klassifikationen bis zu mehrstufigem Reasoning, erhalten mit Model Router eine einzige Chat-Schnittstelle, die jeweils das passende Modell auswählt.
Höhere Verfügbarkeit durch Failover: Anwendungen mit Anspruch auf stabile Antwortzeiten nutzen das eingebaute automatische Failover. Fällt ein Modell vorübergehend aus, übernimmt das nächstgeeignete Modell, ohne dass die Anwendung Logik dafür implementieren muss.
Vorteile
- Niedrigere Kosten und geringere Latenz bei vergleichbarer Qualität, da kleinere Modelle genutzt werden, wenn sie ausreichen.
- Geringerer Betriebsaufwand durch ein einziges Deployment statt vieler einzelner Modell-Deployments.
- Mehr Kontrolle über Kosten, Compliance und Performance durch Routing-Modi und Model subset, kombiniert mit Azure-Policy-Governance.
Integration mit innFactory
Als Microsoft Solutions Partner unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Model Router?
Model Router ist ein trainiertes Sprachmodell in Microsoft Foundry, das jeden Prompt in Echtzeit analysiert und an das passende große Sprachmodell weiterleitet. Sie deployen ihn wie jedes andere Foundry-Modell und erhalten ein einziges Deployment, das mehrere LLMs hinter einer Schnittstelle bündelt. Ihr Anwendungscode bleibt unverändert.
Wann sollte ich Model Router einsetzen?
Model Router eignet sich, wenn Ihre Anwendung Aufgaben unterschiedlicher Komplexität verarbeitet und Sie nicht für jede Anfrage ein teures Modell bezahlen möchten. Einfache Anfragen gehen an kleinere, günstigere Modelle, komplexe Reasoning-Aufgaben an leistungsfähigere. Sinnvoll ist der Einsatz auch für höhere Verfügbarkeit durch automatisches Failover und für agentische Szenarien im Foundry Agent Service.
Was kostet Model Router?
Die Nutzung wird nach dem Pay-per-use-Prinzip abgerechnet: Sie zahlen für Input-Prompts zum Tarif des jeweils ausgewählten zugrunde liegenden Modells gemäß Pricing-Seite. Es fällt keine separate Routing-Gebühr an. Die Kosten Ihres Deployments lassen sich im Azure-Portal überwachen. Prompt Caching senkt die Kosten zusätzlich, wenn das gewählte Modell es unterstützt.
Ist Model Router in der EU verfügbar und wie ist die Datenhaltung geregelt?
Model Router ist in den Regionen East US 2 und Sweden Central verfügbar und unterstützt die Deployment-Typen Global Standard sowie Data Zone Standard. Mit Data Zone Standard bleiben Anfragen innerhalb der Datenzonengrenzen, was EU-Datenhaltung ermöglicht. Model Router speichert Ihre Prompts nicht und routet nur an Modelle, die mit Ihren Zugriffs- und Datenzonengrenzen vereinbar sind.
