Was ist Foundry Local?
Foundry Local ist eine End-to-End-Lösung von Microsoft, um KI-Anwendungen zu entwickeln, die vollständig auf dem Endgerät des Nutzers laufen. Die lokale KI-Runtime übernimmt Modellbezug, Hardware-Beschleunigung, Modellverwaltung und Inferenz über ONNX Runtime. Die Runtime fügt der Anwendung nur rund 20 MB hinzu und führt die Inferenz direkt im Prozess aus. Damit lässt sich KI dort einbetten, wo Paketgröße, Datenschutz und Offline-Fähigkeit zählen.
Foundry Local löst ein konkretes Problem: KI-Funktionen lassen sich in Client-Anwendungen integrieren, ohne dass Daten in die Cloud übertragen werden, ohne Netzwerklatenz und ohne Kosten pro Token. Eine Azure-Subscription ist nicht erforderlich. Die Antworten starten unmittelbar, und die Anwendung funktioniert auch offline. Für Inferenz auf eigener Infrastruktur im Unternehmensmaßstab mit Kubernetes-nativem Betrieb gibt es separat Foundry Local on Azure Local.
Kernfunktionen
- Schlanke On-Device-Runtime: Die Runtime auf Basis von ONNX Runtime übernimmt Modellbezug, Hardware-Beschleunigung und Inferenz im Anwendungsprozess und fügt dem App-Paket nur etwa 20 MB hinzu.
- OpenAI-kompatible API: Foundry Local unterstützt OpenAI-konforme Request- und Response-Formate inklusive des OpenAI Responses API-Formats, sodass bestehende OpenAI-SDK-Anwendungen mit minimalen Codeänderungen weiterverwendet werden können.
- Automatische Hardware-Beschleunigung: Foundry Local erkennt die verfügbare Hardware und wählt den besten Execution Provider über CPU, GPU und NPU, mit nahtlosem Fallback auf die CPU. Updates für Execution Provider und Treiber werden automatisch verwaltet.
- Kuratierter Modellkatalog: Ein versionierter Katalog quantisierter, für den On-Device-Einsatz optimierter Modelle deckt Chat-Completions (etwa GPT OSS, Qwen, DeepSeek, Mistral, Phi) und Audio-Transkription (etwa Whisper) ab. Modelle laden beim ersten Einsatz herunter und werden lokal zwischengespeichert.
Typische Anwendungsfälle
KI in Client-Anwendungen einbetten: Entwickler integrieren KI-Funktionen direkt in Desktop-Anwendungen über das SDK für C#, JavaScript, Python oder Rust. Die Inferenz läuft im Anwendungsprozess, ohne separates Backend und ohne Cloud-Abhängigkeit.
Verarbeitung sensibler Daten auf dem Gerät: Anwendungen verarbeiten Audio, Text oder Bilder lokal, sodass die Daten das Gerät nicht verlassen. Das eignet sich für Szenarien mit strengen Datenschutz- und Compliance-Anforderungen.
Offline- und Edge-Szenarien: In Umgebungen mit eingeschränkter oder fehlender Konnektivität liefert Foundry Local KI-Funktionen ohne Netzwerkzugriff. Für die eigentliche Inferenz ist nach dem ersten Modell-Download keine Verbindung nötig.
Vorteile
- Keine Token-Kosten und keine Azure-Subscription erforderlich.
- Daten bleiben auf dem Gerät, mit unmittelbarem Start der Antworten und ohne Netzwerklatenz.
- Plattformübergreifend für Windows, macOS (Apple Silicon) und Linux, mit automatischer Auswahl der besten Hardware.
Integration mit innFactory
Als Microsoft Solutions Partner unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Foundry Local?
Foundry Local ist eine End-to-End-Lösung von Microsoft, um KI-Modelle vollständig auf dem Endgerät des Nutzers auszuführen. Sie kombiniert eine schlanke Runtime auf Basis von ONNX Runtime, ein kuratiertes Modellkatalog und ein SDK für C#, JavaScript, Python und Rust. Daten verlassen das Gerät nicht, und es entstehen keine Token-Kosten.
Wann sollte ich Foundry Local einsetzen?
Foundry Local eignet sich, wenn sensible Daten auf dem Gerät bleiben müssen, wenn Anwendungen offline oder bei eingeschränkter Konnektivität funktionieren sollen, wenn Sie geringe Latenz für Echtzeit-Interaktionen benötigen oder wenn Sie Token-Kosten cloudbasierter Inferenz reduzieren wollen. Es ist auf Einzelnutzer-Szenarien auf Client-Geräten ausgelegt.
Was kostet Foundry Local?
Foundry Local verursacht keine Token-Kosten und benötigt keine Azure-Subscription. Die Modelle laufen vollständig auf lokaler Hardware. Für die Nutzung gelten die Produktbedingungen und Lizenzen der Software sowie der jeweils verwendeten Modelle.
Auf welchen Plattformen läuft Foundry Local und ist es OpenAI-kompatibel?
Foundry Local unterstützt Windows, macOS (Apple Silicon) und Linux und nutzt automatisch die beste verfügbare Hardware (CPU, GPU oder NPU). Die Runtime stellt eine OpenAI-kompatible API bereit, inklusive des OpenAI Responses API-Formats. Bestehende OpenAI-SDK-Anwendungen lassen sich mit minimalen Anpassungen auf einen Foundry-Local-Endpunkt umstellen.
