Zum Hauptinhalt springen
Cloud / Azure / Produkte / Foundry Local - Lokale KI auf dem Endgerät

Foundry Local - Lokale KI auf dem Endgerät

Foundry Local: Cross-Plattform KI-Runtime, die Modelle on-device via ONNX Runtime ausführt. OpenAI-kompatible API, ohne Cloud, Latenz oder Token-Kosten.

ai-machine-learning
Preismodell Kostenlos, keine Token-Kosten
Verfügbarkeit Läuft on-device, weltweit inkl. EU, keine Azure-Region nötig
Datensouveränität Daten verlassen das Gerät nicht
Zuverlässigkeit N/A (lokale Ausführung ohne Service-SLA) SLA

Was ist Foundry Local?

Foundry Local ist eine End-to-End-Lösung von Microsoft, um KI-Anwendungen zu entwickeln, die vollständig auf dem Endgerät des Nutzers laufen. Die lokale KI-Runtime übernimmt Modellbezug, Hardware-Beschleunigung, Modellverwaltung und Inferenz über ONNX Runtime. Die Runtime fügt der Anwendung nur rund 20 MB hinzu und führt die Inferenz direkt im Prozess aus. Damit lässt sich KI dort einbetten, wo Paketgröße, Datenschutz und Offline-Fähigkeit zählen.

Foundry Local löst ein konkretes Problem: KI-Funktionen lassen sich in Client-Anwendungen integrieren, ohne dass Daten in die Cloud übertragen werden, ohne Netzwerklatenz und ohne Kosten pro Token. Eine Azure-Subscription ist nicht erforderlich. Die Antworten starten unmittelbar, und die Anwendung funktioniert auch offline. Für Inferenz auf eigener Infrastruktur im Unternehmensmaßstab mit Kubernetes-nativem Betrieb gibt es separat Foundry Local on Azure Local.

Kernfunktionen

  • Schlanke On-Device-Runtime: Die Runtime auf Basis von ONNX Runtime übernimmt Modellbezug, Hardware-Beschleunigung und Inferenz im Anwendungsprozess und fügt dem App-Paket nur etwa 20 MB hinzu.
  • OpenAI-kompatible API: Foundry Local unterstützt OpenAI-konforme Request- und Response-Formate inklusive des OpenAI Responses API-Formats, sodass bestehende OpenAI-SDK-Anwendungen mit minimalen Codeänderungen weiterverwendet werden können.
  • Automatische Hardware-Beschleunigung: Foundry Local erkennt die verfügbare Hardware und wählt den besten Execution Provider über CPU, GPU und NPU, mit nahtlosem Fallback auf die CPU. Updates für Execution Provider und Treiber werden automatisch verwaltet.
  • Kuratierter Modellkatalog: Ein versionierter Katalog quantisierter, für den On-Device-Einsatz optimierter Modelle deckt Chat-Completions (etwa GPT OSS, Qwen, DeepSeek, Mistral, Phi) und Audio-Transkription (etwa Whisper) ab. Modelle laden beim ersten Einsatz herunter und werden lokal zwischengespeichert.

Typische Anwendungsfälle

KI in Client-Anwendungen einbetten: Entwickler integrieren KI-Funktionen direkt in Desktop-Anwendungen über das SDK für C#, JavaScript, Python oder Rust. Die Inferenz läuft im Anwendungsprozess, ohne separates Backend und ohne Cloud-Abhängigkeit.

Verarbeitung sensibler Daten auf dem Gerät: Anwendungen verarbeiten Audio, Text oder Bilder lokal, sodass die Daten das Gerät nicht verlassen. Das eignet sich für Szenarien mit strengen Datenschutz- und Compliance-Anforderungen.

Offline- und Edge-Szenarien: In Umgebungen mit eingeschränkter oder fehlender Konnektivität liefert Foundry Local KI-Funktionen ohne Netzwerkzugriff. Für die eigentliche Inferenz ist nach dem ersten Modell-Download keine Verbindung nötig.

Vorteile

  • Keine Token-Kosten und keine Azure-Subscription erforderlich.
  • Daten bleiben auf dem Gerät, mit unmittelbarem Start der Antworten und ohne Netzwerklatenz.
  • Plattformübergreifend für Windows, macOS (Apple Silicon) und Linux, mit automatischer Auswahl der besten Hardware.

Integration mit innFactory

Als Microsoft Solutions Partner unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.

Typische Anwendungsfälle

KI-Funktionen in Desktop-Apps ohne Cloud-Backend einbetten
Verarbeitung sensibler Daten (Audio, Text, Bilder) direkt auf dem Gerät
Offline- und Edge-Szenarien mit eingeschränkter Konnektivität
Token-Kosten cloudbasierter Inferenz senken

Häufig gestellte Fragen

Was ist Foundry Local?

Foundry Local ist eine End-to-End-Lösung von Microsoft, um KI-Modelle vollständig auf dem Endgerät des Nutzers auszuführen. Sie kombiniert eine schlanke Runtime auf Basis von ONNX Runtime, ein kuratiertes Modellkatalog und ein SDK für C#, JavaScript, Python und Rust. Daten verlassen das Gerät nicht, und es entstehen keine Token-Kosten.

Wann sollte ich Foundry Local einsetzen?

Foundry Local eignet sich, wenn sensible Daten auf dem Gerät bleiben müssen, wenn Anwendungen offline oder bei eingeschränkter Konnektivität funktionieren sollen, wenn Sie geringe Latenz für Echtzeit-Interaktionen benötigen oder wenn Sie Token-Kosten cloudbasierter Inferenz reduzieren wollen. Es ist auf Einzelnutzer-Szenarien auf Client-Geräten ausgelegt.

Was kostet Foundry Local?

Foundry Local verursacht keine Token-Kosten und benötigt keine Azure-Subscription. Die Modelle laufen vollständig auf lokaler Hardware. Für die Nutzung gelten die Produktbedingungen und Lizenzen der Software sowie der jeweils verwendeten Modelle.

Auf welchen Plattformen läuft Foundry Local und ist es OpenAI-kompatibel?

Foundry Local unterstützt Windows, macOS (Apple Silicon) und Linux und nutzt automatisch die beste verfügbare Hardware (CPU, GPU oder NPU). Die Runtime stellt eine OpenAI-kompatible API bereit, inklusive des OpenAI Responses API-Formats. Bestehende OpenAI-SDK-Anwendungen lassen sich mit minimalen Anpassungen auf einen Foundry-Local-Endpunkt umstellen.

Microsoft Solutions Partner

innFactory ist Microsoft Solutions Partner. Wir bieten Beratung, Implementierung und Managed Services für Azure.

Microsoft Solutions Partner Microsoft Data & AI

Ähnliche Produkte anderer Cloud-Anbieter

Andere Cloud-Anbieter bieten vergleichbare Services in dieser Kategorie. Als Multi-Cloud Partner helfen wir bei der richtigen Wahl.

Google Cloud

Agent Development Kit (ADK) - Multi-Agent-Framework

Agent Development Kit (ADK): Open-Source-Framework von Google für den Bau, das Testen und Deployment von Single- und …

Preismodell Kostenlos / Open Source (Apache 2.0); …
SLA N/A (Framework); SLA abhängig vom gewählten Deployment-Ziel
Vergleichen →
AWS

Amazon Bedrock AgentCore - Runtime für KI-Agenten

Amazon Bedrock AgentCore: serverlose Runtime und Services, um produktive KI-Agenten sicher zu betreiben, zu skalieren …

Preismodell Pay-per-use (verbrauchsbasiert, …
SLA N/A
Vergleichen →
AWS

Amazon Bedrock Agents: Autonome KI-Agenten

Amazon Bedrock Agents baut autonome KI-Agenten, die mehrstufige Aufgaben planen, Tools und APIs nutzen und in …

Preismodell Pay-per-use (nur Modell-Tokens, keine …
SLA 99,9%
Vergleichen →
AWS

Amazon Bedrock Data Automation - Daten strukturieren

Amazon Bedrock Data Automation wandelt Dokumente, Bilder, Audio und Video per API in strukturierte Ausgaben um: für IDP, …

Preismodell Pay-per-use (pro Seite / pro Bild / pro …
SLA N/A
Vergleichen →
AWS

Amazon Bedrock Marketplace - Foundation-Modell-Katalog

Amazon Bedrock Marketplace: Katalog mit 100+ Foundation Models, die Sie abonnieren, auf SageMaker-Endpunkten …

Preismodell Pay-per-use: Softwaregebühr an …
SLA N/A
Vergleichen →
AWS

Amazon Bedrock: Generative KI Plattform

Amazon Bedrock: Foundation Models von Anthropic, OpenAI, Amazon Nova, Meta und mehr über eine API. EU-Regionen und …

Preismodell Pro Token, Batch, Provisioned Throughput
SLA 99,9% Verfügbarkeit
Vergleichen →

74 vergleichbare Produkte bei anderen Cloud-Anbietern gefunden.

Bereit, mit Foundry Local - Lokale KI auf dem Endgerät zu starten?

Unsere zertifizierten Azure Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren