Azure Data Factory ist ein vollständig verwalteter Cloud-ETL-Service von Microsoft, der die Integration und Transformation von Daten aus über 100 Quellen ermöglicht. Der Service kombiniert code-freie visuelle Entwicklung mit leistungsstarken Transformations-Engines.
Was ist Azure Data Factory?
Azure Data Factory (ADF) ist Microsofts Lösung für moderne Datenintegration und ETL-Workflows. Der Service ermöglicht es, Daten aus heterogenen Quellen zu extrahieren, zu transformieren und in Ziel-Systeme zu laden, ohne eigene Infrastruktur zu verwalten.
Die Stärke von Data Factory liegt in der Kombination aus drei Komponenten:
1. Copy Activity: Hochperformantes Kopieren von Daten zwischen 100+ Konnektoren. Optimiert für hohen Durchsatz und niedrige Kosten.
2. Mapping Data Flows: Visuelle, Spark-basierte Transformations-Engine für komplexe Datenverarbeitung ohne Code. Ähnlich wie SSIS, aber cloud-native.
3. Pipeline Orchestration: Workflow-Engine mit Triggern, Abhängigkeiten, Conditional Logic und Fehlerbehandlung.
Azure Data Factory eignet sich besonders für Unternehmen, die von klassischen On-Premises-ETL-Tools (SSIS, Informatica, Talend) zu Cloud-nativen Lösungen migrieren möchten. Die Integration Runtime unterstützt Hybrid-Szenarien, bei denen Datenquellen sowohl in der Cloud als auch On-Premises liegen.
Für DSGVO-konforme Datenverarbeitung ist Data Factory in europäischen Regionen (Deutschland West Central, West Europe, France Central) verfügbar. Der Service erfüllt ISO 27001, SOC 2 und weitere Compliance-Standards.
Integration Runtime Optionen
Die Integration Runtime (IR) ist die Compute-Infrastruktur, die Data Factory für Datenintegration nutzt:
| Runtime | Verwendung | Standort |
|---|---|---|
| Azure IR | Cloud-zu-Cloud Datenverschiebung | Managed by Azure |
| Self-hosted IR | On-Premises, Private Networks | Kundenseitig installiert |
| Azure-SSIS IR | SSIS-Pakete ausführen | Managed by Azure |
Azure IR ist für die meisten Cloud-Szenarien ausreichend und erfordert keine Konfiguration.
Self-hosted IR ist erforderlich für:
- On-Premises-Datenquellen hinter Firewalls
- Private Azure VNETs ohne öffentliche Endpoints
- Datenquellen, die keine öffentliche IP-Adressen erlauben
Die Self-hosted IR wird als Software auf Windows-Servern installiert und registriert sich bei Data Factory. Daten fließen direkt zwischen Quelle und Ziel, Data Factory orchestriert nur.
Azure-SSIS IR ermöglicht die Ausführung bestehender SSIS-Pakete ohne Änderungen. Ideal für Lift-and-Shift-Migrationen von SQL Server zu Azure.
Mapping Data Flows vs. Copy Activity
Für die Wahl der richtigen Komponente gilt:
Nutze Copy Activity wenn:
- Daten nur kopiert werden (ohne Transformation)
- Einfache Spalten-Mappings ausreichen
- Kosten minimiert werden sollen
- Hoher Durchsatz prioritär ist (bis zu 256 MBps pro DIU)
Nutze Mapping Data Flows wenn:
- Komplexe Transformationen erforderlich sind (Joins, Aggregationen, Pivots)
- Visuelle Entwicklung bevorzugt wird
- Datenqualität-Checks implementiert werden sollen
- Spark-Skalierung für große Datenmengen benötigt wird
Mapping Data Flows verwendet Spark im Hintergrund, skaliert automatisch und bietet eine SSIS-ähnliche visuelle Oberfläche. Die Kosten sind höher als Copy Activity, aber oft günstiger als manuelle Spark-Implementierungen.
Typische Anwendungsfälle
1. Data Warehouse ETL
Laden Sie Daten aus operativen Systemen in Azure Synapse Analytics oder SQL Database für Reporting.
Beispiel: Nächtliche Aggregation von Verkaufsdaten aus 20+ Filialen in ein zentrales Data Warehouse.
2. Cloud-Migration
Migrieren Sie Datenbanken und File-Stores von On-Premises zu Azure.
Beispiel: Einmalige Migration einer 5 TB Oracle-Datenbank zu Azure SQL mit Self-hosted IR.
3. Hybrid-Datenintegration
Kombinieren Sie Cloud- und On-Premises-Daten für Analytics.
Beispiel: Join von Azure Cosmos DB (Cloud) mit SAP HANA (On-Prem) für Supply-Chain-Analysen.
4. Real-time Data Pipelines
Orchestrieren Sie Event-basierte Workflows mit Tumbling Window Triggern.
Beispiel: Verarbeitung von IoT-Daten aus Event Hub alle 5 Minuten mit Aggregation in Synapse.
5. Multi-Cloud-Integration
Integrieren Sie Daten über Cloud-Provider hinweg.
Beispiel: Kopieren von Daten aus AWS S3 zu Azure Blob Storage, dann Transformation mit Data Flows.
6. SaaS-Integration
Extrahieren Sie Daten aus SaaS-Anwendungen für interne Analytics.
Beispiel: Salesforce CRM-Daten täglich zu Azure SQL synchronisieren für Custom Dashboards.
Best Practices
1. Optimiere Copy Activity Performance
- Nutze parallel Copies für große Dateien
- Setze Data Integration Units (DIUs) auf 2-256 je nach Datenmenge
- Wähle compression für Netzwerk-Übertragungen
- Nutze partition Options für große Tabellen
{
"source": {
"type": "AzureSqlSource",
"partitionOption": "PhysicalPartitionsOfTable"
},
"sink": {
"type": "AzureSqlSink",
"writeBatchSize": 10000
},
"parallelCopies": 4,
"dataIntegrationUnits": 32
}2. Nutze Incremental Loads
Vermeide Full-Refreshes durch Wasserzeichen-basierte Incremental Loads:
SELECT * FROM source_table
WHERE last_modified > '@{pipeline().parameters.watermark}'3. Implement Error Handling
Nutze Retry Policies, Failure Handling und Alerts:
{
"retryPolicy": {
"count": 3,
"intervalInSeconds": 30
},
"onFailure": {
"dependentActivities": ["SendErrorEmail"]
}
}4. Security Best Practices
- Nutze Managed Identities statt Connection Strings
- Speichere Credentials in Azure Key Vault
- Aktiviere Private Endpoints für sensible Daten
- Setze Data Encryption in Transit und at Rest ein
5. Monitoring und Logging
- Aktiviere Azure Monitor Integration
- Nutze Log Analytics für Pipeline-Analysen
- Setze Alerts für fehlgeschlagene Runs
- Tracke Data Lineage mit Purview
6. Cost Optimization
- Nutze Schedule Triggers statt Tumbling Window wo möglich
- Deaktiviere Debug Mode in Production
- Optimiere DIUs basierend auf Performance-Tests
- Nutze Self-hosted IR zur Vermeidung von Egress-Kosten
Häufig gestellte Fragen
Was kostet Azure Data Factory?
Die Kosten setzen sich aus drei Komponenten zusammen:
- Orchestrierung: Ca. 1 EUR pro 1.000 Pipeline-Runs
- Copy Activity: 0,25 EUR pro DIU-Stunde
- Data Flows: 0,27 EUR pro vCore-Stunde (Compute-Optimized)
Beispiel: 100 tägliche Pipeline-Runs mit 1 TB Datenvolumen kosten ca. 150-300 EUR/Monat. Nutzen Sie den Azure Pricing Calculator für genaue Schätzungen.
Ist Azure Data Factory DSGVO-konform?
Ja, bei Wahl europäischer Azure-Regionen. Data Factory erfüllt ISO 27001, SOC 2, GDPR und weitere Standards. Daten verlassen nie die gewählte Region (außer bei expliziter Cross-Region-Konfiguration).
Wie integriert sich Azure Data Factory mit anderen Azure Services?
Native Integration mit: Azure Synapse Analytics, SQL Database, Cosmos DB, Blob Storage, Data Lake Storage, Databricks, Event Hub, Stream Analytics, Purview, Key Vault und 90+ weiteren Services.
Welche SLAs bietet Azure Data Factory?
99,9% SLA für Data Factory V2. Gilt für Pipeline-Orchestrierung, nicht für externe Datenquellen. Details im Azure Service Level Agreement.
Kann ich Azure Data Factory in Hybrid-Cloud-Szenarien nutzen?
Ja, über Self-hosted Integration Runtime. Installieren Sie die IR-Software On-Premises und Data Factory orchestriert Datenflüsse sicher über verschlüsselte Verbindungen.
Integration mit innFactory
Als Microsoft Solutions Partner unterstützt innFactory Sie bei:
- Data Factory Implementierung: Von Architektur bis Production-Deployment
- Migration von SSIS/Informatica: Modernisierung bestehender ETL-Prozesse
- Performance-Optimierung: Kostenreduktion und Beschleunigung
- Hybrid-Integration: Sichere Anbindung On-Premises-Quellen
- CI/CD-Setup: Azure DevOps Integration und Git-Workflows
Kontaktieren Sie uns für eine unverbindliche Beratung zu Azure Data Factory und Datenintegration.
Verfügbare Varianten & Optionen
Data Factory V2
- Code-freie visuelle Entwicklung
- 100+ native Konnektoren
- Integration Runtime für Hybrid-Szenarien
- Mapping Data Flows für komplexe Transformationen
- Höhere Kosten bei sehr hohen Datenvolumen
- Debugging kann komplex werden
Data Flow Compute-Optimized
- Optimiert für Transformationen großer Datenmengen
- Spark-basierte Ausführung
- Auto-Scaling von Clustern
- Höhere Kosten als Copy Activity
Data Flow Memory-Optimized
- Ideal für komplexe Joins und Aggregationen
- Mehr RAM pro Core
- Teurer als Compute-Optimized
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Was ist der Unterschied zwischen Copy Activity und Mapping Data Flows?
Copy Activity ist optimiert für einfaches Kopieren von Daten zwischen Quellen (schnell, kostengünstig). Mapping Data Flows ist ein Spark-basiertes Framework für komplexe Transformationen (Joins, Aggregationen, Pivots) mit visueller Entwicklung.
Wie funktioniert die Self-hosted Integration Runtime?
Die Self-hosted IR ist eine Software, die Sie in Ihrem Rechenzentrum oder VNET installieren. Sie ermöglicht sicheren Zugriff auf On-Premises-Datenquellen ohne öffentliche IPs und unterstützt Hybrid-Szenarien.
Kann ich bestehende SSIS-Pakete verwenden?
Ja, über die Azure-SSIS Integration Runtime können Sie bestehende SQL Server Integration Services (SSIS) Pakete ohne Änderungen in Azure ausführen. Dies erleichtert Lift-and-Shift-Migrationen.
Wie überwache ich Pipeline-Fehler?
Data Factory bietet integriertes Monitoring mit Pipeline Runs, Activity Logs und Azure Monitor Integration. Sie können Alerts für fehlgeschlagene Runs einrichten und Logs in Log Analytics analysieren.
Welche Datenquellen werden unterstützt?
Über 100 Konnektoren: Cloud-Datenbanken (Azure SQL, Cosmos DB), On-Premises (SQL Server, Oracle, SAP), SaaS (Salesforce, Dynamics 365), File-Stores (Azure Blob, AWS S3, SFTP), Data Warehouses (Snowflake, BigQuery).
Was kostet Azure Data Factory?
Preise basieren auf Pipeline-Orchestrierung (ca. 1 EUR pro 1.000 Runs), Copy Activity (0,25 EUR pro DIU-Stunde), Data Flow Executions (0,27 EUR pro vCore-Stunde). Exakte Kosten hängen von Volumen und Komplexität ab.
Wie sicher ist die Datenübertragung?
Data Factory unterstützt Verschlüsselung in Transit (TLS 1.2+), Managed Identities für Authentifizierung, Private Endpoints für VNET-Integration und Azure Key Vault für Credentials-Management.
Kann ich Git-Integration nutzen?
Ja, Data Factory unterstützt Azure DevOps Git und GitHub Integration für Versionskontrolle, CI/CD-Pipelines und Teamzusammenarbeit.
