Zum Hauptinhalt springen
Cloud / Azure / Produkte / Azure Data Factory - Cloud ETL und Datenintegration

Azure Data Factory - Cloud ETL und Datenintegration

Azure Data Factory: Vollständig verwalteter ETL-Service für Cloud-basierte Datenintegration und Orchestrierung

analytics
Preismodell Pay-per-Pipeline-Run und Datenvolumen
Verfügbarkeit 30+ Azure Regionen weltweit
Datensouveränität EU-Regionen verfügbar (Deutschland, Niederlande, Frankreich)
Zuverlässigkeit 99,9% für Data Factory V2 SLA

Azure Data Factory ist ein vollständig verwalteter Cloud-ETL-Service von Microsoft, der die Integration und Transformation von Daten aus über 100 Quellen ermöglicht. Der Service kombiniert code-freie visuelle Entwicklung mit leistungsstarken Transformations-Engines.

Was ist Azure Data Factory?

Azure Data Factory (ADF) ist Microsofts Lösung für moderne Datenintegration und ETL-Workflows. Der Service ermöglicht es, Daten aus heterogenen Quellen zu extrahieren, zu transformieren und in Ziel-Systeme zu laden, ohne eigene Infrastruktur zu verwalten.

Die Stärke von Data Factory liegt in der Kombination aus drei Komponenten:

1. Copy Activity: Hochperformantes Kopieren von Daten zwischen 100+ Konnektoren. Optimiert für hohen Durchsatz und niedrige Kosten.

2. Mapping Data Flows: Visuelle, Spark-basierte Transformations-Engine für komplexe Datenverarbeitung ohne Code. Ähnlich wie SSIS, aber cloud-native.

3. Pipeline Orchestration: Workflow-Engine mit Triggern, Abhängigkeiten, Conditional Logic und Fehlerbehandlung.

Azure Data Factory eignet sich besonders für Unternehmen, die von klassischen On-Premises-ETL-Tools (SSIS, Informatica, Talend) zu Cloud-nativen Lösungen migrieren möchten. Die Integration Runtime unterstützt Hybrid-Szenarien, bei denen Datenquellen sowohl in der Cloud als auch On-Premises liegen.

Für DSGVO-konforme Datenverarbeitung ist Data Factory in europäischen Regionen (Deutschland West Central, West Europe, France Central) verfügbar. Der Service erfüllt ISO 27001, SOC 2 und weitere Compliance-Standards.

Integration Runtime Optionen

Die Integration Runtime (IR) ist die Compute-Infrastruktur, die Data Factory für Datenintegration nutzt:

RuntimeVerwendungStandort
Azure IRCloud-zu-Cloud DatenverschiebungManaged by Azure
Self-hosted IROn-Premises, Private NetworksKundenseitig installiert
Azure-SSIS IRSSIS-Pakete ausführenManaged by Azure

Azure IR ist für die meisten Cloud-Szenarien ausreichend und erfordert keine Konfiguration.

Self-hosted IR ist erforderlich für:

  • On-Premises-Datenquellen hinter Firewalls
  • Private Azure VNETs ohne öffentliche Endpoints
  • Datenquellen, die keine öffentliche IP-Adressen erlauben

Die Self-hosted IR wird als Software auf Windows-Servern installiert und registriert sich bei Data Factory. Daten fließen direkt zwischen Quelle und Ziel, Data Factory orchestriert nur.

Azure-SSIS IR ermöglicht die Ausführung bestehender SSIS-Pakete ohne Änderungen. Ideal für Lift-and-Shift-Migrationen von SQL Server zu Azure.

Mapping Data Flows vs. Copy Activity

Für die Wahl der richtigen Komponente gilt:

Nutze Copy Activity wenn:

  • Daten nur kopiert werden (ohne Transformation)
  • Einfache Spalten-Mappings ausreichen
  • Kosten minimiert werden sollen
  • Hoher Durchsatz prioritär ist (bis zu 256 MBps pro DIU)

Nutze Mapping Data Flows wenn:

  • Komplexe Transformationen erforderlich sind (Joins, Aggregationen, Pivots)
  • Visuelle Entwicklung bevorzugt wird
  • Datenqualität-Checks implementiert werden sollen
  • Spark-Skalierung für große Datenmengen benötigt wird

Mapping Data Flows verwendet Spark im Hintergrund, skaliert automatisch und bietet eine SSIS-ähnliche visuelle Oberfläche. Die Kosten sind höher als Copy Activity, aber oft günstiger als manuelle Spark-Implementierungen.

Typische Anwendungsfälle

1. Data Warehouse ETL

Laden Sie Daten aus operativen Systemen in Azure Synapse Analytics oder SQL Database für Reporting.

Beispiel: Nächtliche Aggregation von Verkaufsdaten aus 20+ Filialen in ein zentrales Data Warehouse.

2. Cloud-Migration

Migrieren Sie Datenbanken und File-Stores von On-Premises zu Azure.

Beispiel: Einmalige Migration einer 5 TB Oracle-Datenbank zu Azure SQL mit Self-hosted IR.

3. Hybrid-Datenintegration

Kombinieren Sie Cloud- und On-Premises-Daten für Analytics.

Beispiel: Join von Azure Cosmos DB (Cloud) mit SAP HANA (On-Prem) für Supply-Chain-Analysen.

4. Real-time Data Pipelines

Orchestrieren Sie Event-basierte Workflows mit Tumbling Window Triggern.

Beispiel: Verarbeitung von IoT-Daten aus Event Hub alle 5 Minuten mit Aggregation in Synapse.

5. Multi-Cloud-Integration

Integrieren Sie Daten über Cloud-Provider hinweg.

Beispiel: Kopieren von Daten aus AWS S3 zu Azure Blob Storage, dann Transformation mit Data Flows.

6. SaaS-Integration

Extrahieren Sie Daten aus SaaS-Anwendungen für interne Analytics.

Beispiel: Salesforce CRM-Daten täglich zu Azure SQL synchronisieren für Custom Dashboards.

Best Practices

1. Optimiere Copy Activity Performance

  • Nutze parallel Copies für große Dateien
  • Setze Data Integration Units (DIUs) auf 2-256 je nach Datenmenge
  • Wähle compression für Netzwerk-Übertragungen
  • Nutze partition Options für große Tabellen
{
  "source": {
    "type": "AzureSqlSource",
    "partitionOption": "PhysicalPartitionsOfTable"
  },
  "sink": {
    "type": "AzureSqlSink",
    "writeBatchSize": 10000
  },
  "parallelCopies": 4,
  "dataIntegrationUnits": 32
}

2. Nutze Incremental Loads

Vermeide Full-Refreshes durch Wasserzeichen-basierte Incremental Loads:

SELECT * FROM source_table
WHERE last_modified > '@{pipeline().parameters.watermark}'

3. Implement Error Handling

Nutze Retry Policies, Failure Handling und Alerts:

{
  "retryPolicy": {
    "count": 3,
    "intervalInSeconds": 30
  },
  "onFailure": {
    "dependentActivities": ["SendErrorEmail"]
  }
}

4. Security Best Practices

  • Nutze Managed Identities statt Connection Strings
  • Speichere Credentials in Azure Key Vault
  • Aktiviere Private Endpoints für sensible Daten
  • Setze Data Encryption in Transit und at Rest ein

5. Monitoring und Logging

  • Aktiviere Azure Monitor Integration
  • Nutze Log Analytics für Pipeline-Analysen
  • Setze Alerts für fehlgeschlagene Runs
  • Tracke Data Lineage mit Purview

6. Cost Optimization

  • Nutze Schedule Triggers statt Tumbling Window wo möglich
  • Deaktiviere Debug Mode in Production
  • Optimiere DIUs basierend auf Performance-Tests
  • Nutze Self-hosted IR zur Vermeidung von Egress-Kosten

Häufig gestellte Fragen

Was kostet Azure Data Factory?

Die Kosten setzen sich aus drei Komponenten zusammen:

  • Orchestrierung: Ca. 1 EUR pro 1.000 Pipeline-Runs
  • Copy Activity: 0,25 EUR pro DIU-Stunde
  • Data Flows: 0,27 EUR pro vCore-Stunde (Compute-Optimized)

Beispiel: 100 tägliche Pipeline-Runs mit 1 TB Datenvolumen kosten ca. 150-300 EUR/Monat. Nutzen Sie den Azure Pricing Calculator für genaue Schätzungen.

Ist Azure Data Factory DSGVO-konform?

Ja, bei Wahl europäischer Azure-Regionen. Data Factory erfüllt ISO 27001, SOC 2, GDPR und weitere Standards. Daten verlassen nie die gewählte Region (außer bei expliziter Cross-Region-Konfiguration).

Wie integriert sich Azure Data Factory mit anderen Azure Services?

Native Integration mit: Azure Synapse Analytics, SQL Database, Cosmos DB, Blob Storage, Data Lake Storage, Databricks, Event Hub, Stream Analytics, Purview, Key Vault und 90+ weiteren Services.

Welche SLAs bietet Azure Data Factory?

99,9% SLA für Data Factory V2. Gilt für Pipeline-Orchestrierung, nicht für externe Datenquellen. Details im Azure Service Level Agreement.

Kann ich Azure Data Factory in Hybrid-Cloud-Szenarien nutzen?

Ja, über Self-hosted Integration Runtime. Installieren Sie die IR-Software On-Premises und Data Factory orchestriert Datenflüsse sicher über verschlüsselte Verbindungen.

Integration mit innFactory

Als Microsoft Solutions Partner unterstützt innFactory Sie bei:

  • Data Factory Implementierung: Von Architektur bis Production-Deployment
  • Migration von SSIS/Informatica: Modernisierung bestehender ETL-Prozesse
  • Performance-Optimierung: Kostenreduktion und Beschleunigung
  • Hybrid-Integration: Sichere Anbindung On-Premises-Quellen
  • CI/CD-Setup: Azure DevOps Integration und Git-Workflows

Kontaktieren Sie uns für eine unverbindliche Beratung zu Azure Data Factory und Datenintegration.

Verfügbare Varianten & Optionen

Data Flow Compute-Optimized

Stärken
  • Optimiert für Transformationen großer Datenmengen
  • Spark-basierte Ausführung
  • Auto-Scaling von Clustern
Einschränkungen
  • Höhere Kosten als Copy Activity

Data Flow Memory-Optimized

Stärken
  • Ideal für komplexe Joins und Aggregationen
  • Mehr RAM pro Core
Einschränkungen
  • Teurer als Compute-Optimized

Typische Anwendungsfälle

ETL-Pipelines für Data Warehouses
Migration von On-Premises zu Cloud
Integration heterogener Datenquellen
Echtzeit-Datenströme orchestrieren
Daten-Transformation ohne Code
Hybrid-Datenintegration (Cloud + On-Prem)

Technische Spezifikationen

Connectors 100+ (SQL Server, Oracle, SAP, Salesforce, AWS S3, Google BigQuery, etc.)
Data flows Mapping Data Flows (visuell), Wrangling Data Flows (Power Query)
Formats CSV, JSON, Parquet, Avro, ORC, XML, Binary
Integration runtime Azure IR, Self-hosted IR, Azure-SSIS IR
Monitoring Azure Monitor Integration, Pipeline Runs, Activity Logs
Orchestration Pipeline Activities, Triggers (Schedule, Tumbling Window, Event), Dependencies
Security Managed Identity, Key Vault Integration, Private Endpoints

Häufig gestellte Fragen

Was ist der Unterschied zwischen Copy Activity und Mapping Data Flows?

Copy Activity ist optimiert für einfaches Kopieren von Daten zwischen Quellen (schnell, kostengünstig). Mapping Data Flows ist ein Spark-basiertes Framework für komplexe Transformationen (Joins, Aggregationen, Pivots) mit visueller Entwicklung.

Wie funktioniert die Self-hosted Integration Runtime?

Die Self-hosted IR ist eine Software, die Sie in Ihrem Rechenzentrum oder VNET installieren. Sie ermöglicht sicheren Zugriff auf On-Premises-Datenquellen ohne öffentliche IPs und unterstützt Hybrid-Szenarien.

Kann ich bestehende SSIS-Pakete verwenden?

Ja, über die Azure-SSIS Integration Runtime können Sie bestehende SQL Server Integration Services (SSIS) Pakete ohne Änderungen in Azure ausführen. Dies erleichtert Lift-and-Shift-Migrationen.

Wie überwache ich Pipeline-Fehler?

Data Factory bietet integriertes Monitoring mit Pipeline Runs, Activity Logs und Azure Monitor Integration. Sie können Alerts für fehlgeschlagene Runs einrichten und Logs in Log Analytics analysieren.

Welche Datenquellen werden unterstützt?

Über 100 Konnektoren: Cloud-Datenbanken (Azure SQL, Cosmos DB), On-Premises (SQL Server, Oracle, SAP), SaaS (Salesforce, Dynamics 365), File-Stores (Azure Blob, AWS S3, SFTP), Data Warehouses (Snowflake, BigQuery).

Was kostet Azure Data Factory?

Preise basieren auf Pipeline-Orchestrierung (ca. 1 EUR pro 1.000 Runs), Copy Activity (0,25 EUR pro DIU-Stunde), Data Flow Executions (0,27 EUR pro vCore-Stunde). Exakte Kosten hängen von Volumen und Komplexität ab.

Wie sicher ist die Datenübertragung?

Data Factory unterstützt Verschlüsselung in Transit (TLS 1.2+), Managed Identities für Authentifizierung, Private Endpoints für VNET-Integration und Azure Key Vault für Credentials-Management.

Kann ich Git-Integration nutzen?

Ja, Data Factory unterstützt Azure DevOps Git und GitHub Integration für Versionskontrolle, CI/CD-Pipelines und Teamzusammenarbeit.

Microsoft Solutions Partner

innFactory ist Microsoft Solutions Partner. Wir bieten Beratung, Implementierung und Managed Services für Azure.

Microsoft Solutions Partner Microsoft Data & AI

Bereit, mit Azure Data Factory - Cloud ETL und Datenintegration zu starten?

Unsere zertifizierten Azure Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren