Was ist der Unterschied zwischen Copy Activity und Mapping Data Flows?

Copy Activity ist optimiert für einfaches Kopieren von Daten zwischen Quellen (schnell, kostengünstig). Mapping Data Flows ist ein Spark-basiertes Framework für komplexe Transformationen (Joins, Aggregationen, Pivots) mit visueller Entwicklung.

Wie funktioniert die Self-hosted Integration Runtime?

Die Self-hosted IR ist eine Software, die Sie in Ihrem Rechenzentrum oder VNET installieren. Sie ermöglicht sicheren Zugriff auf On-Premises-Datenquellen ohne öffentliche IPs und unterstützt Hybrid-Szenarien.

Kann ich bestehende SSIS-Pakete verwenden?

Ja, über die Azure-SSIS Integration Runtime können Sie bestehende SQL Server Integration Services (SSIS) Pakete ohne Änderungen in Azure ausführen. Dies erleichtert Lift-and-Shift-Migrationen.

Wie überwache ich Pipeline-Fehler?

Data Factory bietet integriertes Monitoring mit Pipeline Runs, Activity Logs und Azure Monitor Integration. Sie können Alerts für fehlgeschlagene Runs einrichten und Logs in Log Analytics analysieren.

Welche Datenquellen werden unterstützt?

Über 100 Konnektoren: Cloud-Datenbanken (Azure SQL, Cosmos DB), On-Premises (SQL Server, Oracle, SAP), SaaS (Salesforce, Dynamics 365), File-Stores (Azure Blob, AWS S3, SFTP), Data Warehouses (Snowflake, BigQuery).

Wie sicher ist die Datenübertragung?

Data Factory unterstützt Verschlüsselung in Transit (TLS 1.2+), Managed Identities für Authentifizierung, Private Endpoints für VNET-Integration und Azure Key Vault für Credentials-Management.

Kann ich Git-Integration nutzen?

Ja, Data Factory unterstützt Azure DevOps Git und GitHub Integration für Versionskontrolle, CI/CD-Pipelines und Teamzusammenarbeit.

Azure Data Factory - Cloud ETL und Datenintegration · innFactory

Azure Data Factory ist ein vollständig verwalteter Cloud-ETL-Service von Microsoft, der die Integration und Transformation von Daten aus über 100 Quellen ermöglicht. Der Service kombiniert code-freie visuelle Entwicklung mit leistungsstarken Transformations-Engines.

Was ist Azure Data Factory?

Azure Data Factory (ADF) ist Microsofts Lösung für moderne Datenintegration und ETL-Workflows. Der Service ermöglicht es, Daten aus heterogenen Quellen zu extrahieren, zu transformieren und in Ziel-Systeme zu laden, ohne eigene Infrastruktur zu verwalten.

Die Stärke von Data Factory liegt in der Kombination aus drei Komponenten:

1. Copy Activity: Hochperformantes Kopieren von Daten zwischen 100+ Konnektoren. Optimiert für hohen Durchsatz und niedrige Kosten.

2. Mapping Data Flows: Visuelle, Spark-basierte Transformations-Engine für komplexe Datenverarbeitung ohne Code. Ähnlich wie SSIS, aber cloud-native.

3. Pipeline Orchestration: Workflow-Engine mit Triggern, Abhängigkeiten, Conditional Logic und Fehlerbehandlung.

Azure Data Factory eignet sich besonders für Unternehmen, die von klassischen On-Premises-ETL-Tools (SSIS, Informatica, Talend) zu Cloud-nativen Lösungen migrieren möchten. Die Integration Runtime unterstützt Hybrid-Szenarien, bei denen Datenquellen sowohl in der Cloud als auch On-Premises liegen.

Für DSGVO-konforme Datenverarbeitung ist Data Factory in europäischen Regionen (Deutschland West Central, West Europe, France Central) verfügbar. Der Service erfüllt ISO 27001, SOC 2 und weitere Compliance-Standards.

Integration Runtime Optionen

Die Integration Runtime (IR) ist die Compute-Infrastruktur, die Data Factory für Datenintegration nutzt:

Runtime	Verwendung	Standort
Azure IR	Cloud-zu-Cloud Datenverschiebung	Managed by Azure
Self-hosted IR	On-Premises, Private Networks	Kundenseitig installiert
Azure-SSIS IR	SSIS-Pakete ausführen	Managed by Azure

Azure IR ist für die meisten Cloud-Szenarien ausreichend und erfordert keine Konfiguration.

Self-hosted IR ist erforderlich für:

On-Premises-Datenquellen hinter Firewalls
Private Azure VNETs ohne öffentliche Endpoints
Datenquellen, die keine öffentliche IP-Adressen erlauben

Die Self-hosted IR wird als Software auf Windows-Servern installiert und registriert sich bei Data Factory. Daten fließen direkt zwischen Quelle und Ziel, Data Factory orchestriert nur.

Azure-SSIS IR ermöglicht die Ausführung bestehender SSIS-Pakete ohne Änderungen. Ideal für Lift-and-Shift-Migrationen von SQL Server zu Azure.

Mapping Data Flows vs. Copy Activity

Für die Wahl der richtigen Komponente gilt:

Nutze Copy Activity wenn:

Daten nur kopiert werden (ohne Transformation)
Einfache Spalten-Mappings ausreichen
Kosten minimiert werden sollen
Hoher Durchsatz prioritär ist (bis zu 256 MBps pro DIU)

Nutze Mapping Data Flows wenn:

Komplexe Transformationen erforderlich sind (Joins, Aggregationen, Pivots)
Visuelle Entwicklung bevorzugt wird
Datenqualität-Checks implementiert werden sollen
Spark-Skalierung für große Datenmengen benötigt wird

Mapping Data Flows verwendet Spark im Hintergrund, skaliert automatisch und bietet eine SSIS-ähnliche visuelle Oberfläche. Die Kosten sind höher als Copy Activity, aber oft günstiger als manuelle Spark-Implementierungen.

Typische Anwendungsfälle

1. Data Warehouse ETL

Laden Sie Daten aus operativen Systemen in Azure Synapse Analytics oder SQL Database für Reporting.

Beispiel: Nächtliche Aggregation von Verkaufsdaten aus 20+ Filialen in ein zentrales Data Warehouse.

2. Cloud-Migration

Migrieren Sie Datenbanken und File-Stores von On-Premises zu Azure.

Beispiel: Einmalige Migration einer 5 TB Oracle-Datenbank zu Azure SQL mit Self-hosted IR.

3. Hybrid-Datenintegration

Kombinieren Sie Cloud- und On-Premises-Daten für Analytics.

Beispiel: Join von Azure Cosmos DB (Cloud) mit SAP HANA (On-Prem) für Supply-Chain-Analysen.

4. Real-time Data Pipelines

Orchestrieren Sie Event-basierte Workflows mit Tumbling Window Triggern.

Beispiel: Verarbeitung von IoT-Daten aus Event Hub alle 5 Minuten mit Aggregation in Synapse.

5. Multi-Cloud-Integration

Integrieren Sie Daten über Cloud-Provider hinweg.

Beispiel: Kopieren von Daten aus AWS S3 zu Azure Blob Storage, dann Transformation mit Data Flows.

6. SaaS-Integration

Extrahieren Sie Daten aus SaaS-Anwendungen für interne Analytics.

Beispiel: Salesforce CRM-Daten täglich zu Azure SQL synchronisieren für Custom Dashboards.

Best Practices

1. Optimiere Copy Activity Performance

Nutze parallel Copies für große Dateien
Setze Data Integration Units (DIUs) auf 2-256 je nach Datenmenge
Wähle compression für Netzwerk-Übertragungen
Nutze partition Options für große Tabellen

{
  "source": {
    "type": "AzureSqlSource",
    "partitionOption": "PhysicalPartitionsOfTable"
  },
  "sink": {
    "type": "AzureSqlSink",
    "writeBatchSize": 10000
  },
  "parallelCopies": 4,
  "dataIntegrationUnits": 32
}

2. Nutze Incremental Loads

Vermeide Full-Refreshes durch Wasserzeichen-basierte Incremental Loads:

SELECT * FROM source_table
WHERE last_modified > '@{pipeline().parameters.watermark}'

3. Implement Error Handling

Nutze Retry Policies, Failure Handling und Alerts:

{
  "retryPolicy": {
    "count": 3,
    "intervalInSeconds": 30
  },
  "onFailure": {
    "dependentActivities": ["SendErrorEmail"]
  }
}

4. Security Best Practices

Nutze Managed Identities statt Connection Strings
Speichere Credentials in Azure Key Vault
Aktiviere Private Endpoints für sensible Daten
Setze Data Encryption in Transit und at Rest ein

5. Monitoring und Logging

Aktiviere Azure Monitor Integration
Nutze Log Analytics für Pipeline-Analysen
Setze Alerts für fehlgeschlagene Runs
Tracke Data Lineage mit Purview

6. Cost Optimization

Nutze Schedule Triggers statt Tumbling Window wo möglich
Deaktiviere Debug Mode in Production
Optimiere DIUs basierend auf Performance-Tests
Nutze Self-hosted IR zur Vermeidung von Egress-Kosten

Häufig gestellte Fragen

Was kostet Azure Data Factory?

Die Kosten setzen sich aus drei Komponenten zusammen:

Orchestrierung: Ca. 1 EUR pro 1.000 Pipeline-Runs
Copy Activity: 0,25 EUR pro DIU-Stunde
Data Flows: 0,27 EUR pro vCore-Stunde (Compute-Optimized)

Beispiel: 100 tägliche Pipeline-Runs mit 1 TB Datenvolumen kosten ca. 150-300 EUR/Monat. Nutzen Sie den Azure Pricing Calculator für genaue Schätzungen.

Ist Azure Data Factory DSGVO-konform?

Ja, bei Wahl europäischer Azure-Regionen. Data Factory erfüllt ISO 27001, SOC 2, GDPR und weitere Standards. Daten verlassen nie die gewählte Region (außer bei expliziter Cross-Region-Konfiguration).

Wie integriert sich Azure Data Factory mit anderen Azure Services?

Native Integration mit: Azure Synapse Analytics, SQL Database, Cosmos DB, Blob Storage, Data Lake Storage, Databricks, Event Hub, Stream Analytics, Purview, Key Vault und 90+ weiteren Services.

Welche SLAs bietet Azure Data Factory?

99,9% SLA für Data Factory V2. Gilt für Pipeline-Orchestrierung, nicht für externe Datenquellen. Details im Azure Service Level Agreement.

Kann ich Azure Data Factory in Hybrid-Cloud-Szenarien nutzen?

Ja, über Self-hosted Integration Runtime. Installieren Sie die IR-Software On-Premises und Data Factory orchestriert Datenflüsse sicher über verschlüsselte Verbindungen.

Integration mit innFactory

Als Microsoft Solutions Partner unterstützt innFactory Sie bei:

Data Factory Implementierung: Von Architektur bis Production-Deployment
Migration von SSIS/Informatica: Modernisierung bestehender ETL-Prozesse
Performance-Optimierung: Kostenreduktion und Beschleunigung
Hybrid-Integration: Sichere Anbindung On-Premises-Quellen
CI/CD-Setup: Azure DevOps Integration und Git-Workflows

Kontaktieren Sie uns für eine unverbindliche Beratung zu Azure Data Factory und Datenintegration.

Azure Data Factory - Cloud ETL und Datenintegration

Was ist Azure Data Factory?

Integration Runtime Optionen

Mapping Data Flows vs. Copy Activity

Typische Anwendungsfälle

1. Data Warehouse ETL

2. Cloud-Migration

3. Hybrid-Datenintegration

4. Real-time Data Pipelines

5. Multi-Cloud-Integration

6. SaaS-Integration

Best Practices

1. Optimiere Copy Activity Performance

2. Nutze Incremental Loads

3. Implement Error Handling

4. Security Best Practices

5. Monitoring und Logging

6. Cost Optimization

Häufig gestellte Fragen

Was kostet Azure Data Factory?

Ist Azure Data Factory DSGVO-konform?

Wie integriert sich Azure Data Factory mit anderen Azure Services?

Welche SLAs bietet Azure Data Factory?

Kann ich Azure Data Factory in Hybrid-Cloud-Szenarien nutzen?

Integration mit innFactory

Verfügbare Varianten & Optionen

Data Factory V2

Data Flow Compute-Optimized

Data Flow Memory-Optimized

Typische Anwendungsfälle

Technische Spezifikationen

Häufig gestellte Fragen

Was ist der Unterschied zwischen Copy Activity und Mapping Data Flows?

Wie funktioniert die Self-hosted Integration Runtime?

Kann ich bestehende SSIS-Pakete verwenden?

Wie überwache ich Pipeline-Fehler?

Welche Datenquellen werden unterstützt?

Was kostet Azure Data Factory?

Wie sicher ist die Datenübertragung?

Kann ich Git-Integration nutzen?

Schnellzugriff

Microsoft Solutions Partner

Vergleichbare Produkte anderer Cloud-Anbieter

AWS Glue - Serverless ETL

Dataflow - Managed Stream und Batch Processing

Bereit, mit Azure Data Factory - Cloud ETL und Datenintegration zu starten?