Was ist Amazon MWAA?
Amazon MWAA (Managed Workflows for Apache Airflow) ist ein verwalteter Service, der Apache Airflow als vollständig verwaltete Cloud-Lösung bereitstellt. Apache Airflow ist die am weitesten verbreitete Open-Source-Plattform für die Orchestrierung von Daten-Pipelines, ETL-Workflows und ML-Pipelines.
Der Betrieb einer eigenen Airflow-Installation ist komplex: Webserver, Scheduler, Worker und Metadaten-Datenbank müssen konfiguriert, überwacht und skaliert werden. MWAA übernimmt diese gesamte Infrastruktur und bietet zusätzlich automatische Skalierung der Worker-Kapazität basierend auf der Arbeitslast.
Bestehende Airflow-DAGs (Directed Acyclic Graphs) können ohne Änderungen in MWAA übernommen werden. Die DAG-Dateien werden in einem S3-Bucket gespeichert, und die MWAA-Umgebung lädt sie automatisch. Benutzerdefinierte Python-Pakete und Airflow-Plugins werden ebenfalls unterstützt.
Kernfunktionen
- Vollständig verwaltet: Automatische Bereitstellung und Wartung von Webserver, Scheduler und Worker-Infrastruktur
- Automatische Skalierung: Worker-Kapazität skaliert automatisch basierend auf der Anzahl paralleler Aufgaben
- S3-basierte DAGs: DAG-Dateien werden in S3 gespeichert und automatisch geladen, einfache CI/CD-Integration
- Plugin-Unterstützung: Benutzerdefinierte Airflow-Plugins und Python-Pakete über requirements.txt
- Integrierte Sicherheit: VPC-Integration, IAM-basierte Zugriffskontrolle und CloudWatch-Logging
Typische Anwendungsfälle
Daten-Pipeline-Orchestrierung: Datenteams orchestrieren komplexe ETL-Pipelines, die Daten aus verschiedenen Quellen extrahieren, transformieren und in Data Warehouses oder Data Lakes laden. Airflow-DAGs definieren Abhängigkeiten und Ausführungsreihenfolge.
ETL-Workflow-Automatisierung: Regelmäßig ausgeführte Datenverarbeitungsjobs werden als Airflow-DAGs definiert, mit Scheduling, Fehlerbehandlung, Retries und Alerting. MWAA stellt sicher, dass die Infrastruktur für diese Workflows immer verfügbar ist.
ML-Pipeline-Management: Data-Science-Teams nutzen MWAA, um ML-Pipelines zu orchestrieren: Datenaufbereitung, Feature-Engineering, Modelltraining, Evaluierung und Deployment als automatisierte Workflow-Kette.
Vorteile
- Kein Betriebsaufwand für die Airflow-Infrastruktur
- Bestehende DAGs ohne Änderungen migrierbar
- Automatische Skalierung der Worker-Kapazität
- Nahtlose Integration mit AWS-Daten- und ML-Services
Integration mit innFactory
Als AWS Reseller unterstützt innFactory Sie bei Amazon MWAA: von der Migration bestehender Airflow-Umgebungen über die Entwicklung und Optimierung von DAGs bis zur Integration mit AWS-Datenservices und dem Aufbau von CI/CD-Pipelines für DAG-Deployment.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Amazon MWAA?
Amazon MWAA (Managed Workflows for Apache Airflow) ist ein verwalteter Service, der Apache Airflow in der Cloud bereitstellt. Der Service übernimmt die Einrichtung, den Betrieb und die Skalierung der Airflow-Infrastruktur, sodass Sie sich auf die Entwicklung Ihrer Workflows konzentrieren können.
Welche Airflow-Versionen werden unterstützt?
MWAA unterstützt aktuelle Apache Airflow Versionen und aktualisiert regelmäßig auf neue Releases. Die Airflow-Umgebung kann mit benutzerdefinierten Python-Paketen und Plugins erweitert werden.
Wie werden DAGs bereitgestellt?
DAGs (Directed Acyclic Graphs) werden als Python-Dateien in einem S3-Bucket gespeichert und automatisch von der MWAA-Umgebung geladen. Änderungen an DAGs werden innerhalb weniger Sekunden übernommen.