AWS Glue - Serverless ETL · innFactory - Softwareentwicklung, Cloud & KI

Was ist AWS Glue?

AWS Glue ist ein serverloser Service für Datenintegration, der das Entdecken, Vorbereiten und Kombinieren von Daten aus verschiedensten Quellen vereinfacht, beschleunigt und kostengünstiger macht. Glue umfasst mehrere Komponenten: den Data Catalog als zentrales Metadaten-Repository, ETL-Funktionalität zum Erstellen und Ausführen von Datenpipelines, AWS Glue Studio für die visuelle Pipeline-Entwicklung sowie interaktive Sessions für explorative Datenaufbereitung in IDEs oder Notebooks.

Kernfunktionen

Data Catalog: Zentrales Metadaten-Repository für Tabellen und Schemas, kompatibel mit Athena, Redshift und EMR
Glue Crawlers: Automatisches Scannen von Datenquellen und Schema-Erkennung für S3, RDS und JDBC-Datenbanken
Glue ETL: Serverlose Spark-basierte Transformationen in Python oder Scala
Glue Studio: Visueller Editor für die grafische Entwicklung von ETL-Pipelines
Interactive Sessions: Explorative Datenaufbereitung direkt in IDEs oder Notebooks
Glue DataBrew: No-Code-Datenaufbereitung mit vorgefertigten Transformationen für Data Analysts und Data Scientists

Typische Anwendungsfälle

Data Lake Aufbau

Glue Crawlers scannen verschiedene Datenquellen und erstellen einen einheitlichen Katalog. ETL-Jobs transformieren Rohdaten in analysierbare Formate wie Parquet und laden sie in S3-basierte Data Lakes.

Data Warehouse Integration

Daten aus operativen Systemen werden transformiert und in Amazon Redshift geladen. Glue übernimmt Schema-Mapping, Datentyp-Konvertierung und inkrementelle Loads.

Machine Learning Datenvorbereitung

DataBrew bereinigt und normalisiert Daten für ML-Workflows. Fehlende Werte werden behandelt, Ausreißer erkannt und Features für das Training vorbereitet.

Vorteile

Keine Infrastruktur-Verwaltung: automatische Skalierung der zugrunde liegenden Spark-Cluster
Pay-per-Use-Abrechnung nach DPU-Stunden
Integration mit dem gesamten AWS-Analytics-Stack
Wiederverwendbare Transformationen und Job-Bookmarks für inkrementelle Verarbeitung

Integration mit innFactory

Als AWS Reseller unterstützt innFactory Sie bei AWS Glue: Aufbau von Data-Lake-Architekturen, Entwicklung von ETL-Pipelines in Python/Scala und Integration mit bestehenden Data-Warehouse-Systemen.

Häufig gestellte Fragen

Was ist AWS Glue?

AWS Glue ist ein serverloser Service für Datenintegration (ETL: Extract, Transform, Load). Er automatisiert das Entdecken, Vorbereiten und Kombinieren von Daten aus AWS-, On-Premises- und anderen Cloud-Quellen für Analytics und Machine Learning.

Was ist der AWS Glue Data Catalog?

Der Data Catalog ist ein zentrales Metadaten-Repository, das Tabellen- und Schema-Informationen über Ihre Datenquellen verwaltet. Er ist kompatibel mit Athena, Redshift Spectrum und EMR und ermöglicht so eine einheitliche Sicht auf Daten aus unterschiedlichen Quellen.

Wofür wird AWS Glue DataBrew genutzt?

Glue DataBrew ist eine visuelle No-Code-Datenaufbereitung für Data Analysts und Data Scientists. Sie ermöglicht das Bereinigen und Normalisieren von Daten über vorgefertigte Transformationen ohne eigenen Code, etwa zur Vorbereitung von Trainingsdaten für Machine Learning.

Was kostet AWS Glue?

AWS Glue wird nach genutzten DPU-Stunden (Data Processing Units) für ETL-Jobs und Crawler abgerechnet, zusätzlich fallen Kosten für den Data Catalog und optionale Komponenten wie DataBrew an. Es gibt keine Mindestgebühren; genaue Preise finden sich auf der offiziellen Pricing-Seite.

AWS Glue - Serverless ETL

Was ist AWS Glue?

Kernfunktionen

Typische Anwendungsfälle

Data Lake Aufbau

Data Warehouse Integration

Machine Learning Datenvorbereitung

Vorteile

Integration mit innFactory

Typische Anwendungsfälle

Häufig gestellte Fragen

Was ist AWS Glue?

Was ist der AWS Glue Data Catalog?

Wofür wird AWS Glue DataBrew genutzt?

Was kostet AWS Glue?

Schnellzugriff

AWS Cloud Expertise

Ähnliche Produkte anderer Cloud-Anbieter

Azure Analysis Services: BI-Datenmodelle

Azure Data Explorer - Echtzeitanalyse für Telemetriedaten

Azure Data Factory - Cloud ETL und Datenintegration

Azure Data Lake Storage Gen2 - Skalierbarer Data Lake

Azure Data Manager for Energy - OSDU-Datenplattform

Azure Data Share - Sichere Datenfreigabe

Bereit, mit AWS Glue - Serverless ETL zu starten?