Zum Hauptinhalt springen
Cloud / AWS / Produkte / AWS Glue - Serverless ETL

AWS Glue - Serverless ETL

AWS Glue ist ein serverloser ETL-Service für Datenintegration, Transformation und Katalogisierung in Data Lakes.

Analytics
Preismodell Bezahlung pro DPU-hour
Verfügbarkeit Alle wichtigen Regionen
Datensouveränität EU-Regionen verfügbar
Zuverlässigkeit 99,9% Verfügbarkeit SLA

Was ist AWS Glue?

AWS Glue ist ein serverloser ETL-Service (Extract, Transform, Load) für die Datenintegration. Der Service automatisiert das Entdecken, Vorbereiten und Kombinieren von Daten für Analytics und Machine Learning. Glue besteht aus drei Hauptkomponenten: Data Catalog, ETL Engine und Glue Studio für visuelle ETL-Entwicklung.

Kernfunktionen

  • Data Catalog: Zentrales Metadaten-Repository, das Schemas automatisch erkennt und mit Athena, Redshift und EMR kompatibel ist
  • Glue Crawlers: Automatisches Scannen von Datenquellen und Schema-Erkennung für S3, RDS und JDBC-Datenbanken
  • Glue ETL: Serverlose Spark-basierte Transformationen in Python oder Scala
  • Glue Studio: Visueller ETL-Editor für Drag-and-Drop Pipeline-Entwicklung
  • Glue DataBrew: No-Code Datenaufbereitung mit über 250 vorgefertigten Transformationen

Typische Anwendungsfälle

Data Lake Aufbau

Glue Crawlers scannen verschiedene Datenquellen und erstellen einen einheitlichen Katalog. ETL-Jobs transformieren Rohdaten in analysierbare Formate wie Parquet und laden sie in S3-basierte Data Lakes.

Data Warehouse Integration

Daten aus operativen Systemen werden transformiert und in Amazon Redshift geladen. Glue übernimmt Schema-Mapping, Datentyp-Konvertierung und inkrementelle Loads.

Machine Learning Datenvorbereitung

DataBrew bereinigt und normalisiert Daten für ML-Workflows. Fehlende Werte werden behandelt, Outlier erkannt und Features für das Training vorbereitet.

Vorteile

  • Keine Infrastruktur-Verwaltung: automatische Skalierung der Spark-Cluster
  • Pay-per-Use Abrechnung nach DPU-Stunden
  • Integration mit dem gesamten AWS Analytics-Stack
  • Wiederverwendbare Transformationen und Job-Bookmarks für inkrementelle Verarbeitung

Integration mit innFactory

Als AWS Reseller unterstützt innFactory Sie bei AWS Glue: Aufbau von Data-Lake-Architekturen, Entwicklung von ETL-Pipelines in Python/Scala und Integration mit bestehenden Data-Warehouse-Systemen.

Typische Anwendungsfälle

ETL
Data catalog
Data preparation
Data integration

AWS Cloud Expertise

innFactory ist AWS Reseller mit zertifizierten Cloud-Architekten. Wir bieten Beratung, Implementierung und Managed Services für AWS.

Ähnliche Produkte anderer Cloud-Anbieter

Andere Cloud-Anbieter bieten vergleichbare Services in dieser Kategorie. Als Multi-Cloud Partner helfen wir bei der richtigen Wahl.

Google Cloud

BigQuery data canvas - Visuelle Datenanalyse

BigQuery data canvas: Gemini-gestützter, visueller Natural-Language-Workspace in BigQuery Studio zum Finden, Abfragen …

Preismodell Pay-per-use (Gemini in BigQuery) …
SLA N/A (Funktion innerhalb von BigQuery; BigQuery-SLA gilt für den zugrunde liegenden Service)
Vergleichen →
Google Cloud

BigQuery Studio - Workspace für Daten und KI

BigQuery Studio: einheitlicher Workspace in BigQuery für SQL, Python, Notebooks und Serverless Spark mit …

Preismodell Keine separate Gebühr für den Workspace; …
SLA N/A (Abrechnung über die zugrunde liegenden BigQuery-Ressourcen)
Vergleichen →
Azure

Fabric IQ - Semantische Datenschicht

Fabric IQ ist die semantische Geschäftsschicht in Microsoft Fabric: Ontologie, Graph und Datenagenten geben Apps, …

Preismodell Pay-as-you-go über Fabric Capacity Units …
SLA N/A (Preview)
Vergleichen →
Google Cloud

Dataflow - Managed Stream und Batch Processing

Dataflow ist Googles vollständig verwalteter Service für Stream- und Batch-Datenverarbeitung. Basiert auf Apache Beam, …

Preismodell Bezahlung nach Nutzung (vCPU, RAM, …
SLA 99,9% Verfügbarkeit
Vergleichen →
Google Cloud

Dataproc - Managed Spark und Hadoop Cluster

Google Cloud Dataproc ist ein vollständig verwalteter Service für Apache Spark und Hadoop Cluster mit schneller …

Preismodell Bezahlung nach Nutzung (sekundengenau)
SLA 99,9% Verfügbarkeit
Vergleichen →
Azure

Azure HDInsight - Verwaltete Apache Hadoop, Spark und Kafka Cluster

Azure HDInsight ist ein verwalteter Service für Apache Hadoop, Spark, Hive, Kafka und HBase für Big Data Analysen in der …

Preismodell Bezahlung pro Stunde (cluster nodes)
SLA 99,9%
Vergleichen →

39 vergleichbare Produkte bei anderen Cloud-Anbietern gefunden.

Bereit, mit AWS Glue - Serverless ETL zu starten?

Unsere zertifizierten AWS Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren