Was ist Amazon SageMaker Lakehouse?
Amazon SageMaker Lakehouse ist eine offene, vereinheitlichte Lakehouse-Architektur, die Amazon S3 Data Lakes (inklusive S3 Tables) und Amazon Redshift Warehouses auf einer einzigen Datenkopie zusammenführt. Analytics- und KI/ML-Workloads greifen damit auf dieselben Daten zu, ohne dass diese verschoben oder dupliziert werden müssen.
Das Lakehouse löst das klassische Problem getrennter Datensilos: Data Lakes und Data Warehouses entwickeln sich häufig parallel, was zu redundanten Kopien, ETL-Pipelines und inkonsistenten Berechtigungen führt. SageMaker Lakehouse setzt auf den offenen Apache-Iceberg-Standard und stellt Iceberg-kompatible APIs bereit, sodass beliebige Iceberg-fähige Engines die Daten in place abfragen.
Kernfunktionen
- Vereinheitlichte Datenbasis: Verbindet S3 Data Lakes (inklusive S3 Tables) und Redshift Warehouses, sodass Analytics und KI/ML auf einer einzigen Datenkopie ohne Datenverschiebung arbeiten.
- Offener Apache-Iceberg-Standard: Iceberg-kompatible APIs erlauben Abfragen mit Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Apache Spark und kompatiblen Drittanbieter-Tools direkt in place.
- Feingranulare Zugriffskontrolle: Zentrale Berechtigungen auf Tabellen-, Spalten-, Zeilen- und Zellenebene über tag-, attribut- oder rollenbasierte Richtlinien, konsistent über alle Engines via AWS Lake Formation und AWS Glue Data Catalog.
- Zero-ETL und Federation: Zusätzliche Daten kommen über Zero-ETL-Integrationen aus operativen Datenbanken und Anwendungen, über Query-Federation zu externen Quellen sowie über Catalog-Federation für entfernte Apache-Iceberg-Tabellen.
Typische Anwendungsfälle
Vereinheitlichung von Data Lake und Warehouse: Bestehende S3 Data Lakes und Redshift Warehouses zusammenführen, ohne Daten zu kopieren oder in ETL-Pipelines zu spiegeln. Teams arbeiten auf einer konsistenten Datenkopie.
Engine-übergreifende Analytics: Dieselben Daten mit unterschiedlichen Engines wie EMR, Glue, Athena, Redshift oder Apache Spark in place abfragen, je nach Workload und Team, ohne separate Datenkopien zu pflegen.
Governance über Engines hinweg: Feingranulare Berechtigungen einmal in Lake Formation definieren und konsistent über alle zugreifenden Engines durchsetzen, bis auf Spalten-, Zeilen- und Zellenebene.
Vorteile
- Eine einzige Datenkopie für Analytics und KI/ML statt redundanter Kopien und ETL-Pipelines
- Offener Apache-Iceberg-Standard vermeidet Lock-in und ermöglicht freie Engine-Wahl
- Konsistente, feingranulare Zugriffskontrolle über alle Engines hinweg
- Nutzungsbasierte Abrechnung ohne Vorabkosten
Integration mit innFactory
Als AWS Reseller unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Amazon SageMaker Lakehouse?
Amazon SageMaker Lakehouse ist eine offene, vereinheitlichte Lakehouse-Architektur auf Basis von Apache Iceberg. Sie verbindet Amazon S3 Data Lakes (inklusive S3 Tables) und Amazon Redshift Warehouses, sodass Analytics und KI/ML auf einer einzigen Datenkopie ohne Datenverschiebung oder Duplikation arbeiten.
Wann sollte ich Amazon SageMaker Lakehouse einsetzen?
Sinnvoll ist der Einsatz, wenn Daten heute getrennt in S3 Data Lakes und Redshift liegen und Sie diese Silos ohne ETL-Kopien vereinheitlichen wollen. Ebenso, wenn verschiedene Engines wie EMR, Glue, Athena, Redshift oder Apache Spark dieselben Daten in place abfragen sollen, mit konsistenter, feingranularer Zugriffskontrolle.
Was kostet Amazon SageMaker Lakehouse?
Die Abrechnung erfolgt nutzungsbasiert ohne Vorabkosten über die zugrunde liegenden Komponenten: AWS Glue Data Catalog für Metadaten-Speicherung und API-Aufrufe (mit Free Tier), S3 oder Redshift Managed Storage für Speicher und Compute sowie automatisierte Statistiken und Iceberg-Tabellenwartung. Konkrete Preise hängen von der tatsächlichen Nutzung ab.
Welche Abfrage-Engines unterstützt SageMaker Lakehouse?
Da SageMaker Lakehouse auf dem offenen Apache-Iceberg-Standard basiert und Iceberg-kompatible APIs bereitstellt, können Iceberg-kompatible Engines die Daten in place abfragen. Dazu zählen Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Apache Spark sowie kompatible Drittanbieter-Tools.