Amazon SageMaker Lakehouse - Offenes Lakehouse · innFactory

Was ist Amazon SageMaker Lakehouse?

Amazon SageMaker Lakehouse ist eine offene, vereinheitlichte Lakehouse-Architektur, die Amazon S3 Data Lakes (inklusive S3 Tables) und Amazon Redshift Warehouses auf einer einzigen Datenkopie zusammenführt. Analytics- und KI/ML-Workloads greifen damit auf dieselben Daten zu, ohne dass diese verschoben oder dupliziert werden müssen.

Das Lakehouse löst das klassische Problem getrennter Datensilos: Data Lakes und Data Warehouses entwickeln sich häufig parallel, was zu redundanten Kopien, ETL-Pipelines und inkonsistenten Berechtigungen führt. SageMaker Lakehouse setzt auf den offenen Apache-Iceberg-Standard und stellt Iceberg-kompatible APIs bereit, sodass beliebige Iceberg-fähige Engines die Daten in place abfragen.

Kernfunktionen

Vereinheitlichte Datenbasis: Verbindet S3 Data Lakes (inklusive S3 Tables) und Redshift Warehouses, sodass Analytics und KI/ML auf einer einzigen Datenkopie ohne Datenverschiebung arbeiten.
Offener Apache-Iceberg-Standard: Iceberg-kompatible APIs erlauben Abfragen mit Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Apache Spark und kompatiblen Drittanbieter-Tools direkt in place.
Feingranulare Zugriffskontrolle: Zentrale Berechtigungen auf Tabellen-, Spalten-, Zeilen- und Zellenebene über tag-, attribut- oder rollenbasierte Richtlinien, konsistent über alle Engines via AWS Lake Formation und AWS Glue Data Catalog.
Zero-ETL und Federation: Zusätzliche Daten kommen über Zero-ETL-Integrationen aus operativen Datenbanken und Anwendungen, über Query-Federation zu externen Quellen sowie über Catalog-Federation für entfernte Apache-Iceberg-Tabellen.

Typische Anwendungsfälle

Vereinheitlichung von Data Lake und Warehouse: Bestehende S3 Data Lakes und Redshift Warehouses zusammenführen, ohne Daten zu kopieren oder in ETL-Pipelines zu spiegeln. Teams arbeiten auf einer konsistenten Datenkopie.

Engine-übergreifende Analytics: Dieselben Daten mit unterschiedlichen Engines wie EMR, Glue, Athena, Redshift oder Apache Spark in place abfragen, je nach Workload und Team, ohne separate Datenkopien zu pflegen.

Governance über Engines hinweg: Feingranulare Berechtigungen einmal in Lake Formation definieren und konsistent über alle zugreifenden Engines durchsetzen, bis auf Spalten-, Zeilen- und Zellenebene.

Vorteile

Eine einzige Datenkopie für Analytics und KI/ML statt redundanter Kopien und ETL-Pipelines
Offener Apache-Iceberg-Standard vermeidet Lock-in und ermöglicht freie Engine-Wahl
Konsistente, feingranulare Zugriffskontrolle über alle Engines hinweg
Nutzungsbasierte Abrechnung ohne Vorabkosten

Integration mit innFactory

Als AWS Reseller unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.

Häufig gestellte Fragen

Was ist Amazon SageMaker Lakehouse?

Amazon SageMaker Lakehouse ist eine offene, vereinheitlichte Lakehouse-Architektur auf Basis von Apache Iceberg. Sie verbindet Amazon S3 Data Lakes (inklusive S3 Tables) und Amazon Redshift Warehouses, sodass Analytics und KI/ML auf einer einzigen Datenkopie ohne Datenverschiebung oder Duplikation arbeiten.

Wann sollte ich Amazon SageMaker Lakehouse einsetzen?

Sinnvoll ist der Einsatz, wenn Daten heute getrennt in S3 Data Lakes und Redshift liegen und Sie diese Silos ohne ETL-Kopien vereinheitlichen wollen. Ebenso, wenn verschiedene Engines wie EMR, Glue, Athena, Redshift oder Apache Spark dieselben Daten in place abfragen sollen, mit konsistenter, feingranularer Zugriffskontrolle.

Was kostet Amazon SageMaker Lakehouse?

Die Abrechnung erfolgt nutzungsbasiert ohne Vorabkosten über die zugrunde liegenden Komponenten: AWS Glue Data Catalog für Metadaten-Speicherung und API-Aufrufe (mit Free Tier), S3 oder Redshift Managed Storage für Speicher und Compute sowie automatisierte Statistiken und Iceberg-Tabellenwartung. Konkrete Preise hängen von der tatsächlichen Nutzung ab.

Welche Abfrage-Engines unterstützt SageMaker Lakehouse?

Da SageMaker Lakehouse auf dem offenen Apache-Iceberg-Standard basiert und Iceberg-kompatible APIs bereitstellt, können Iceberg-kompatible Engines die Daten in place abfragen. Dazu zählen Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Apache Spark sowie kompatible Drittanbieter-Tools.

Amazon SageMaker Lakehouse - Offenes Lakehouse

Was ist Amazon SageMaker Lakehouse?

Kernfunktionen

Typische Anwendungsfälle

Vorteile

Integration mit innFactory

Typische Anwendungsfälle

Häufig gestellte Fragen

Was ist Amazon SageMaker Lakehouse?

Wann sollte ich Amazon SageMaker Lakehouse einsetzen?

Was kostet Amazon SageMaker Lakehouse?

Welche Abfrage-Engines unterstützt SageMaker Lakehouse?

Schnellzugriff

AWS Cloud Expertise

Ähnliche Produkte anderer Cloud-Anbieter

Azure Analysis Services: BI-Datenmodelle

Azure Data Explorer - Echtzeitanalyse für Telemetriedaten

Azure Data Factory - Cloud ETL und Datenintegration

Azure Data Lake Storage Gen2 - Skalierbarer Data Lake

Azure Data Manager for Energy - OSDU-Datenplattform

Azure Data Share - Sichere Datenfreigabe

Bereit, mit Amazon SageMaker Lakehouse - Offenes Lakehouse zu starten?