Zum Hauptinhalt springen
Cloud / AWS / Produkte / Amazon SageMaker Lakehouse - Offenes Lakehouse

Amazon SageMaker Lakehouse - Offenes Lakehouse

Amazon SageMaker Lakehouse vereint S3 Data Lakes und Redshift Warehouses auf einer Datenkopie, abfragbar in place via Apache Iceberg.

Analytics
Preismodell Pay-per-use, abgerechnet über zugrunde liegende Komponenten
Verfügbarkeit Mehrere Regionen inkl. EU (Irland, Frankfurt, Stockholm, London)
Datensouveränität EU-Regionen verfügbar
Zuverlässigkeit N/A (abhängig von zugrunde liegenden Services) SLA

Was ist Amazon SageMaker Lakehouse?

Amazon SageMaker Lakehouse ist eine offene, vereinheitlichte Lakehouse-Architektur, die Amazon S3 Data Lakes (inklusive S3 Tables) und Amazon Redshift Warehouses auf einer einzigen Datenkopie zusammenführt. Analytics- und KI/ML-Workloads greifen damit auf dieselben Daten zu, ohne dass diese verschoben oder dupliziert werden müssen.

Das Lakehouse löst das klassische Problem getrennter Datensilos: Data Lakes und Data Warehouses entwickeln sich häufig parallel, was zu redundanten Kopien, ETL-Pipelines und inkonsistenten Berechtigungen führt. SageMaker Lakehouse setzt auf den offenen Apache-Iceberg-Standard und stellt Iceberg-kompatible APIs bereit, sodass beliebige Iceberg-fähige Engines die Daten in place abfragen.

Kernfunktionen

  • Vereinheitlichte Datenbasis: Verbindet S3 Data Lakes (inklusive S3 Tables) und Redshift Warehouses, sodass Analytics und KI/ML auf einer einzigen Datenkopie ohne Datenverschiebung arbeiten.
  • Offener Apache-Iceberg-Standard: Iceberg-kompatible APIs erlauben Abfragen mit Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Apache Spark und kompatiblen Drittanbieter-Tools direkt in place.
  • Feingranulare Zugriffskontrolle: Zentrale Berechtigungen auf Tabellen-, Spalten-, Zeilen- und Zellenebene über tag-, attribut- oder rollenbasierte Richtlinien, konsistent über alle Engines via AWS Lake Formation und AWS Glue Data Catalog.
  • Zero-ETL und Federation: Zusätzliche Daten kommen über Zero-ETL-Integrationen aus operativen Datenbanken und Anwendungen, über Query-Federation zu externen Quellen sowie über Catalog-Federation für entfernte Apache-Iceberg-Tabellen.

Typische Anwendungsfälle

Vereinheitlichung von Data Lake und Warehouse: Bestehende S3 Data Lakes und Redshift Warehouses zusammenführen, ohne Daten zu kopieren oder in ETL-Pipelines zu spiegeln. Teams arbeiten auf einer konsistenten Datenkopie.

Engine-übergreifende Analytics: Dieselben Daten mit unterschiedlichen Engines wie EMR, Glue, Athena, Redshift oder Apache Spark in place abfragen, je nach Workload und Team, ohne separate Datenkopien zu pflegen.

Governance über Engines hinweg: Feingranulare Berechtigungen einmal in Lake Formation definieren und konsistent über alle zugreifenden Engines durchsetzen, bis auf Spalten-, Zeilen- und Zellenebene.

Vorteile

  • Eine einzige Datenkopie für Analytics und KI/ML statt redundanter Kopien und ETL-Pipelines
  • Offener Apache-Iceberg-Standard vermeidet Lock-in und ermöglicht freie Engine-Wahl
  • Konsistente, feingranulare Zugriffskontrolle über alle Engines hinweg
  • Nutzungsbasierte Abrechnung ohne Vorabkosten

Integration mit innFactory

Als AWS Reseller unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.

Typische Anwendungsfälle

Analytics und KI/ML auf einer einzigen Datenkopie
Vereinheitlichung von S3 Data Lakes und Redshift Warehouses
Engine-übergreifende Abfragen über Apache Iceberg
Zentrale, feingranulare Zugriffskontrolle über Lake Formation

Häufig gestellte Fragen

Was ist Amazon SageMaker Lakehouse?

Amazon SageMaker Lakehouse ist eine offene, vereinheitlichte Lakehouse-Architektur auf Basis von Apache Iceberg. Sie verbindet Amazon S3 Data Lakes (inklusive S3 Tables) und Amazon Redshift Warehouses, sodass Analytics und KI/ML auf einer einzigen Datenkopie ohne Datenverschiebung oder Duplikation arbeiten.

Wann sollte ich Amazon SageMaker Lakehouse einsetzen?

Sinnvoll ist der Einsatz, wenn Daten heute getrennt in S3 Data Lakes und Redshift liegen und Sie diese Silos ohne ETL-Kopien vereinheitlichen wollen. Ebenso, wenn verschiedene Engines wie EMR, Glue, Athena, Redshift oder Apache Spark dieselben Daten in place abfragen sollen, mit konsistenter, feingranularer Zugriffskontrolle.

Was kostet Amazon SageMaker Lakehouse?

Die Abrechnung erfolgt nutzungsbasiert ohne Vorabkosten über die zugrunde liegenden Komponenten: AWS Glue Data Catalog für Metadaten-Speicherung und API-Aufrufe (mit Free Tier), S3 oder Redshift Managed Storage für Speicher und Compute sowie automatisierte Statistiken und Iceberg-Tabellenwartung. Konkrete Preise hängen von der tatsächlichen Nutzung ab.

Welche Abfrage-Engines unterstützt SageMaker Lakehouse?

Da SageMaker Lakehouse auf dem offenen Apache-Iceberg-Standard basiert und Iceberg-kompatible APIs bereitstellt, können Iceberg-kompatible Engines die Daten in place abfragen. Dazu zählen Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Apache Spark sowie kompatible Drittanbieter-Tools.

AWS Cloud Expertise

innFactory ist AWS Reseller mit zertifizierten Cloud-Architekten. Wir bieten Beratung, Implementierung und Managed Services für AWS.

Ähnliche Produkte anderer Cloud-Anbieter

Andere Cloud-Anbieter bieten vergleichbare Services in dieser Kategorie. Als Multi-Cloud Partner helfen wir bei der richtigen Wahl.

Google Cloud

BigQuery data canvas - Visuelle Datenanalyse

BigQuery data canvas: Gemini-gestützter, visueller Natural-Language-Workspace in BigQuery Studio zum Finden, Abfragen …

Preismodell Pay-per-use (Gemini in BigQuery) …
SLA N/A (Funktion innerhalb von BigQuery; BigQuery-SLA gilt für den zugrunde liegenden Service)
Vergleichen →
Google Cloud

BigQuery Studio - Workspace für Daten und KI

BigQuery Studio: einheitlicher Workspace in BigQuery für SQL, Python, Notebooks und Serverless Spark mit …

Preismodell Keine separate Gebühr für den Workspace; …
SLA N/A (Abrechnung über die zugrunde liegenden BigQuery-Ressourcen)
Vergleichen →
Azure

Fabric IQ - Semantische Datenschicht

Fabric IQ ist die semantische Geschäftsschicht in Microsoft Fabric: Ontologie, Graph und Datenagenten geben Apps, …

Preismodell Pay-as-you-go über Fabric Capacity Units …
SLA N/A (Preview)
Vergleichen →
Google Cloud

Dataflow - Managed Stream und Batch Processing

Dataflow ist Googles vollständig verwalteter Service für Stream- und Batch-Datenverarbeitung. Basiert auf Apache Beam, …

Preismodell Bezahlung nach Nutzung (vCPU, RAM, …
SLA 99,9% Verfügbarkeit
Vergleichen →
Google Cloud

Dataproc - Managed Spark und Hadoop Cluster

Google Cloud Dataproc ist ein vollständig verwalteter Service für Apache Spark und Hadoop Cluster mit schneller …

Preismodell Bezahlung nach Nutzung (sekundengenau)
SLA 99,9% Verfügbarkeit
Vergleichen →
Azure

Azure HDInsight - Verwaltete Apache Hadoop, Spark und Kafka Cluster

Azure HDInsight ist ein verwalteter Service für Apache Hadoop, Spark, Hive, Kafka und HBase für Big Data Analysen in der …

Preismodell Bezahlung pro Stunde (cluster nodes)
SLA 99,9%
Vergleichen →

39 vergleichbare Produkte bei anderen Cloud-Anbietern gefunden.

Bereit, mit Amazon SageMaker Lakehouse - Offenes Lakehouse zu starten?

Unsere zertifizierten AWS Experten helfen bei Architektur, Integration und Optimierung.

Beratung vereinbaren