Was ist Amazon S3 Metadata?
Amazon S3 Metadata erfasst automatisch Metadaten für Objekte in S3 General Purpose Buckets und stellt sie als abfragbare, schreibgeschützte Apache Iceberg Tabellen bereit. Diese Metadatentabellen aktualisieren sich nahezu in Echtzeit, sobald Objekte hinzugefügt, aktualisiert oder entfernt werden. Statt eigene Inventarsysteme oder Skripte zu pflegen, fragen Sie Objektmetadaten direkt per SQL ab und beschleunigen so Data Discovery über große Bestände.
S3 Metadata löst ein konkretes Problem: In Buckets mit Millionen oder Milliarden von Objekten ist es ohne separate Indexierung aufwändig, Objekte nach Erstellungszeit, Storage Class, Tags oder Verschlüsselungsstatus zu finden. Die Metadatentabellen liefern genau diese abfragbare Sicht und lassen sich über die Integration mit Amazon SageMaker Lakehouse, AWS Glue Data Catalog und AWS Lake Formation nahtlos mit AWS Analytics-Services verbinden.
Kernfunktionen
- Journal-Tabelle: Die erforderliche Journal-Tabelle erfasst Änderungsereignisse wie Uploads, Updates, Löschvorgänge und Lifecycle-Transitions nahezu in Echtzeit, jeweils ab dem Zeitpunkt, an dem Sie die Konfiguration erstellen. Sie ist abfragbar und ermöglicht Audits per einfacher SQL-Abfrage.
- Live-Inventory-Tabelle: Die optionale Live-Inventory-Tabelle bietet eine abfragbare Momentaufnahme aller Objekte und Versionen im Bucket. Sie erfordert einen initialen Backfill-Scan (mindestens 15 Minuten), danach werden Updates typischerweise innerhalb einer Stunde sichtbar.
- Drei Metadatenkategorien: Erfasst werden systemdefinierte Metadaten (Erstellungszeit, Storage Class, Größe), benutzerdefinierte Metadaten (Object Tags und User-defined Metadata) sowie Event-Metadaten (wer hat wann was über welches AWS-Konto geändert).
- Verwaltete Iceberg-Tabellen: Die Tabellen liegen in einem von AWS verwalteten S3 Table Bucket, sind schreibgeschützt und werden automatisch gewartet (Compaction, Entfernen nicht referenzierter Dateien). Verschlüsselung erfolgt standardmäßig mit SSE-S3, optional mit SSE-KMS.
Typische Anwendungsfälle
Data Discovery und Analytics: Finden Sie in großen Buckets schnell die relevanten Objekte und analysieren Sie Datenbestände direkt per SQL über Athena, EMR oder Redshift, ohne separate Inventarpipelines aufzubauen.
Aufbereitung von Trainingsdaten für AI/ML: Selektieren Sie über Tags, Storage Class oder Metadaten gezielt die Objekte, die in ein Training oder eine Verarbeitung eingehen sollen, und beschleunigen Sie so die Datenaufbereitung.
Audit und Change Tracking: Verfolgen Sie über die Journal-Tabelle nach, welche Objekte hinzugefügt, geändert oder gelöscht wurden, und durch welches AWS-Konto. Das unterstützt Compliance- und Governance-Anforderungen.
Vorteile
- Abfragbare Objektmetadaten ohne eigene Indexierungs- oder Inventarinfrastruktur
- Nahezu Echtzeit-Aktualisierung der Metadaten bei Objektänderungen
- Offenes Apache Iceberg Format und Integration mit AWS Analytics-Services sowie Iceberg-kompatiblen Engines
- In EU-Regionen für DSGVO-konforme Szenarien verfügbar
Integration mit innFactory
Als AWS Reseller unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Amazon S3 Metadata?
Amazon S3 Metadata erfasst automatisch Metadaten für Objekte in S3 General Purpose Buckets und speichert sie in schreibgeschützten, vollständig verwalteten Apache Iceberg Tabellen. Diese Metadatentabellen aktualisieren sich nahezu in Echtzeit, sobald Objekte hinzugefügt, geändert oder gelöscht werden. Sie können die Tabellen mit Standard-SQL abfragen, um Daten zu finden und zu analysieren.
Wann sollte ich Amazon S3 Metadata einsetzen?
Amazon S3 Metadata eignet sich, wenn Sie Objekte in großen Buckets schnell auffinden, Datenbestände analysieren oder Änderungen nachvollziehen müssen. Konkrete Szenarien sind das Aufbereiten von Trainingsdaten für AI/ML, das Auditieren von Uploads, Updates und Löschvorgängen sowie das Identifizieren von Objekten nach Storage Class, Tags oder Verschlüsselungsstatus für Compliance und Kostenoptimierung.
Was kostet Amazon S3 Metadata?
Amazon S3 Metadata nutzt ein Pay-per-use-Modell. Sie zahlen für die erfassten Änderungsereignisse in der Journal-Tabelle sowie für den Tabellenspeicher. Wenn Sie die optionale Live-Inventory-Tabelle aktivieren, kommen Gebühren für den initialen Backfill-Scan hinzu, und bei Buckets mit mehr als einer Milliarde Objekten fällt eine monatliche Gebühr für die Live-Inventory-Tabelle an. Die aktuellen Konditionen finden Sie auf der S3 Pricing-Seite.
Welche Abfrage-Engines und Analytics-Services werden unterstützt?
Die Metadatentabellen lassen sich über die Integration mit Amazon SageMaker Lakehouse direkt mit AWS Analytics-Services wie Amazon Athena, Amazon EMR und Amazon Redshift abfragen, und Sie können Dashboards in Amazon QuickSight erstellen. Über AWS Glue Data Catalog und AWS Lake Formation werden Zugriff und Governance verwaltet. Da die Tabellen im Apache Iceberg Format vorliegen, funktionieren auch Apache Spark, Apache Trino und andere Iceberg-kompatible Engines über die Glue oder S3 Tables Iceberg REST Endpoints.