Amazon S3 Metadata - Abfragbare Objektmetadaten · innFactory

Was ist Amazon S3 Metadata?

Amazon S3 Metadata erfasst automatisch Metadaten für Objekte in S3 General Purpose Buckets und stellt sie als abfragbare, schreibgeschützte Apache Iceberg Tabellen bereit. Diese Metadatentabellen aktualisieren sich nahezu in Echtzeit, sobald Objekte hinzugefügt, aktualisiert oder entfernt werden. Statt eigene Inventarsysteme oder Skripte zu pflegen, fragen Sie Objektmetadaten direkt per SQL ab und beschleunigen so Data Discovery über große Bestände.

S3 Metadata löst ein konkretes Problem: In Buckets mit Millionen oder Milliarden von Objekten ist es ohne separate Indexierung aufwändig, Objekte nach Erstellungszeit, Storage Class, Tags oder Verschlüsselungsstatus zu finden. Die Metadatentabellen liefern genau diese abfragbare Sicht und lassen sich über die Integration mit Amazon SageMaker Lakehouse, AWS Glue Data Catalog und AWS Lake Formation nahtlos mit AWS Analytics-Services verbinden.

Kernfunktionen

Journal-Tabelle: Die erforderliche Journal-Tabelle erfasst Änderungsereignisse wie Uploads, Updates, Löschvorgänge und Lifecycle-Transitions nahezu in Echtzeit, jeweils ab dem Zeitpunkt, an dem Sie die Konfiguration erstellen. Sie ist abfragbar und ermöglicht Audits per einfacher SQL-Abfrage.
Live-Inventory-Tabelle: Die optionale Live-Inventory-Tabelle bietet eine abfragbare Momentaufnahme aller Objekte und Versionen im Bucket. Sie erfordert einen initialen Backfill-Scan (mindestens 15 Minuten), danach werden Updates typischerweise innerhalb einer Stunde sichtbar.
Annotation-Tabelle: Die optionale Annotation-Tabelle macht Annotationen zu Objekten direkt abfragbar, mit einer Zeile pro Annotation und Objektversion.
Drei Metadatenkategorien: Erfasst werden systemdefinierte Metadaten (Erstellungszeit, Storage Class, Größe), benutzerdefinierte Metadaten (Object Tags und User-defined Metadata) sowie Event-Metadaten (wer hat wann was über welches AWS-Konto geändert).
Verwaltete Iceberg-Tabellen: Die Tabellen liegen in einem von AWS verwalteten S3 Table Bucket, sind schreibgeschützt und werden automatisch gewartet (Compaction, Entfernen nicht referenzierter Dateien). Verschlüsselung erfolgt standardmäßig mit SSE-S3, optional mit SSE-KMS.

Typische Anwendungsfälle

Data Discovery und Analytics: Finden Sie in großen Buckets schnell die relevanten Objekte und analysieren Sie Datenbestände direkt per SQL über Athena, EMR oder Redshift, ohne separate Inventarpipelines aufzubauen.

Aufbereitung von Trainingsdaten für AI/ML: Selektieren Sie über Tags, Storage Class oder Metadaten gezielt die Objekte, die in ein Training oder eine Verarbeitung eingehen sollen, und beschleunigen Sie so die Datenaufbereitung.

Audit und Change Tracking: Verfolgen Sie über die Journal-Tabelle nach, welche Objekte hinzugefügt, geändert oder gelöscht wurden, und durch welches AWS-Konto. Das unterstützt Compliance- und Governance-Anforderungen.

Vorteile

Abfragbare Objektmetadaten ohne eigene Indexierungs- oder Inventarinfrastruktur
Nahezu Echtzeit-Aktualisierung der Metadaten bei Objektänderungen
Offenes Apache Iceberg Format und Integration mit AWS Analytics-Services sowie Iceberg-kompatiblen Engines
In EU-Regionen für DSGVO-konforme Szenarien verfügbar

Integration mit innFactory

Als AWS Reseller unterstützt innFactory Sie bei Einführung und Betrieb dieses Service.

Häufig gestellte Fragen

Was ist Amazon S3 Metadata?

Amazon S3 Metadata erfasst automatisch Metadaten für Objekte in S3 General Purpose Buckets und speichert sie in schreibgeschützten, vollständig verwalteten Apache Iceberg Tabellen. Diese Metadatentabellen aktualisieren sich nahezu in Echtzeit, sobald Objekte hinzugefügt, geändert oder gelöscht werden. Sie können die Tabellen mit Standard-SQL abfragen, um Daten zu finden und zu analysieren.

Wann sollte ich Amazon S3 Metadata einsetzen?

Amazon S3 Metadata eignet sich, wenn Sie Objekte in großen Buckets schnell auffinden, Datenbestände analysieren oder Änderungen nachvollziehen müssen. Konkrete Szenarien sind das Aufbereiten von Trainingsdaten für AI/ML, das Auditieren von Uploads, Updates und Löschvorgängen sowie das Identifizieren von Objekten nach Storage Class, Tags oder Verschlüsselungsstatus für Compliance und Kostenoptimierung.

Was kostet Amazon S3 Metadata?

Amazon S3 Metadata nutzt ein Pay-per-use-Modell. Sie zahlen für die erfassten Änderungsereignisse in der Journal-Tabelle sowie für den Tabellenspeicher. Wenn Sie die optionale Live-Inventory-Tabelle aktivieren, kommen Gebühren für den initialen Backfill-Scan hinzu, und bei Buckets mit mehr als einer Milliarde Objekten fällt eine monatliche Gebühr für die Live-Inventory-Tabelle an. Die aktuellen Konditionen finden Sie auf der S3 Pricing-Seite.

Welche Abfrage-Engines und Analytics-Services werden unterstützt?

Die Metadatentabellen lassen sich über die Integration mit Amazon SageMaker Lakehouse direkt mit AWS Analytics-Services wie Amazon Athena, Amazon EMR und Amazon Redshift abfragen, und Sie können Dashboards in Amazon Quick Suite (dem Nachfolger von Amazon QuickSight) erstellen. Über AWS Glue Data Catalog und AWS Lake Formation werden Zugriff und Governance verwaltet. Da die Tabellen im Apache Iceberg Format vorliegen, funktionieren auch Apache Spark, Apache Trino und andere Iceberg-kompatible Engines über die Glue- oder S3-Tables-Iceberg-REST-Endpoints.

Was ist die Annotation-Tabelle bei S3 Metadata?

Die optionale Annotation-Tabelle erfasst die aktuellen Annotationen zu Objekten in einem Bucket und macht deren Inhalte direkt abfragbar. Jede Zeile repräsentiert eine Annotation zu einer bestimmten Objektversion, sodass Sie Objekte gezielt nach Annotationswerten finden und Annotationen über mehrere Objekte hinweg korrelieren können.

Amazon S3 Metadata - Abfragbare Objektmetadaten

Was ist Amazon S3 Metadata?

Kernfunktionen

Typische Anwendungsfälle

Vorteile

Integration mit innFactory

Typische Anwendungsfälle

Häufig gestellte Fragen

Was ist Amazon S3 Metadata?

Wann sollte ich Amazon S3 Metadata einsetzen?

Was kostet Amazon S3 Metadata?

Welche Abfrage-Engines und Analytics-Services werden unterstützt?

Was ist die Annotation-Tabelle bei S3 Metadata?

Schnellzugriff

AWS Cloud Expertise

Ähnliche Produkte anderer Cloud-Anbieter

Azure Archive Storage - Langzeitspeicher

Azure Blob Storage - Objektspeicher

Azure Disk Storage - Verwalteter Blockspeicher

Azure Elastic SAN - Block Storage im SAN-Modell

Azure Files - Managed File Shares

Azure Managed Lustre - High-Performance-Dateisystem

Bereit, mit Amazon S3 Metadata - Abfragbare Objektmetadaten zu starten?