Dataprep by Trifacta ist ein intelligenter Service für visuelle Datenaufbereitung. Automatische Analyse, Transformationsvorschläge und serverlose Ausführung auf Dataflow.
Was ist Dataprep?
Dataprep analysiert Ihre Daten automatisch, erkennt Muster und Anomalien, und schlägt Transformationen vor. Analysten arbeiten visuell im Browser, die Ausführung erfolgt auf Dataflow.
Der Service ist ideal für explorative Datenanalyse und Ad-hoc Bereinigung, bevor Daten in BigQuery für Analytics genutzt werden.
Wie funktioniert es?
1. Daten importieren
Cloud Storage / BigQuery / Upload
│
▼
2. Automatisches Profiling
┌──────────────────────┐
│ Datentypen erkannt │
│ Anomalien markiert │
│ Statistiken berechnet│
└──────────────────────┘
│
▼
3. Transformationen definieren
- Visuell im Browser
- Intelligente Vorschläge
- Preview vor Ausführung
│
▼
4. Job ausführen
Dataflow (serverless)
│
▼
5. Export
BigQuery / Cloud StorageKernfunktionen
- Automatisches Profiling: Datentypen, Verteilungen, Anomalien
- Intelligente Vorschläge: KI schlägt Transformationen vor
- Visuelle Transformationen: Klicken statt coden
- Wiederverwendbare Rezepte: Transformationen als Templates speichern
- Serverlose Ausführung: Dataflow skaliert automatisch
Typische Anwendungsfälle
Datenbereinigung für Analytics
CSV-Exporte, Excel-Dateien oder unstrukturierte Daten bereinigen. Nullwerte behandeln, Formate standardisieren, Duplikate entfernen.
Explorative Datenanalyse
Neue Datensätze verstehen. Dataprep zeigt automatisch Verteilungen, Outliers und potenzielle Qualitätsprobleme.
Self-Service Data Prep
Business-Analysten bereiten Daten selbst auf, ohne auf Data Engineering Teams warten zu müssen.
Ad-hoc Transformationen
Einmalige Datenkonvertierungen, die keinen produktiven ETL-Job rechtfertigen.
Dataprep vs. Data Fusion vs. Dataflow
| Kriterium | Dataprep | Data Fusion | Dataflow |
|---|---|---|---|
| Nutzer | Analysten | ETL-Entwickler | Entwickler |
| Interface | Visuell | Visuell | Code (Beam) |
| Use Case | Ad-hoc Prep | Produktive ETL | Komplexe Pipelines |
| Scheduling | Limitiert | Ja | Ja |
| Komplexität | Niedrig | Mittel | Hoch |
Vorteile
- Einfach: Visuelle Oberfläche ohne Code
- Intelligent: KI-gestützte Transformationsvorschläge
- Serverless: Keine Infrastruktur zu verwalten
- Schnell: Von Rohdaten zu Analytics in Minuten
Einschränkungen
- Nicht für Produktion: Limitiertes Scheduling und Monitoring
- Trifacta-Abhängigkeit: UI von Drittanbieter gehostet
- Kosten: Kann bei großen Datasets teuer werden
Integration mit innFactory
Als Google Cloud Partner unterstützt innFactory Sie bei Dataprep: Evaluierung für Ihre Use Cases, Integration in Analytics-Workflows und Vergleich mit Alternativen.
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Was ist Dataprep?
Dataprep by Trifacta ist ein intelligenter Service für visuelle Datenaufbereitung. Er analysiert Daten automatisch, schlägt Transformationen vor und führt sie auf Dataflow aus. Ideal für Analysten ohne Programmierkenntnisse.
Wie unterscheidet sich Dataprep von Data Fusion?
Dataprep ist für Ad-hoc Datenbereinigung und explorative Analyse durch Analysten. Data Fusion ist für produktive ETL-Pipelines mit Scheduling und Orchestrierung. Dataprep ist einfacher, Data Fusion leistungsfähiger.
Wo laufen Dataprep-Jobs?
Dataprep-Jobs werden auf Dataflow ausgeführt. Die Daten bleiben in Google Cloud (Cloud Storage, BigQuery). Trifacta hostet nur die UI, nicht die Daten.
Was kostet Dataprep?
Dataprep berechnet Units basierend auf verarbeiteten Daten. Zusätzlich fallen Dataflow-Kosten für die Ausführung an. Für kleine Datasets (Exploration) sind die Kosten gering, große Produktions-Jobs können teuer werden.
Ist Dataprep DSGVO-konform?
Die Datenverarbeitung erfolgt auf Dataflow in Ihrer GCP-Umgebung. Die Trifacta-UI verarbeitet nur Metadaten und Samples. Für strenge Compliance-Anforderungen prüfen Sie die Trifacta-Dokumentation.
