Azure Databricks ist eine Apache Spark-basierte Analytics-Plattform, die von Databricks und Microsoft gemeinsam entwickelt wurde. Der Service kombiniert die Power von Spark mit nativer Azure-Integration für Data Engineering, Machine Learning und Analytics.
Was ist Azure Databricks?
Azure Databricks ist eine Unified Analytics Platform, die Data Engineering, Data Science und Business Analytics in einer Umgebung vereint. Der Service basiert auf Apache Spark, bietet aber erhebliche Optimierungen und zusätzliche Features:
1. Optimierte Spark-Engine: Databricks Runtime ist 3-5x schneller als Open-Source Spark durch optimierte Caching-Mechanismen, Adaptive Query Execution und Auto-Scaling.
2. Kollaborative Notebooks: Multi-User Notebooks mit Live-Collaboration, ähnlich Google Docs. Unterstützt Python, Scala, SQL und R in einer Datei.
3. Delta Lake: ACID-Transaktionen für Data Lakes. Ermöglicht zuverlässige Batch- und Streaming-Workloads auf derselben Datenbasis.
4. MLflow Integration: Vollständig integriertes ML Lifecycle Management für Experiment Tracking, Model Registry und Deployment.
5. Auto-Scaling Cluster: Cluster skalieren automatisch basierend auf Workload, keine manuelle Konfiguration erforderlich.
Die native Azure-Integration ermöglicht direkten Zugriff auf Azure Data Lake Storage Gen2, Blob Storage, SQL Database, Cosmos DB und weitere Services ohne komplexe Konfiguration. Authentication erfolgt über Azure Active Directory und Managed Identities.
Für DSGVO-konforme Datenverarbeitung ist Databricks in europäischen Azure-Regionen verfügbar. Der Premium-Tier erfüllt ISO 27001, SOC 2, HIPAA und weitere Compliance-Standards.
Delta Lake: ACID für Data Lakes
Delta Lake ist ein Game-Changer für moderne Data Lakes. Es löst die klassischen Probleme von Parquet/ORC-basierten Data Lakes:
Problem 1: Inkonsistente Daten Klassische Data Lakes haben keine Transaktionen. Wenn ein Job fehlschlägt, bleiben Partial Writes zurück.
Lösung: ACID Transactions Delta Lake garantiert Atomarität. Entweder wird ein kompletter Batch geschrieben oder gar nichts.
Problem 2: Langsame Queries Full Table Scans sind bei TB-großen Datasets ineffizient.
Lösung: Z-Ordering und Data Skipping Delta Lake optimiert File-Layout automatisch und überspringt irrelevante Files basierend auf Min/Max-Statistiken.
Problem 3: Schema-Änderungen sind riskant Neue Spalten hinzufügen erfordert manuelles Rewrite aller Dateien.
Lösung: Schema Evolution Delta Lake unterstützt Schema Merge und Evolution ohne Downtime.
Problem 4: Keine Versionierung Versehentlich gelöschte Daten sind unwiederbringlich verloren.
Lösung: Time Travel
Greifen Sie auf jede frühere Version Ihrer Daten zu via SELECT * FROM table VERSION AS OF 5.
Delta Lake ist Open Source (Linux Foundation) und der De-facto Standard für moderne Lakehouse-Architekturen.
Cluster-Typen und Sizing
Databricks bietet verschiedene Cluster-Optionen:
| Cluster-Typ | Verwendung | Auto-Terminate | Best for |
|---|---|---|---|
| All-Purpose | Interaktive Notebooks | Ja (konfigurierbar) | Entwicklung, Exploration |
| Job Cluster | Scheduled/Automated Jobs | Automatisch nach Job | Production Workloads |
| SQL Warehouse | SQL Analytics (Serverless) | Automatisch | BI Tools, Ad-hoc Queries |
| Photon | Optimierte Query Engine | - | Large-Scale Analytics |
Sizing-Empfehlungen:
- Small Workloads (< 100 GB): Standard_DS3_v2 (4 Cores, 14 GB RAM)
- Medium Workloads (100 GB - 1 TB): Standard_DS4_v2 (8 Cores, 28 GB RAM)
- Large Workloads (> 1 TB): Standard_DS5_v2 (16 Cores, 56 GB RAM)
- ML/GPU: Standard_NC6s_v3 (NVIDIA V100), Standard_NC24ads_A100_v4 (A100)
Nutzen Sie Auto-Scaling für variable Workloads. Databricks startet/stoppt Worker Nodes automatisch basierend auf Queue-Länge.
Typische Anwendungsfälle
1. Data Engineering und ETL
Transformieren Sie rohe Daten zu analytisch nutzbaren Datasets.
Beispiel: Ingestion von JSON-Logs aus Event Hub, Transformation mit PySpark, Speicherung als Delta Lake für Analytics.
df = spark.readStream.format("eventhubs").load()
df.writeStream.format("delta").outputMode("append").start("/mnt/data/logs")2. Machine Learning Model Training
Trainieren Sie ML-Modelle auf großen Datasets mit verteiltem Computing.
Beispiel: Training eines XGBoost-Modells auf 500 Mio. Zeilen für Churn-Prediction mit MLflow Tracking.
3. Real-time Analytics
Verarbeiten Sie Streaming-Daten in Echtzeit.
Beispiel: IoT-Sensor-Daten aus 10.000 Geräten aggregieren und Anomalien in Echtzeit detektieren.
4. Lakehouse-Architekturen
Kombinieren Sie die Vorteile von Data Lakes und Data Warehouses.
Beispiel: Bronze Layer (Raw Data) → Silver Layer (Cleaned) → Gold Layer (Business-Level Aggregates) mit Delta Lake.
5. LLM Fine-Tuning
Trainieren Sie Custom Language Models auf GPU-Clustern.
Beispiel: Fine-Tuning von Llama 3.1 70B auf unternehmensinternen Daten mit Hugging Face Transformers.
6. Advanced Analytics für Business
Führen Sie komplexe Analysen aus, die SQL allein nicht schafft.
Beispiel: Customer Segmentation mit K-Means Clustering auf 200 Mio. Transaktionen.
Best Practices
1. Nutze Delta Lake für alles
Selbst für kleine Datasets ist Delta Lake der bessere Choice als Parquet. Die Overhead sind minimal, die Vorteile enorm.
2. Optimize Table Layout regelmäßig
OPTIMIZE my_table ZORDER BY (customer_id, date)
VACUUM my_table RETAIN 168 HOURSOPTIMIZE kompaktiert Files und sortiert via Z-Ordering. VACUUM löscht alte Versionen (beachte Time Travel Retention).
3. Nutze Auto-Loader für File Ingestion
Statt manueller File-Listen, nutze Auto-Loader für kontinuierliche Ingestion:
df = spark.readStream.format("cloudFiles") \
.option("cloudFiles.format", "json") \
.load("/mnt/data/input")4. Partitioniere Tabellen intelligent
Zu viele Partitionen (> 10.000) schaden der Performance. Zu wenige auch.
Faustregel: Partitionen sollten 1-10 GB groß sein. Partitioniere nach häufig genutzten Filter-Spalten (z.B. Datum).
5. Nutze Cluster Pools
Cluster Pools halten VMs warm, reduzieren Start-Zeit von 5-7 Minuten auf < 1 Minute. Kostet nur VM-Kosten, keine DBU.
6. Implementiere Data Lineage
Nutze Unity Catalog für automatisches Tracking von Data Lineage, Table ACLs und zentrale Governance.
7. Monitoring mit Databricks SQL
Erstelle Dashboards mit Databricks SQL für Cluster-Auslastung, Job-Erfolgsraten und Kosten-Tracking.
8. Security Best Practices
- Aktiviere Azure Private Link für Premium-Tier
- Nutze Customer-Managed Keys für Encryption
- Implementiere RBAC auf Table-/Column-Level
- Aktiviere Audit Logs für Compliance
Häufig gestellte Fragen
Was kostet Azure Databricks?
Die Kosten setzen sich aus zwei Komponenten zusammen:
1. Azure VM-Kosten: Normale Azure-VM-Preise (z.B. Standard_DS3_v2: ca. 0,20 EUR/h) 2. DBU-Kosten: Databricks Units (Standard: ca. 0,30 EUR/DBU-h, Premium: ca. 0,42 EUR/DBU-h)
Beispiel: 8h/Tag Cluster-Laufzeit auf DS3_v2 Premium = (0,20 + 0,42) * 8 * 30 = ca. 150 EUR/Monat.
Serverless SQL berechnet nur per Query (ca. 0,70 EUR/DBU).
Ist Azure Databricks DSGVO-konform?
Ja, bei Wahl europäischer Regionen (Germany West Central, West Europe). Databricks erfüllt ISO 27001, SOC 2, GDPR, HIPAA. Daten bleiben in der gewählten Azure-Region.
Wie integriert sich Azure Databricks mit anderen Azure Services?
Native Integration mit: Data Lake Storage Gen2, Blob Storage, SQL Database, Synapse Analytics, Cosmos DB, Event Hub, Key Vault, Azure DevOps. Authentifizierung via Managed Identities.
Welche SLAs bietet Azure Databricks?
Standard-Tier: Kein SLA. Premium-Tier: 99,95% SLA. Gilt für Control Plane, nicht für Data Plane (abhängig von Azure VMs).
Kann ich Azure Databricks in Hybrid-Cloud-Szenarien nutzen?
Eingeschränkt. Databricks läuft vollständig in Azure, kann aber via ExpressRoute auf On-Premises-Daten zugreifen oder Daten aus anderen Clouds (AWS S3, GCS) lesen.
Integration mit innFactory
Als Microsoft Solutions Partner unterstützt innFactory Sie bei:
- Lakehouse-Architekturen: Design und Implementierung moderner Data Platforms
- Migration: Von On-Premises Hadoop/Spark zu Azure Databricks
- ML-Pipelines: End-to-End ML Workflows mit MLflow und AutoML
- Performance-Optimierung: Cluster Tuning und Kostenreduktion
- LLM Fine-Tuning: Custom Language Models auf Unternehmensdaten
- Training & Enablement: Team-Schulungen für Databricks
Kontaktieren Sie uns für eine unverbindliche Beratung zu Azure Databricks und Analytics-Plattformen.
Verfügbare Varianten & Optionen
Standard
- Apache Spark für Data Engineering
- Notebooks und kollaborative Umgebung
- Cluster-Management
- Integration mit Azure Storage
- Keine RBAC auf Tabellen-Ebene
- Kein SLA
Premium
- Role-Based Access Control (RBAC)
- Audit Logs und Compliance
- 99,95% SLA
- Erweiterte Sicherheitsfeatures
- Höhere Kosten (ca. 40% Aufschlag)
Serverless SQL
- Instant Compute ohne Cluster-Start
- Pay-per-Query Abrechnung
- Auto-Scaling
- Nur für SQL-Workloads
- Keine Python/Scala
Typische Anwendungsfälle
Technische Spezifikationen
Häufig gestellte Fragen
Was ist der Unterschied zwischen Azure Databricks und Apache Spark?
Azure Databricks ist eine optimierte, verwaltete Spark-Distribution mit zusätzlichen Features: Auto-Scaling, optimierte Runtimes (3-5x schneller), kollaborative Notebooks, MLflow-Integration und native Azure-Integration. Sie müssen keine Cluster manuell verwalten.
Was ist Delta Lake und warum sollte ich es nutzen?
Delta Lake ist ein Open-Source Storage Layer über Parquet, der ACID-Transaktionen, Schema Evolution und Time Travel bietet. Es löst die klassischen Data Lake Probleme (inkonsistente Daten, langsame Queries) und ist Standard in Databricks.
Wie berechnen sich die Kosten?
Kosten = Azure VM-Kosten + DBU-Kosten (Databricks Units). Beispiel: Ein Standard_DS3_v2 Cluster (4 Cores) kostet ca. 0,20 EUR/h VM + 0,30 EUR/h DBU = 0,50 EUR/h. Premium-Tier hat ca. 40% höhere DBU-Kosten.
Kann ich Databricks für LLM-Training nutzen?
Ja, Databricks bietet GPU-Cluster (z.B. NC-Serie mit NVIDIA A100), Distributed Training mit Horovod, und Integration mit Hugging Face. Ideal für Fine-Tuning von LLMs oder Training von Custom Models.
Was ist der Unterschied zwischen Standard und Premium?
Premium bietet RBAC (Table/Column-Level), 99,95% SLA, Audit Logs, Azure Private Link, und erweiterte Sicherheitsfeatures. Für produktive Workloads mit Compliance-Anforderungen ist Premium empfohlen.
Wie integriert sich Databricks mit Azure Synapse?
Databricks kann Daten direkt in Synapse SQL Pools schreiben, von Synapse lesen, und via Linked Services in Azure Data Factory orchestriert werden. Typisches Pattern: Databricks für komplexe Transformationen, Synapse für SQL-Analytics.
Unterstützt Databricks Streaming?
Ja, Structured Streaming ist vollständig integriert. Sie können Daten aus Event Hub, Kafka, IoT Hub in Echtzeit verarbeiten und in Delta Lake schreiben. Auto-Loader vereinfacht Ingestion von neuen Files.
Was ist MLflow und wie nutze ich es?
MLflow ist in Databricks integriert und bietet Experiment Tracking, Model Registry und Model Deployment. Sie können ML-Modelle versionieren, reproduzieren und direkt aus Notebooks als REST API deployen.
