Apache Spark

Apache Spark

In Deutschland ist das Thema Big Data, also die Verarbeitung von großen Datenmengen, zunehmend interessanter geworden. Durch die zunehmende Einführung der Industrie 4.0 und der damit verbundenen Digitalisierung generieren Unternehmen zunehmend mehr Informationen als noch vor zehn Jahren.

Auch die E-Commerce Plattform Amazon nutzt generierte Informationen um das Kaufverhalten von Kunden analysieren zu können. Amazon verwendet unter anderem Apache Spark zur Analyse dieser Informationen.

Apache Spark ist eine Open-Source-Lösung der Apache-Foundation. Ursprünglich an der kalifornischen Universität Berkeley entwickelt, wurde das Cluster-Computing-Framework 2010 von Apache übernommen und stetig weiterentwickelt. 

Spark ist eine modular aufgebaute Plattform für schnelle Datenanalysen. Es gibt Module für die Arbeit mit SQL, Streamingdaten, Graphen und Maschinlearning Algorithmen. Das Framework bringt zahlreiche Schnittstellen für Programmiersprachen mit. So können Sparkprogramme in den Programmiersprachen Python, R, Scala und Java programmiert und anschließend in Spark-Cluster verteilt und ausgeführt werden.

Nachfolgende Abbildung verdeutlicht den Aufbau von Apache Spark grafisch.

 

Spark Stack
Spark Stack

 

Wir nutzen Apache Spark unter anderem für die Berechnung unseres Recommender Systems in unserem Produkt croGoDeal.