Ich war gerade auf der OpenRheinRuhr in Oberhausen gewesen und konnte mir dort am heutigen Tag drei Vorträge und die Ausstellung ansehen.

Der erste Votrag, den ich mir ansehen konnte, war der Vortrag zu Apache Spark von Sebastian 'muzy' Muszytoski und war höchstinteressant. Das Überthema ist Big Data Analysen

Traditionell werden Daten mit R, Excel (beliebt im Mittelstand) oder per Script ausgewertet. Das Problem dabei ist, daß die Auswertung dann auf einer Ressource läuft also mit beschränkter Kapazität/Rechenleistung. Bei kleinen Datenmengen kann man das so machen, aber bei richtig großen Datenmengen geht man anders vor.

Muzy liefert zu Beginn des Vortrages beispielhaft, welche Datenmengen in welchen großen Projekten stecken. Hier ein paar mitgeschriebene Zahlen aus dem Vortrag, die wohl aus 2013/2014 stammen, zu verschiedenen bekannten Projekten im Netz:

  • 450 TB stecken im Genome Projekt
  • 500+ TB werden täglich in Facebook gepostet
  • 90+ PB stecken im ebay Warehouse
  • 100+ PB im Google-Suchindex
  • 600+ PB im Facebook-Warehouse

Diese Daten werden in billiger aber massenhafter Consumerhardware in heterogener aber ausfalltoleranter (Consumerware!) Infrastruktur gespeichert.

Fragen sind dann:

  • Wie teile ich die Auswertearbeit auf die vielen Maschinen geschickt auf?
  • Wohin mit den Ergebnissen?
  • Wie gehe ich mit Fehlern um?
  • Wie mit langsamer Ausführung meiner Anfragen?

Die Lösung ist für Muzy dann - natürlich :-) - Apache Spark das - verteilt, fehlertolerant und hoch flexibel ist - Komplexität in einfache Interfaces versteckt - kompatibel zu Apache Hadoop ist - Linix, Unix und sogar Windows :-) unterstützt - mit Java, R, Scala und Python programmierbar ist - leider Java 6 benötigt (empfinde ich echt als Makel)