Big Data Systeme

4. Weitere Tools

Was ist Apache Spark?

  • In-Memory-Datenverarbeitungs-Engine mit APIs u.a. für Java, Python und R
  • Nutzung von YARN als Basis
  • Geeignet für Batch-Anwendungen (ähnlich MapReduce), interaktive Abfragen und Streaming-Daten
  • Bibliotheken z.B. für maschinelle Lernalgorithmen, SQL, Streaming
 
 
Apache Spark3 als Hadoop kompatibles Datenanalysesystem der nächsten Generation
ist aus verschiedenen Komponenten aufgebaut. Spark fasst den vorhandenen Hauptspeicher eines Rechenclusters zusammen und macht ihn so für effiziente Datenanalysen nutzbar.

Diskussion