Apache Spark

Apache Spark
Vývojář	Apache Spark
První vydání	26. května 2014
Aktuální verze	3.5.3 (24. září 2024)
Operační systém	Microsoft Windows, macOS, Linux
Platforma	Java Virtual Machine
Vyvíjeno v	Scala
Typ softwaru	framework, machine learning framework, cloud computing, svobodný software a Apache Software Foundation project
Licence	Apache License 2.0
Web	spark.apache.org
	Některá data mohou pocházet z datové položky.

Apache Spark je open-source platforma vyvinutá pro efektivní zpracování rozsáhlých datových objemů, známých jako Big Data. Tento analytický framework umožňuje distribuované zpracování dat na clusterech a je robustní proti chybám, což zajišťuje spolehlivost a odolnost celého systému. Spark byl původně vytvořen v roce 2009 na Kalifornské univerzitě v Berkeley a od roku 2013 je spravován Apache Software Foundation, která ho neustále aktualizuje.^[1]

Architektura Apache Spark

Resilient Distributed Dataset (RDD) ^[2]

Resilient Distributed Dataset je klíčovou komponentou Apache Spark, která představuje základní datovou strukturu pro zpracování distribuovaných dat. RDD je neměnná kolekce objektů, rozdělená do logických oddílů, jež jsou distribuovány na více uzlech clusteru. Tato struktura je navržena tak, aby byla odolná vůči chybám prostřednictvím lineage grafu (DAG), který umožňuje opětovné vytvoření ztracených či poškozených částí dat při selhání uzlů.

RDD lze vytvořit třemi způsoby: načtením dat z externího úložiště (například HDFS, Amazon S3 nebo databáze prostřednictvím JDBC), transformací jiného RDD nebo paralelizací již existující kolekce dat. Spark umožňuje efektivní práci s RDD díky podpoře operací jako transformace (např. map, filter) a akce (např. count, collect). Tyto operace se provádějí paralelně, což přispívá k rychlosti zpracování.

Další výhodou RDD je možnost cachování, které zlepšuje výkon opakovaného použití dat. Díky ručnímu rozdělování dat lze zajistit rovnoměrné zatížení jednotlivých uzlů clusteru. RDD podporuje i různé strategie perzistence, například uložení dat pouze na disk nebo replikaci napříč uzly, což zajišťuje větší flexibilitu při práci s omezenými zdroji.

RDD byla navržena tak, aby překonala omezení klasických distribuovaných systémů, které často vyžadují úložiště pro mezivýsledky, což zpomaluje zpracování kvůli náročným I/O operacím. Místo toho RDD uchovává data v paměti, což významně zvyšuje výkon iterativních algoritmů a interaktivních datových analýz.

RDD v Apache Spark umožňuje uživatelům provádět složité analýzy dat, jako je strojové učení nebo interaktivní dotazování, s vysokou spolehlivostí, flexibilitou a výkonem, díky čemuž je klíčovou součástí moderního zpracování velkých dat.

Job, Stage, Task

Job je sekvence stagí, které jsou spuštěny akcemi jako count(), collect() a další. Stage je sekvence úkolů, které mohou pracovat paralelně. Task neboli úkol je samotná operace, která je aplikovaná na jeden oddíl. ^[3]

Orientovaný acyklický graf (DAG)

V Apache Spark je provádění výpočtů řízeno pomocí orientovaného acyklického grafu (DAG). Tento graf reprezentuje všechny operace, které musí být vykonány nad daty, a zajišťuje správné provádění výpočtů v požadovaném pořadí.

DAG zajišťuje, že operace, které jsou závislé na jiných operacích, budou vykonány až po dokončení těchto závislostí.
Je to klíčová součást architektury, protože udržuje výpočetní logiku oddělenou od realizace na úrovni clusteru.
DAG je optimalizován tak, aby minimalizoval počet operací, čímž se zrychluje celý proces výpočtů.

Tento přístup je základem pro efektivní řízení výpočtů v distribuovaných prostředích.^[4]

Transformace a akce v Apache Spark ^[5]

Transformace

Transformace v Apache Spark jsou operace, které přijímají jedno nebo více RDD (Resilient Distributed Datasets) jako vstupy a vytvářejí nové RDD. Tyto operace jsou líné, což znamená, že Spark neprovádí žádné výpočty, dokud není na těchto datech vyvolána akce. Transformace zahrnují funkce jako map(), filter(), flatMap() a groupByKey().

Příkladem transformace je:

val rdd2 = rdd1.groupByKey()

Tato operace se používá pro seskupení dat podle klíče a vytvoří nové RDD. Důležité je, že transformace neprovádí žádné výpočty okamžitě, ale pouze připraví plán pro jejich provedení až do okamžiku vyvolání akce.

Existují dva hlavní typy transformací

Úzké transformace (narrow transformations): Všechny potřebné údaje pro operaci jsou lokalizovány v jednom oddílu. Příklady zahrnují map() a filter().
Široké transformace (wide transformations): Operace, kde data potřebná pro výpočet jsou rozdělena do více oddílů, což může vést k nutnosti přesouvat data mezi uzly. Příkladem je groupByKey() nebo reduceByKey().

Akce

Akce v Apache Spark jsou operace, které spouštějí výpočty na datech a vracejí konkrétní výsledky. Akce, jako například count(), saveAsTextFile() nebo collect(), způsobí, že Spark provede veškeré dříve definované transformace a vrátí výsledky.

Příklad akce:

val count = rdd.count()

Tato akce vrátí počet prvků v RDD. Akce jsou klíčové pro spuštění výpočtů v Spark a provádějí skutečné zpracování dat, které je připraveno pomocí transformací.

Spark využívá líné vyhodnocování (lazy evaluation), což znamená, že neprovádí žádné výpočty, dokud není volána akce. To umožňuje optimalizovat výkon a zajišťuje efektivní využití výpočetních prostředků. Například, když načtete data a aplikujete na ně transformace jako map() nebo filter(), Spark pouze zaznamenává tyto operace do DAG (Directed Acyclic Graph). Výpočty se neprovedou, dokud nebude spuštěna akce, což znamená, že Spark může optimalizovat celkový plán zpracování.

Komponenty ekosystému Apache Spark

Apache Spark je distribuovaný framework pro zpracování velkých dat, který zahrnuje několik klíčových komponent pro efektivní analýzu a zpracování dat v reálném čase. Mezi hlavní komponenty Apache Spark patří Spark Core, SparkSQL, DataFrame, Dataset, Spark Streaming, MLlib a GraphX. Tyto komponenty poskytují robustní a škálovatelné nástroje pro širokou škálu analytických úloh.

Spark Core

Spark Core je základní komponenta Apache Spark, která zajišťuje všechny základní operace, jako je správa clusteru, plánování úkolů a zpracování dat v paměti. Tento modul poskytuje jádro pro všechny ostatní komponenty, včetně operací I/O, chybové správy a rozdělení výpočtů mezi uzly ve Spark clusteru. Spark Core poskytuje významné zlepšení oproti tradičnímu MapReduce, zejména díky schopnosti zpracovávat data v paměti, což zajišťuje vyšší výkon při analýzách velkých datových sad.^[6]

SparkSQL

SparkSQL je komponenta pro zpracování strukturovaných dat v Apache Spark. Tento modul umožňuje provádět SQL dotazy na distribuovaných datových sadách, což zjednodušuje práci s daty ve formátech, jako jsou Hive, Parquet a Avro. SparkSQL poskytuje výhody díky integraci s DataFrame a Dataset API, což uživatelům umožňuje kombinovat tradiční SQL dotazy s pokročilými analytickými úlohami. Optimalizace výkonu je dosažena pomocí Catalyst Query Optimizer a Tungsten Execution Engine, které zajišťují efektivní analýzu a vykonávání SQL dotazů.^[6]

Spark Streaming

Spark Streaming je modul, který přidává podporu pro zpracování datových toků v reálném čase v rámci Apache Spark. Tento nástroj používá mikro-dávkování, kdy jsou streamovaná data seskupena do malých dávek a zpracovávána pomocí tradičních Spark operací. Spark Streaming umožňuje integraci s různými datovými zdroji jako Kafka, Flume a Kinesis a je ideální pro analytiku dat v reálném čase.^[6]

Co je potřeba pro Streaming Apache Spark

Pro efektivní streaming v Apache Spark je nutné mít správně nakonfigurovaný systém pro příjem dat (například Kafka nebo Kinesis), paralelní zpracování dat v clusteru a odpovídající cílový systém pro uložení výsledků, jako jsou HBase nebo Cassandra. Tento přístup umožňuje rychlé zpracování dat v reálném čase a jejich distribuci na více uzlech.^[7]

Funkce Apache Streaming

Spark Streaming poskytuje vyrovnávání zátěže mezi pracovníky a umožňuje integraci dávkového a streamovaného zpracování dat. Dále podporuje pokročilou analytiku, včetně strojového učení a SQL dotazů na streamovaná data, což zjednodušuje práci s daty v reálném čase a umožňuje jejich efektivní analýzu.^[7]

MLlib

MLlib je knihovna pro strojové učení, která poskytuje širokou škálu algoritmů pro úkoly jako klasifikace, regrese a shlukování. Knihovna je navržena pro zpracování velkých dat v distribuovaném prostředí a s přechodem na API založené na DataFrame v Apache Spark 2.0 se stala přívětivější pro uživatele. MLlib rovněž podporuje lineární algebru pro výpočty potřebné při strojovém učení.^[6]

GraphX

GraphX je komponenta Apache Spark pro analýzu grafů a paralelní provádění grafových operací. Umožňuje analýzu a manipulaci s grafy, jako jsou klasifikace a procházení grafy. GraphX poskytuje pokročilé algoritmy, jako je PageRank, pro analýzu vztahů a struktury v datech a umožňuje efektivní manipulaci s grafovými strukturami v distribuovaném prostředí.^[6]

Použití

Případy použití Apache Spark podle odvětví ^[8]

Finanční průmysl: Apache Spark se hojně využívá v bankovním sektoru jako alternativa Hadoopu. Pomáhá analyzovat data z různých zdrojů, jako jsou sociální sítě, e-maily nebo záznamy hovorů, a poskytuje užitečné poznatky. Tyto informace se využívají při hodnocení úvěrového rizika, cílené reklamě a segmentaci zákazníků.
Elektronický obchod (e-commerce): V oblasti e-commerce Spark zpracovává transakce v reálném čase a využívá algoritmy, jako je K-means nebo střídavé nejmenší čtverce, k analýze dat. Pomáhá vytvářet přesnější doporučení pro zákazníky na základě aktuálních trendů. Mezi společnosti využívající Spark patří například Alibaba a eBay.
Zdravotnictví: Spark podporuje analýzu pacientských záznamů a historických klinických dat, což umožňuje předvídat zdravotní problémy a nasazovat preventivní domácí péči. Tím se snižuje riziko opětovných hospitalizací a šetří náklady. Spark se také používá k urychlení genomového sekvenování – proces, který dříve trval týdny, je nyní zvládnut během hodin. Tento přístup využívá například společnost MyFitnessPal.
Média a zábava: V herním průmyslu Spark pomáhá analyzovat herní události v reálném čase, což podporuje cílenou reklamu, optimalizaci herních úrovní nebo zvyšování retence hráčů. Webové stránky pro sdílení videí, jako je Netflix nebo Pinterest, kombinují Spark a MongoDB k personalizaci reklam podle uživatelských preferencí.
Cestovní ruch: Spark se v cestovním průmyslu využívá ke zrychlení personalizovaných doporučení, například při hledání nejlepších hotelů. Aplikace jako TripAdvisor nebo OpenTable spravují v reálném čase velké množství rezervací a nabízejí online platformy, které zajišťují rychlou a efektivní obsluhu zákazníků. Tento přístup výrazně zkracuje dobu běhu analytických úloh a zlepšuje týmovou spolupráci.

Kde Apache Spark nepoužívat

Apache Spark je velmi univerzální nástroj, ale není vždy tou nejlepší volbou pro každý případ použití. Spark nebyl navržen jako víceuživatelské prostředí, což znamená, že není ideální pro situace vyžadující souběžné spouštění projektů s více uživateli. Pro dosažení optimálního výkonu je klíčové zajistit, aby dostupná paměť byla dostatečná pro konkrétní datovou sadu. Pokud do systému přibude více uživatelů, může to komplikovat souběžné zpracování úloh, které Spark nemusí efektivně zvládat. V takových případech se doporučuje zvážit alternativní řešení, jako je například Apache Hive, které je vhodnější pro zpracování velkých dávkových projektů.^[8]

Apache Spark vs Hadoop MapReduce ^[9]

Rychlost a výkon: Spark je až 10-100krát rychlejší než MapReduce při dávkovém zpracování, protože ukládá data do paměti (pomocí RDD), což snižuje čas potřebný pro čtení a zápis na disk. MapReduce je zcela založený na disku, což zpomaluje zpracování dat.
Zpracování dat: Zatímco MapReduce je určen pouze pro dávkové zpracování dat, Spark podporuje širokou škálu zpracování, včetně dávkového, streamového a strojového učení.
Programování: Spark nabízí jednodušší rozhraní a nevyžaduje tolik ručního kódování jako MapReduce, což snižuje složitost při vývoji aplikací.
Režimy práce: Spark umožňuje interaktivní práci díky své konzoli, zatímco MapReduce je zaměřen pouze na dávkové úlohy.
Omezení: Spark má vyšší nároky na RAM, což může být náročnější při zpracování obrovských datových sad na hardwaru s omezenou pamětí. Naopak MapReduce vyžaduje více diskového prostoru.
Bezpečnost: MapReduce má více bezpečnostních funkcí ve srovnání se Sparkem, který je v této oblasti stále ve vývoji.

Výhody a nevýhody

Výhody ^[10]

Rychlost: Spark je velmi rychlý díky zpracování dat v paměti. Pro dávkové zpracování dat může být až 100krát rychlejší než tradiční Hadoop MapReduce a pro diskové operace je přibližně 10krát rychlejší.
Použitelnost: Spark podporuje více programovacích jazyků, včetně Pythonu, Java, Scala a R, což usnadňuje práci vývojářům s různými preferencemi. Nabízí jednotné API pro různé analytické úlohy.
Pokročilá analytika: Kromě základních datových transformací poskytuje Spark robustní podporu pro pokročilé analýzy, jako je strojové učení (pomocí knihovny MLlib), zpracování grafů (GraphX) a analýza streamovaných dat.
Zpracování v paměti: Spark minimalizuje potřebu čtení a zápisu na disk. Data jsou uložena v paměti během zpracování, což zvyšuje rychlost a efektivitu.
Lazy Evaluation: Spark provádí výpočty efektivně díky lazy evaluation. Operace jsou vyhodnocovány až v okamžiku spuštění akce, což umožňuje optimalizaci exekučního plánu.
Tolerance poruch: Spark je odolný proti chybám. V případě selhání uzlu je schopen obnovit data a výpočty díky replikaci RDD a DAG-based výpočtům, což minimalizuje ztrátu dat nebo procesů.

Nevýhody ^[11]

Zpracování v reálném čase: Spark není skutečný real-time framework. Namísto toho využívá mikro-dávkování, což znamená, že streamovaná data jsou zpracovávána v malých dávkách, což může způsobit zpoždění při aplikacích vyžadujících okamžitou odezvu.
Práce s malými soubory: Spark není optimalizovaný pro práci s malými datovými soubory. Efektivní zpracování vyžaduje větší datové sety, což může být překážkou při aplikacích s rozptýlenými nebo menšími objemy dat.
Vysoké nároky na paměť: Pokud není k dispozici dostatek RAM, Spark přechází na diskové úložiště, což zpomaluje výkon a degraduje jeho výhodu oproti frameworkům, jako je Hadoop.
Náklady: Pro spuštění Spark je potřeba velké množství RAM, což zvyšuje náklady na hardware, zejména v rozsáhlých clusterech.
Omezený počet algoritmů: Knihovna MLlib stále nemá plnou sadu algoritmů pro strojové učení. Chybí například podpora specifických algoritmů, jako je Tanimotoův koeficient, což může omezit její využití pro některé analytické aplikace.

Odkazy

Reference

↑ About Spark. Databricks [online]. 2023-03-17 [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ Spark RDD – Introduction, Features & Operations of RDD. DataFlair [online]. [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ Apache Spark Architecture Overview: Jobs, Stages, Tasks, etc. queirozf.com [online]. 2020-08-07 [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ CHAMBERS, Bill; ZAHARIA, Matei. Spark: the definitive guide: big data processing made simple. First edition. vyd. Beijing Boston Farnham Sebastopol Tokyo: O'Reilly 576 s. ISBN 978-1-4919-1221-8.
↑ Spark RDD Operations-Transformation & Action with Example. DataFlair [online]. [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ ^a ^b ^c ^d ^e Apache Spark Ecosystem – Complete Spark Components Guide. DataFlair [online]. [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ ^a ^b Spark Streaming Tutorial for Beginners. DataFlair [online]. [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ ^a ^b Apache Spark Use Cases in Real Time. DataFlair [online]. [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ Apache Spark vs Hadoop MapReduce – Feature Wise Comparison [Infographic]. DataFlair [online]. [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ Features of Apache Spark – Learn the benefits of using Spark. DataFlair [online]. [cit. 2024-11-18]. Dostupné online. (anglicky)
↑ Spark Tutorial – Learn Spark Programming. DataFlair [online]. [cit. 2024-11-18]. Dostupné online. (anglicky)