Mis vahe on Apache Flinkil ja Apache Sparkil?


Vastus 1:

Alustame sellest, et mõistame, mida need kaks tehnoloogiat Apache Spark ja Apache Flink endast kujutavad.

Apache Spark ja Flink on mõlemad järgmise põlvkonna Big Data tööriist, mis haarab tööstuse tähelepanu. Mõlemad pakuvad looduslikku ühenduvust Hadoopi ja NoSQL-i andmebaasidega ning saavad töödelda HDFS-i andmeid.

Kuid Flink on Sparkist kiirem tänu selle aluseks olevale arhitektuurile. Sparkit peetakse suurandmete 3G-ks, samas kui Flink on suurandmete 4G.

Apache Spark on Apache hoidla kõige aktiivsem komponent. Sparkil on väga tugev kogukonna toetus ja sellel on palju panustajaid. Spark on lavastuses juba kasutusele võetud. Kuid voogesituse võimaluste osas on Flink palju parem kui Spark ja tal on voogesituse algne tugi.

Nüüd liigume Apache Sparki ja Apache Flinki tutvustusosa poole.

Sissejuhatus:

Apache säde

Apache Spark on avatud lähtekoodiga klastrite arvutisüsteem, mis pakub kõrgetasemelist API-d Java, Scala, Python ja R. See pääseb juurde HDFS, Cassandra, HBase, Hive, Tachyoni ja kõigi Hadoopi andmeallikate andmetele. Ja käitage Standalone, YARN ja Mesos klastrihalduris.

Apache Flink

Apache Flink on avatud lähtekoodiga platvorm, mis on voogesituse andmevoo mootor, mis pakub suhtlust, tõrketaluvust ja andmejaotust hajutatud arvutuste jaoks andmevoogude kaudu.

Vaadake nüüd Apache Sparki ja Apache Flinki tarka võrdlust.

1.arvutusmudel:

Apache säde

Spark põhineb mikropartii mudelil.

Apache Flink

Flink põhineb operaatoripõhisel arvutusmudelil.

2.Vooremootor:

Apache säde

Apache Spark kasutab kogu töökoormuse jaoks mikropartiisid. Kuid see ei ole piisav selliste juhtumite jaoks, kus peame töötlema suuri reaalajas andmete vooge ja andma tulemusi reaalajas.

Apache Flink

Apache Flink kasutab vooge kogu töökoormuse jaoks: voogesitus, SQL, mikropartii ja partii. Pakk on voogesitatud andmete piiratud komplekt.

3.Iteratiivne töötlemine:

Apache säde

Spark põhineb mittekeelsel iteratsioonil, mida rakendatakse regulaarselt - süsteemist väljaspool asuvate silmuste jaoks.

Apache Flink

Flink API pakub kahte spetsiaalset iteratsiooni toimingut Iterate ja Delta Iterate.

4.Optimeerimine:

Apache säde

Apache Sparkis tuleb töökohad käsitsi optimeerida.

Apache Flink

Apache Flink pakub optimeerijat, mis on tegeliku programmeerimisliidesega sõltumatu.

5.Lasutus:

Apache säde

Apache Sparkil on Apache Flinkiga võrreldes kõrge latentsusaeg.

Apache Flink

Minimaalsete jõupingutustega konfigureerimisel saavutab Apache Flinki andmevoo tööaeg madala latentsusaja ja suure läbilaskevõime.

6.Kiirus:

Apache säde

Sparki töötlemismudel on Flinkist aeglasem.

Apache Flink

Flink töötleb andmeid välkkiire kiirusega.

Apache Sparki ja Apache Flinki võrdlemiseks külastage seda linki: Apache Spark vs Apache Flink


Vastus 2:

Olen muutnud küsimuse lil ja esitanud allpool funktsiooni targad erinevused 3 suurima andmesidetehnoloogia vahel - Hadoop vs Spark (3 G suuri andmeid) vs Flink (4G Big Data).

Andmetöötlusmootor

Hadoopi MapReduce keskmes on pakkide töötlemise mootor

Apache Spark on tuum töötlemise mootor

Apache Flink keskmes on voo töötlemise mootor

Keeletugi

Peamiselt Java, kuid Hadoopi voogesituse abil toetatakse ka teisi keeli, näiteks C, C ++, Ruby, Groovy, Perl ja Python

Toetab Java, Scala, python ja R

Flink toetab nii Java kui ka Scala

Keel arenenud

Hadoop on välja töötatud Java-s

Spark on välja töötatud Scalas

Flink on välja töötatud Java & Scalas

Töötlemise kiirus

Map-Reduce töötleb andmeid palju aeglasemalt kui Spark ja Flink.

Spark töötleb 100 korda kiiremini kui Map-Reduce, kuna see on mälu töötlemise süsteem.

Flink töötleb kiiremini kui Spark oma voogesitusmootori tõttu.

Iteratiivne töötlemine

Ei toeta korduvat töötlemist natiivselt.

Spark kordab oma andmeid partiidena. Sparkis tuleb iteratiivse töötlemise jaoks iga iteratsioon ajastada ja teostada eraldi.

Flink pakub iteratiivse töötlemise loomulikku tuge. Flink kordab andmeid voogesituse arhitektuuri abil. Flink saab käsu töödelda ainult neid andmeid, mis on tegelikult muutunud, seega suurendab see töö tulemuslikkust märkimisväärselt.

Voo töötlemine

Mapreduce on puhtalt partiile orienteeritud andmetöötlusvahend. See ei toeta voo töötlemist

Spark kasutab kogu voogesituse töökoormuse jaoks mikropartiisid. Kuid see ei ole piisav selliste juhtumite jaoks, kus peame töötlema suuri reaalajas andmevooge ja andma tulemusi reaalajas madala latentsusajaga

Apache Flink on tõeline voogesituse mootor. See kasutab vooge kõigi töökoormuste jaoks: voogesitus, SQL, mikropartii ja partii. Batch on voogesituse andmete piiratud komplekt

Arvutusmudel

Juurutage partiile orienteeritud mudel. Partii töötleb sisuliselt andmeid puhkeolekus, võtab korraga suure hulga andmeid ning töötleb neid ja kirjutab seejärel väljundi.

Sparki tuum järgib ka partiimudelit, kuid on kasutusele võtnud mikro-partii. Mikropartiisid kasutatakse peamiselt reaalajas töötlemise andmemudeli töötlemiseks.

Flink on võtnud kasutusele pideva voo operaatoripõhise voogesituse mudeli. Pideva voo operaator töötleb andmeid kohe, kui see saabub voogesitusrežiimi, ilma et andmete kogumisel oleks mingit viivitust andmete töötlemiseks.

Mäluhaldus

Hadoop pakub konfigureeritavat mäluhaldust. Administraator saab seda konfigureerimisfailide abil konfigureerida.

Spark pakub konfigureeritavat mäluhaldust, ehkki Spark 1.6 uusima väljaandega on Spark liikunud ka mäluhalduse automatiseerimise poole.

Flink pakub automaatset mäluhaldust. Sellel on oma mäluhaldussüsteem, mis on Java prügivedajast eraldi.

Windowsi kriteeriumid

NA

Sparkil on ajapõhised akna kriteeriumid.

Flinkil on kirjepõhised, ajapõhised või mis tahes kohandatud kasutaja määratletud akna kriteeriumid.

Optimeerimine

Mapreduce'is tuleb töökohad käsitsi optimeerida.

Apache Sparkis tuleb töökohad käsitsi optimeerida.

Flink-tööd optimeeritakse automaatselt. Flink pakub optimeerijat, mis on tegeliku programmeerimisliidesega sõltumatu.

Latentne aeg

Apache Hadoopil on suurem latentsus kui nii sädemel kui ka Flinkil.

Apache Sparkil on Apache Flinkiga võrreldes kõrge latentsusaeg.

Minimaalsete jõupingutustega konfigureerimisel saavutab Apache Flinki andmevoo tööaeg madala latentsusaja ja suure läbilaskevõime. Flink saab andmeid töödelda (väga kiire kiiruse ja suure helitugevusega) millisekundites.

Veataluvus

MapReduce on väga tõrgetaluv, rikke korral pole vaja rakendust nullist taaskäivitada.

Spark Streaming taastab kaotatud töö ja annab täpselt ühe korra semantiliselt kastist välja ilma lisakoodi või konfiguratsioonita.

Apache Flinki toetatud tõrketaluvuse mehhanism on Chandy-Lamporti levitatud hetktõmmistel. See on kerge mehhanism, mille tulemuseks on kõrge läbilaskevõime säilitamine ja samal ajal ka tugevad järjepidevuse garantiid.

Etendus

Hadoopi jõudlus on aeglasem kui Sparkil ja Flinkil

Kuigi Apache Sparkil on suurepärane kogukonna taust ja nüüd peetakse seda kõige küpsemaks kogukonnaks. Kuid selle voo töötlemine pole nii tõhus kui Apache Flink, kuna see kasutab mikrotöötlust.

Apache Flinki jõudlus on teiste andmetöötlusmootoritega võrreldes suurepärane. Flink kasutab suletud ahelaga iteratsioone, muutes masinõppe ja graafikute töötlemise kiiremaks.

Korduv elimineerimine

NA

Spark-protsess töötleb kõik kirjed täpselt üks kord, välistades sellega dubleerimise.

Apache Flink töötleb kõiki kirjeid täpselt ühe korra, välistades sellega dubleerimise.

Ühilduvus

Mapreduce ja Spark ühilduvad üksteisega.

MapReduce ja Spark ühilduvad üksteisega ning Spark jagab JDBC ja ODBC kaudu kogu MapReduce'i ühilduvust andmeallikate, failivormingute ja äriteabe tööriistadega.

Flink ühildub ka Hadoopiga täielikult, see saab töödelda hadoopi salvestatud andmeid ja toetab kõiki failivorminguid / sisendvorminguid

Turvalisus

Hadoop toetab Kerberose autentimist, mida on mõnevõrra valus hallata. HDFS toetab juurdepääsu kontrollnimekirju (ACL) ja traditsioonilist faililubade mudelit. Kolmandate osapoolte pakkujad on võimaldanud organisatsioonidel kasutada autentimiseks Active Directory Kerberose ja LDAP-e.

Sparki turvalisus on praegu pisut hõre, toetades ainult autentimist jagatud saladuse kaudu (parooli autentimine). Turvasädemest võib rõõmu tunda see, et kui käivitate Sparki Hadoopis, kasutab see HDFS-i ACL-e ja failitaseme õigusi. Lisaks saab Spark töötada YARNis, andes talle võimaluse kasutada Kerberose autentimist.

Flink pakub kasutaja autentimise tuge Hadoopi / Kerberose infrastruktuuri kaudu. Kui kasutate Flinki YARN-is, peaks see sujuvalt töötama, Flink omandab programme esitava kasutaja Kerberose märgid ja autentib ennast sellega YARN-is, HDFS-is ja HBase-is. Flinki peatselt ühendatavad voogesitusprogrammid saavad SSL-i kaudu autentida ennast vooguvahendajatena

Iteratiivne andmevoog

MapReduce'i arvutusandmete voogul pole ühtegi silmust, see on etappide ahel; igas etapis liigute edasi, kasutades eelmise etapi väljundit ja järgmise etapi sisendi tootmist.

Ehkki ML algoritm on tsükliline andmevoog, on see sädeme sees esindatud otsese atsüklilise graafikuna

Flink võtab teistest pisut erineva lähenemisviisi. Need toetavad kontrollitud tsüklilise sõltuvuse graafikut tööaja jooksul. See paneb nad ML-algoritme esindama väga tõhusal viisil.

Visualiseerimine

Kõik BI-i tööriistad, näiteks JasperSoft, SAP Business Objects, Qlikview, Tableu, Zoom Data jne, on võimaldanud ühenduvust hadoopi ja selle ökosüsteemiga.

Sparkiga on ühenduvust pakkunud kõik BI-i tööriistad nagu JasperSoft, SAP Business Objects, Qlikview, Tableu, Zoom Data jne. Sparki saab integreerida ka Apache'i. See pakub andmete analüüsi, sissevõtmist, samuti avastamist, visualiseerimist ja koostööd.

Lisaks sellele pakub Spark veebiliidest tööde esitamiseks ja täitmiseks. Saadud täitmiskava saab sellel liidesel visualiseerida.

Kõik BI-i tööriistad, näiteks JasperSoft, SAP Business Objects, Qlikview, Tableu, Zoom Data, Zeppelin jne, on võimaldanud ühenduvuse hadoopi ja selle ökosüsteemiga.

Flink pakub ka veebiliidest tööde esitamiseks ja täitmiseks. Saadud täitmiskava saab sellel liidesel visualiseerida.

Maksumus

MapReduce töötab tavaliselt odavama riistvaraga, kuna see ei ürita kõike mällu talletada.

Kuna säde nõuab mälu käivitamiseks palju RAM-i, suurendab see klastris järk-järgult selle kulusid.

Flink nõuab ka mälu käivitamiseks palju RAM-i, suurendades seda klastris, suurendab järk-järgult selle kulusid.

Skaleeritavus

Hadoopil on uskumatu mastaapsuse potentsiaal ja seda on kasutatud tootmises kümnetel tuhandetel sõlmedel.

Säde on ka väga skaleeritav; saame klastri n-i arvu sõlme lisada ja seda on tuhandetes sõlmedes tootmisel kasutatud.

Flink on ka väga skaleeritav; saame klastri n-i arvu sõlme lisada ja seda on tuhandetes sõlmedes tootmisel kasutatud.

Lihtne kasutada

MapReduce'i arendajad peavad iga toimingu käsitsi kodeerima, mis muudab töötamise väga keeruliseks.

Sparki on lihtne programmeerida, kuna sellel on palju kõrgel tasemel operaatoreid

Flink on ka väga hõlpsasti programmeeritav, kuna sellel on palju kõrgel tasemel operaatoreid

Interaktiivne režiim

MapReduce'il pole andmete töötlemiseks interaktiivset režiimi.

Spark saab andmeid interaktiivselt töödelda.

Flink saab andmeid ka interaktiivselt töödelda

reaalajas analüüs

MapReduce ei toeta reaalajas andmetöötlust (voo töötlemist), kuna see töötati välja mahukate andmete hulgitüüpide töötlemiseks.

See saab töödelda andmeid peaaegu reaalajas, st reaalajas sündmuste voogudest pärinevaid andmeid kiirusega tonnides sekundis, kuid suure latentsusajaga, kuna see kasutab mikropartiide mudelit.

Flink toetab reaalajas andmete analüüsi. Kuigi see pakub ka kiiret andmetöötlust.

Planeerija

Mapreduce vajab keerukate voogude ajastamiseks välist tööde planeerijat nagu Oozie

Mälusisese arvutuse tõttu on sädemel oma voolu ajastaja

Flink saab kasutada lõngaplaneerijat, kuid Flinkil on ka oma ajakava

SQL-i tugi

Hadoop võimaldab kasutajatel SQL-päringuid käivitada, kasutades Apache Hive ja Impala

Spark võimaldab kasutajal käivitada SQL päringuid, kasutades Spark-SQL. Spark-SQL on Sparki südamikuga tihedalt integreeritud

Flink Table'is kasutatakse API-sid ja SQL-i nagu SQL-i sarnaste avaldiste käitamiseks ja struktureeritud andmete töötlemiseks.

Puhverdamine

MapReduce ei saa tulevaste nõuete jaoks andmeid mällu salvestada

Spark võib vahemällu andmeid vahemällu salvestada edasiste iteratsioonide jaoks, mis parandab selle jõudlust

Flink võib vahemällu andmeid vahemällu salvestada ka edasiste iteratsioonide jaoks, mis parandab selle jõudlust.

Nõuded riistvarale

MapReduce töötab väga hästi kauba riistvaraga

Spark vajab keskmist ja kallimat riistvara.

Flink vajab ka keskmist ja kvaliteetset riistvara

Masinõpe

Hadoop võimaldab masinaõpet Apache Mahouti kaudu.

Sparkil on oma masinõppe komplekt ehk MLlib. Masinõppe algoritmid on mälusisese andmetöötluse tõttu Sparkis väga kiired, tõhusad ja optimeeritud.

Flinkil on FlinkML, mis on Flinki masinõppe raamatukogu. Masinõppe algoritmid on Flinkis väga kiired, tõhusad ja optimeeritud tänu sellele, et see toetab iteratiivset töötlemist ja mälusisest arvutamist.

Graafikute töötlemine

Hadoop MapReduce ei toeta graafiku töötlemist. Graafikaarvutuste tegemiseks saame lõnga peal olevat kaelkirjakut Giraph.

Apache Spark saab GraphX-i abil graafiku töötlemist skaalaga töödelda

Apache Flink saab Gelly abil käsitleda graafiku töötlemist skaalal. Graafiku töötlemine on tavaliselt iteratiivne, kusjuures iteratiivse algoritmi natiivne tugi Flink suudab graafiku andmeid väga tõhusalt töödelda.

Taastumine

Mapreduce on loomulikult vastupidav süsteemi riketele või tõrgetele. See on väga tõrketaluvusega süsteem.

Spark võimaldab RDD-partitsioonide taastamist nurjunud sõlmedel DAG-i uuesti arvutamise teel. See toetab ka Hadoopiga sarnast taastamisstiili, kasutades kontrollimisviise, et vähendada RDD sõltuvust.

Flink toetab ka kontroll-osutamise mehhanismi, mis salvestab andmeallikatesse ja andmete valamusse, akna olekut, samuti kasutaja määratletud olekut, mis taastab pärast tõrkeid pakkimis- / voogesitustöö.

Koodirida

Hadoop 2.0-l on 1,20 000 koodirida

Apache Spark on välja töötatud kõigest 20000 rea koodis

-

Apache'i litsents

Apache'i litsents 2

Apache'i litsents 2

Apache litsents 2

Paigaldamine

Apache Hadoopi installimine on keeruline, kuna see nõuab paljude failide konfigureerimist

Apache Sparki installimine on suhteliselt lihtsam kui Hadoop

Apache Flinki installimine on väga lihtne ja arusaadav.

Riigi juurdepääs

Iga partii täielik olekukontroll

Iga mikropartii täielik skannimine

Täielik olekukontroll ja väärtuste otsimine võtme abil

Kõrge kättesaadavus

Hadoopi saab konfigureerida suure saadavuse režiimis

Sädet saab konfigureerida suure saadavuse režiimis

Flink on konfigureeritav kõrge käideldavuse režiimis

Amazon S3 pistik

Pakub tuge Amazon S3-le, mis suudab töödelda S3-s salvestatud andmeid

Pakub tuge Amazon S3-le, mis suudab töödelda S3-s salvestatud andmeid

Pakub tuge Amazon S3-le, mis suudab töödelda S3-s salvestatud andmeid

Kasutuselevõtt

Eraldiseisev, varjatud, jaotatud klastrisse

Eraldiseisev, lõng, Mesos

Eraldiseisev, lõng

Vasturõhu ülekandmine

NA

Käsitsi konfigureerimise kaudu

Kaudselt läbi süsteemiarhitektuuri

Põlvkond

1. põlvkonna suurandmete tööriist

3. põlvkonna suurandmete tööriist

4. põlvkonna suurandmete tööriist

Andmete maht

Hadoop saab tõhusalt käsitseda 1000 andmeedastuse PB-d

Spark saab tõhusalt hakkama 1000 andmeedastuse PB-ga

Flink saab tõhusalt hakkama 1000 andmeedastuse PB-ga

Salvestussüsteem

Hadoop tarnitakse koos HDFS-iga, mis on planeedi kõige usaldusväärsem salvestussüsteem

Sparkil pole salvestussüsteemi, see sõltub muudest salvestussüsteemidest nagu HDFS, S3, HBase, Cassandra jne.

Flinkil pole salvestussüsteemi, see sõltub muudest salvestussüsteemidest nagu HDFS, S3, HBase, Cassandra jne.

Komponendid

Hadoopil on järgmised komponendid

  • HDFS - Storage LayerYarn - üldise ressursihalduse layerMapReduce - kihi töötlemine

Spark on ainult arvutusmootor, mis saab vastavalt ladustamiseks ja ressursside haldamiseks kasutada Hadoopi hdfs-sid ja lõnga

Flink on ka arvutusmootor, mis saab vastavalt Hadoopi hdfs-i ja lõnga kasutada nii salvestuseks kui ressursside haldamiseks

Nõuded Käepide

Hadoop MapReduce saab hakkama pakkide töötlemise nõuetega

Apache Spark saab hakkama:

  • PakktöötlusInteraktiivne töötlemineLähendage reaalajas töötlemistGraafide töötlemineIteratiivne töötlemineMälustöötlus

Apache Flink saab hakkama:

  • PakktöötlusInteraktiivne töötlemineReaalajaline töötlemineGraafikute töötlemineIteratiivne töötlemine (natiivselt) Mälustöötlus

Raamistik / platvorm

Hadoop MapReduce on raamistik - see võib käsitleda ainult teatud tüüpi nõudeid

Apache Spark on andmetöötlusplatvorm, mis suudab lahendada mitut tüüpi nõudeid

Apache Flink on üldine andmetöötlusplatvorm, mis suudab vastata igat tüüpi nõuetele.

Tuleviku ulatus

Apache Hadoopi MapReduce oli esimene raamistik, mis käsitles suurandmete nõudeid, kuid piirdus pakkide töötlemisega.

Apache Spark pakub üldistatud platvormi erinevatele nõuetele vastamiseks. Spark valitseb praegu suurandmete sektorit, kuid selle tuum on mootor. Selle tõttu on Spark piiratud ja ei suuda vastata tegelikele voo töötlemise nõuetele. Seetõttu on tööstus hakanud liikuma Flinki poole

Apache Flink on üldistatud platvorm, mis suudab käsitleda igat tüüpi andmeid suurandmete tööstuses. Apache Flink on suurandmete valdkonna tulevik.

Püüdsin katta kõik erinevuste tunnused. Loodan, et see aitab teid. Kommenteerige, kui midagi puudu on.


Vastus 3:

Tere,

Alguses, mis neil ühist on? Flink ja Spark on mõlemad üldotstarbelised andmetöötlusplatvormid ja Apache Software Foundationi (ASF) tipptasemel projektid. Neil on lai rakendusala ja neid saab kasutada kümnete suurandmete stsenaariumide jaoks. Tänu laienemistele nagu SQL päringud (Spark: Spark SQL, Flink: MRQL), graafikutöötlus (Spark: GraphX, Flink: Spargel (alus) ja Gelly (raamatukogu)), masinõpe (Spark: MLlib, Flink: Flink ML) ja voo töötlemine (Spark Streaming, Flink Streaming). Mõlemad on võimelised töötama iseseisvas režiimis, kuid paljud kasutavad neid Hadoopi peal (YARN, HDFS). Neid iseloomustab mälu olemuse tõttu tugev esinemine.

Kuid viis, kuidas nad seda sorti saavutavad, ja juhtumid, millele nad on spetsialiseerunud, on erinevad.

Erinevused: Alustuseks tahaksin enne selle kokkuvõtmist esitada kaks linki, milles käsitletakse üksikasjalikumalt Flinki ja Sparki erinevusi. Kui teil on aega, siis vaadake, kas Apache Flink on BigData Analytics Framework 4G ja Flink ja Spark sarnasused ja erinevused

Vastupidiselt Flinkile, ei suuda Spark enne versiooni 1.5.x töödelda RAM-ist suuremaid andmekogumeid

Flink on optimeeritud tsüklilisteks või iteratiivseteks protsessideks, kasutades kollektsioonides iteratiivseid teisendusi. See saavutatakse liitumisalgoritmide optimeerimise, operaatori aheldamise ning partitsiooni ja sortimise taaskasutamise abil. Kuid Flink on ka tugev vahend partiide töötlemiseks. Flink-voogesitus töötleb andmevooge tõeliste voogudena, st andmeelemendid suunatakse voogesitusprogrammi abil kohe kohale, niipea kui nad saabuvad. See võimaldab voogudel akna paindlikke toiminguid teha. Lisaks pakub Flink väga tugevat ühilduvusrežiimi, mis võimaldab kasutada teie olemasolevat tormi, vähendada kaarte, ... koodi flink-täitmismootoris

Seevastu säde põhineb elastsel hajutatud andmestikul (RDD). See (enamasti) mälusisene ülesehitus annab jõudu funktsionaalse programmeerimise paradigma käivitamiseks. See on mälu kinnitamiseks võimeline tegema suuri partiide arvutusi. Spark-streaming mähib andmevood mini-partiideks, st see kogub kõik andmed, mis saabuvad teatud aja jooksul, ja käivitab kogutud andmetega tavalise pakettprogrammi. Kui pakettprogramm töötab, kogutakse järgmise mini-partii andmeid.

Kas Flink asendab Hadoopi?

Ei, seda ei tehta. Hadoop koosneb erinevatest osadest:

  • HDFS - Hadoopi hajutatud failisüsteemYARN - järjekordne ressursiläbirääkija (või ressursihaldur) MapReduce - Hadoopi pakettöötluse raamistik

HDFS ja YARN on endiselt vajalikud BigData klastrite lahutamatuks osaks. Need kaks loovad aluse muudele hajutatud tehnoloogiatele, näiteks hajutatud päringumootoritele või hajutatud andmebaasidele. MapReduce'i peamine kasutusjuhtum on klastri RAM-ist suuremate andmekogumite pakkide töötlemine, samal ajal kui Flink on mõeldud korduvaks töötlemiseks. Nii et üldiselt võivad need kaks koos eksisteerida.

Allikas: virna ülevool


Vastus 4:

Apache Flink:

  • Flink põhineb operaatoripõhisel arvutusmudelil. Apache Flink kasutab vooge kogu töökoormuse jaoks: voogesitus, SQL, mikropartii ja partii. Batch on voogesitatud andmete piiratud komplekt.Flink API pakub kahte pühendatud iteratsiooni toimingut Iterate ja Delta Iterate.Apache Flink on varustatud optimeerijaga, mis on tegeliku programmeerimisliidesega sõltumatu. Konfiguratsiooni minimaalsete jõupingutustega Apache Flinki voogesituse tööaeg saavutab madala latentsusaja. ja suur läbilaskevõime.Apache Flink töötleb kõiki kirjeid täpselt ühe korraga, välistades seega dubleerimise.Flinkil on kirjepõhine või mis tahes kohandatud kasutaja määratletud Windowsi kriteeriumid.Flink pakub automaatset mäluhaldust.Flink töötleb andmeid välkkiirel kiirusel

Apache säde:

  • Spark põhineb mikropartii mudelil. Spark kasutab kogu töökoormuse jaoks mikropartiisid. Kuid see ei ole piisav selliste juhtumite korral, kus peame töötlema suuri reaalajas andmete vooge ja andma tulemusi reaalajasSpark põhineb võõrkeelsel iteratsioonil, mida rakendatakse korrapäraselt - silmuseid väljaspool süsteemi. Apache Sparki töökohad peavad olema käsitsi optimeeritud.Apache Sparkil on Apache Flinkiga võrreldes kõrge latentsusaeg.Spark töötleb ka igat kirjet täpselt ühe korra, välistades seega dubleerimise.Sparkil on ajapõhine aken kriteeriumidSpark pakub konfigureeritavat mäluhaldust. Spark 1.6, Spark on liikunud ka mäluhalduse automatiseerimise poole.Sparki töötlemismudel on aeglasem kui Flink

PDF DOWNLOAD: täielik Hadoopi trianiseerimise teemad