SparkSQL對于批流支持的特性及批流一體化支持框架的難點
轉(zhuǎn)載本文需注明出處:微信公眾號EAWorld,違者必究。
本文介紹了 SparkSQL 和 Flink 對于批流支持的特性以及批流一體化支持框架的難點。在介紹批流一體化實現(xiàn)的同時,重點分析了基于普元 SparkSQL-Flow 框架對批流支持的一種實現(xiàn)方式。希望對大家的工作有所幫助,也希望能對 DatasetFlow 模型作為框架實現(xiàn)提供一些啟發(fā)。
目錄:
1.SparkSQL 和 Flink 對于批流支持的特性介紹
2.基于SparkSQL-Flow的批量分析框架
3.基于SparkStreaming SQL模式的流式處理支持
4.對于批流一體化ETL的思考
一、SparkSQL 和 Flink
對于批流支持的特性介紹
關(guān)于流和批的一些爭論
對于廣泛使用的Spark和新秀Flink,對于批和流實現(xiàn)方式上,以及在論壇和一些文章上,對批和流都有不同看法。批是流的特例 還是 流是批的特例?

1.從批的角度看,流是多個批次一份一份的進行。無限個這樣批次構(gòu)成整個流處理流程,類如SparkStreaming的處理模式;
2.從流的角度看,批是流的有限流處理。它只不過在某個時間點,完成某個條件停止了而已;類如 Flink 的處理模式;
Spark 和 Flink 都具有流和批處理能力,但是他們的做法是截然相反。Spark Streaming是把流轉(zhuǎn)化成一個個小的批來處理,這種方案的一個問題是我們需要的延遲越低,額外開銷占的比例就會越大,這導(dǎo)致了Spark Streaming很難做到秒級甚至亞秒級的延遲。Flink是把批當作一種有限的流,這種做法的一個特點是在流和批共享大部分代碼的同時還能夠保留批處理特有的一系列的優(yōu)化。數(shù)據(jù)倉庫早期以及大數(shù)據(jù)早期都是從批處理開始的,所以很多系統(tǒng)都是從批處理做起,包括Spark。在批處理上Spark有著較深的積累,是一個比較優(yōu)秀的系統(tǒng)。隨著技術(shù)的發(fā)展,很多原來只有批處理的業(yè)務(wù)都有了實時的需求,流處理將會變得越來越重要,甚至成為一些數(shù)據(jù)分析的主要場景,如實時管控、預(yù)警相關(guān)。
Spark 和 Flink 的異同點

Flink 早期僅支持流式處理,這幾年的Flink無論從API組織,還是運行方式,還是多樣性都越來越像Spark。
批和流是數(shù)據(jù)融合的兩種應(yīng)用形態(tài)
傳統(tǒng)的數(shù)據(jù)融合通常基于批模式。在批的模式下,我們會通過一些周期性運行的ETL JOB,將數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫、文件存儲向下游的目標數(shù)據(jù)庫進行同步,中間可能有各種類型的轉(zhuǎn)換。

與批模式相比相比, 其最核心的區(qū)別是將批量變?yōu)閷崟r:輸入的數(shù)據(jù)不再是周期性的去獲取,而是源源不斷的來自于業(yè)務(wù)的日志、消息隊列的消息。進而通過一個實時計算引擎,進行各種聚合運算,產(chǎn)生輸出結(jié)果,并且寫入下游。Spark 和 Flink 都能夠支持批和流兩種概念。只不過像 Flink,其原生就是為流而生,所以在流處理上更自然。
Spark 是有太多包袱,Spark 最早采用 RDD 模型,達到比 MapReduce 計算快 100 倍的顯著優(yōu)勢,對 Hadoop 生態(tài)大幅升級換代。RDD 彈性數(shù)據(jù)集是分割為固定大小的批數(shù)據(jù),自動容錯、位置感知、本地計算、可調(diào)度可伸縮等眾多重要特性。RDD 提供了豐富的底層 API 對數(shù)據(jù)集做操作,為持續(xù)降低使用門檻,Spark 社區(qū)開始開發(fā)高階 API:DataFrame/DataSet,Spark SQL 作為統(tǒng)一的 API,掩蓋了底層,同時針對性地做 SQL 邏輯優(yōu)化和物理優(yōu)化。Spark 早期的主要目標是替代 MapReduce,MapReduce 是大數(shù)據(jù)批處理的核心模型。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發(fā)展現(xiàn)狀與測試挑戰(zhàn)-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 3 拐點已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 4 L3自動駕駛延期,逼出車企技術(shù)自我淘汰
- 5 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 6 機器人9月大事件|3家國產(chǎn)機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 7 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機還是轉(zhuǎn)機?
- 8 7倍機器人大牛股:高管股東套現(xiàn)VS機構(gòu)兇猛抱團,該信誰?
- 9 八部門聯(lián)手放行L3自動駕駛!巨頭開始拼搶萬億市場?
- 10 OpenAI發(fā)布的AI瀏覽器,市場為何反應(yīng)強烈?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













