国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        基于Spark的數(shù)據(jù)分析實踐

        2019-06-19 09:55
        EAWorld
        關(guān)注

        對RegisterDataFrameAsTable的分析

        通過單個 regiserDataFrameAsTable 項進(jìn)行分析,SparkSQL 并不是把source 的數(shù)據(jù)立即計算把數(shù)據(jù)放到內(nèi)存,而是每次執(zhí)行 source 時只是生成了一個 Logical Plan,只有遇到需要提交的算子(Action),SparkSQL 才會觸發(fā)前面所依賴的的 plan 執(zhí)行。

        總結(jié)

        這是一個開發(fā)框架,不是一個成熟的產(chǎn)品,也不是一種架構(gòu)。他只是基于 SparkSQL 整合了大多數(shù)的外部系統(tǒng),能通過 XML 的模板配置完成數(shù)據(jù)開發(fā)。面向的是理解數(shù)據(jù)業(yè)務(wù)但不了解 Spark 的數(shù)據(jù)開發(fā)人員。整個框架完成了大多數(shù)的外部系統(tǒng)對接,開發(fā)者只需要使用 type 獲得數(shù)據(jù),完成數(shù)據(jù)開發(fā)后通過 target 回寫到目標(biāo)系統(tǒng)中。整個過程基本無須程序開發(fā),除非當(dāng)前的 SQL 函數(shù)無法滿足使用的情況下,需要自行開發(fā)一下特定的 UDF。因此本框架在對 SparkSQL 做了二次開發(fā)基礎(chǔ)上,大大簡化了 Spark 的開發(fā),可降低了開發(fā)者使用難度。

        精選提問:

        問1:和Fink平臺有什么優(yōu)勢么?

        答:Flink 應(yīng)該對標(biāo) Spark Streaming 的解決方案,是另一種可選流數(shù)據(jù)引擎。Flink 也采用了 Scala 語言,內(nèi)部原理和操作數(shù)據(jù)方式頗有相似之處,是 SparkStreaming 之外流數(shù)據(jù)處理一種選型。基于 SparkSQL Flow 的架構(gòu)主要側(cè)重批量數(shù)據(jù)分析,非實時 ETL 方面。

        問2:這些應(yīng)該是源數(shù)據(jù)庫吧,請問目標(biāo)數(shù)據(jù)庫支持哪些?

        答:目前的實現(xiàn)目標(biāo)數(shù)據(jù)基本支持所有的源。

        問3:你們產(chǎn)品是軟件開發(fā)平臺,spark和你們開發(fā)平臺啥關(guān)系?

        答:普元針對部分成熟場景提供了一些開發(fā)平臺和工具,也在參與了一些大數(shù)據(jù)項目建設(shè)。對于大規(guī)模數(shù)據(jù)的數(shù)據(jù)報表,數(shù)據(jù)質(zhì)量分析也需要適應(yīng)大數(shù)據(jù)的技術(shù)場景,Spark 作為Hadoop 內(nèi)比較成熟的解決方案,因此作為主要的選型工具。在參與部分項目實施過程中,通過對一些開發(fā)中的痛點針對性的提取了應(yīng)用框架。

        問4:對于ETL中存在的merge、update的數(shù)據(jù)匹配、整合處理,Spark SQL Flow有沒有好的解決方法?

        答:merge 和 update 在數(shù)據(jù)開發(fā)過程不可避免,往往對數(shù)據(jù)庫造成較大壓力。大數(shù)據(jù)場景下不建議逐條對數(shù)據(jù)做 update 操作,更好的辦法是在數(shù)據(jù)處理階段通過 join 把結(jié)果集在寫入目標(biāo)前準(zhǔn)備好,統(tǒng)一一次性寫入到目標(biāo)數(shù)據(jù)庫。查詢操作通過換庫使用新庫,這中操作一般適合數(shù)據(jù)量比較大,數(shù)據(jù)更新頻率較低的情況。如果目標(biāo)庫是 HBase 或者其他 MPP 類基于列式的數(shù)據(jù)庫,適當(dāng)?shù)目梢愿隆5钱?dāng)每天有 60% 以上的數(shù)據(jù)都需要更新時,建議還是一次性生成新表。

        問5: blink和flink 應(yīng)該如何選取?

        答:blink 是阿里巴巴在 flink 基礎(chǔ)上做了部分場景優(yōu)化(只是部分社區(qū)有介紹,并不明確)并且開源,但是考慮到國內(nèi)這些機(jī)構(gòu)開源往往是沒有持久動力的。要看采用 Blink 是否用了比較關(guān)鍵的特性。也有消息說 Blink 和 Flink 會合并,畢竟阿里 Dubbo 前期自己發(fā)展,后期還是捐給了 Apache,因此兩者合并也是有可能。建議選型 Flink。

        問6:etl 同步數(shù)據(jù)中主要用哪些工具?

        答:這個要區(qū)分場景。傳統(tǒng)數(shù)據(jù)庫之間,可采用日志同步,也有部分成熟的工具;

        傳統(tǒng)數(shù)據(jù)庫和Hadoop 生態(tài)內(nèi)(HBase,HIVE) 同步可使用 apache sqoop。 SparkSQL Flow 可以作為數(shù)據(jù)同步的另一種方案,可用在實時性不高的場景。SparkSQL Flow 更側(cè)重大數(shù)據(jù)工具,偏向數(shù)據(jù)分析和非實時 ETL。

        <上一頁  1  2  3  4  
        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

        發(fā)表評論

        0條評論,0人參與

        請輸入評論內(nèi)容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關(guān)注公眾號
          OFweek人工智能網(wǎng)
          獲取更多精彩內(nèi)容
          文章糾錯
          x
          *文字標(biāo)題:
          *糾錯內(nèi)容:
          聯(lián)系郵箱:
          *驗 證 碼:

          粵公網(wǎng)安備 44030502002758號

          主站蜘蛛池模板: 武功县| 男人天堂网址| 91狠狠综合| 成人黄电影| 伊人久久大香线蕉av一区| 通江县| 99久久婷婷国产综合精品青草五月| 亚洲最大三级网站| 伊人精品在线| 亚洲国产精品成人网站| 桃源县| 又粗又大AV| 瑟瑟av| 霍州市| 正在播放:?37岁大奶美人妻打开双腿狂舔黑鲍鱼!| 午夜性福利| 91精品国产综合久久久蜜臀酒店| 伊人一区| 美女成人网站| 丝袜a片| 亚洲播播| 国产乱人伦久久免费| 日韩在线一区二区| 国产亚洲合集| 亚洲第一av网站| 崇仁县| 久久久熟妇熟女| 99在线精品国自产拍不卡| 思思热在线播放| 日韩第四页| 婷婷综合久久| 上海av电影在线观看| 成人av中文字幕在线播放| 人人操超碰| 施甸县| 91拳交新拳交| 富锦市| 人妻丝袜| 天海翼无码在线| 人人操网| 亚洲综合另类|