亚洲综合社区,超碰人妻97,69堂在线观看线无码视频一

基于Spark的數據分析實踐

2019-06-19 09:55

三、SparkSQL

Spark 從 1．3 版本開始原有 SchemaRDD 的基礎上提供了類似Pandas DataFrame API。新的DataFrame API不僅可以大幅度降低普通開發者的學習門檻，同時還支持Scala、Java與Python三種語言。更重要的是，由于脫胎自SchemaRDD，DataFrame天然適用于分布式大數據場景。

一般的數據處理步驟：讀入數據－＞對數據進行處理－＞分析結果－＞寫入結果

SparkSQL 結構化數據

處理結構化數據（如 CSV，JSON，Parquet 等）；

把已經結構化數據抽象成 DataFrame （HiveTable）；

非結構化數據通過 RDD．map．filter 轉換成結構化進行處理；

按照列式數據庫，只加載非結構化中可結構化的部分列（Hbase，MongoDB）；

處理非結構化數據，不能簡單的用 DataFrame 裝載。而是要用 SparkRDD 把數據讀入，在通過一系列的 Transformer Method 把非結構化的數據加工為結構化，或者過濾到不合法的數據。

SparkSQL DataFrame

SparkSQL 中一切都是 DataFrame，all in DataFrame． DataFrame是一種以RDD為基礎的分布式數據集，類似于傳統數據庫中的二維表格。DataFrame與RDD的主要區別在于，前者帶有schema元信息，即DataFrame所表示的二維表數據集的每一列都帶有名稱和類型。如果熟悉 Python Pandas 庫中的 DataFrame 結構，則會對 SparkSQL DataFrame 概念非常熟悉。

TextFile DataFrame

import．org．apache．spark．sql．＿／／定義數據的列名稱和類型valdt＝StructType（List（id：String，name：String，gender：String，age：Int））
／／導入user＿info．csv文件并指定分隔符vallines ＝ sc．textFile（＂／path／user＿info．csv＂）．map（＿．split（＂，＂））
／／將表結構和數據關聯起來，把讀入的數據user．csv映射成行，構成數據集valrowRDD ＝ lines．map（x＝＞Row（x（0），x（1），x（2），x（3）．toInt））
／／通過SparkSession．createDataFrame（）創建表，并且數據表表頭val df＝ spark．createDataFrame（rowRDD， dt）

可左右滑動查看代碼

讀取規則數據文件作為DataFrame

SparkSession．Builder builder ＝ SparkSession．builder（）Builder．setMaster（＂local＂）．setAppName（＂TestSparkSQLApp＂）SparkSession spark ＝ builder．getOrCreate（）；SQLContext sqlContext ＝ spark．sqlContext（）；
＃讀取 JSON 數據，path 可為文件或者目錄valdf＝sqlContext．read（）．json（path）；
＃讀取 HadoopParquet 文件vardf＝sqlContext．read（）．parquet（path）；
＃讀取 HadoopORC 文件vardf＝sqlContext．read（）．orc（path）；

可左右滑動查看代碼

JSON 文件為每行一個 JSON 對象的文件類型，行尾無須逗號。文件頭也無須［］指定為數組；SparkSQL 讀取是只是按照每行一條 JSON Record序列化；

Parquet文件

Configurationconfig ＝ new Configuration（）；ParquetFileReaderreader ＝ ParquetFileReader．open（ HadoopInputFile．fromPath（new Path（＂hdfs：／／／path／file．parquet＂），conf））；Map＜String， String＞schema ＝ reader．getFileMetaData（）．getKeyValueMetaData（）；String allFields＝ schema．get（＂org．apache．spark．sql．parquet．row．metadata＂）；

可左右滑動查看代碼

allFiedls 的值就是各字段的名稱和具體的類型，整體是一個json格式進行展示。

讀取 Hive 表作為 DataFrame

Spark2 API 推薦通過 SparkSession．Builder 的 Builder 模式創建 SparkContext。 Builder．getOrCreate（）用于創建 SparkSession，SparkSession 是 SparkContext 的封裝。

在Spark1．6中有兩個核心組件SQLcontext和HiveContext。SQLContext 用于處理在 SparkSQL 中動態注冊的表，HiveContext 用于處理 Hive 中的表。

從Spark2．0以上的版本開始，spark是使用全新的SparkSession接口代替Spark1．6中的SQLcontext和HiveContext。SQLContext．sql 即可執行 Hive 中的表，也可執行內部注冊的表；

在需要執行 Hive 表時，只需要在 SparkSession．Builder 中開啟 Hive 支持即可（enableHiveSupport（））。

SparkSession．Builder builder ＝ SparkSession．builder（）．enableHiveSupport（）；SparkSession spark ＝ builder．getOrCreate（）；SQLContext sqlContext ＝ spark．sqlContext（）；

可左右滑動查看代碼

／／ db 指 Hive 庫中的數據庫名，如果不寫默認為 default

／／ tableName 指 hive 庫的數據表名

sqlContext．sql（“select ＊ from db．tableName”）

可左右滑動查看代碼

SparkSQL ThriftServer

／／首先打開 Hive 的 Metastore服務

hive＄bin／hive –－service metastore –p 8093

可左右滑動查看代碼

／／把 Spark 的相關 jar 上傳到hadoophdfs指定目錄，用于指定sparkonyarn的依賴 jar

spark＄hadoop fs –put jars／＊．jar ／lib／spark2

可左右滑動查看代碼

／／啟動 spark thriftserver 服務

spark＄ sbin／start－thriftserver．sh －－master yarn－client －－driver－memory 1G －－conf spark．yarn．jars＝hdfs：／／／lib／spark2／＊．jar

可左右滑動查看代碼

當hdfs 上傳了spark 依賴 jar 時，通過spark．yarn．jars 可看到日志 spark 無須每個job 都上傳jar，可節省啟動時間

19／06／1114：08：26 INFO Client： Source and destination file systems are the same． Notcopying hdfs：／／localhost：9000／lib／spark2／snappy－java－1．0．5．jar19／06／1114：08：26 INFO Client： Source and destination file systems are the same． Notcopying hdfs：／／localhost：9000／lib／spark2／snappy－java－1．1．7．3．jar

可左右滑動查看代碼

／／通過 spark bin 下的 beeline 工具，可以連接到 spark ThriftServer（SparkOnHive）

bin／beeline －u jdbc：hive2：／／ip：10000／default －n hadoop

可左右滑動查看代碼

－u 是指定 beeline 的執行驅動地址；

－n 是指定登陸到 spark Session 上的用戶名稱；

Beeline 還支持傳入－e 可傳入一行 SQL，

－e ＜query＞ query that should be executed

也可通過 –f 指定一個 SQL File，內部可用逗號分隔的多個 SQL（存儲過程）

－f ＜exec file＞ script file that should be executed

SparkSQL Beeline 的執行效果展示