国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        SparkMLlib GBDT算法工業大數據實戰

        2019-03-29 11:24
        來源: 格創東智

        在格物匯之前發表的《工業大數據挖掘的利器——Spark MLlib》中提到,Spark 的MLlib組件能夠對工業現場海量數據進行高效挖掘,快速呈現結果給業務分析人員。接下來將向大家介紹SparkMLlib 中的GBDT算法,并將應用該算法對工業數據進行代碼實戰。

        1算法概念

        GB(Gradient Boosting)梯度提升算法,GB 共需要進行M次迭代,通過采用梯度下降的方法,每次迭代向損失函數的負梯度方向進行移動,從而使損失函數越來越小,進而使模型越來越精確。算法偽代碼如下:

        GB算法跟原始的Boosting算法相比較,還是有比較明顯的區別。

        Boosting算法開始的時候,是會給每個樣本附上權重的,在每次迭代的時候就會增加錯的樣本的權重,減少對的樣本的權重,經過N次迭代之后,會得到N個分類器,然后我們再將他們組合起來,得到最終模型。

        GB算法與Boosting區別是,他的每一次迭代的目標都是減少上一次的殘差,所以在殘差減少的方向上建立一個新的模型。在GB算法框架上加入決策樹,就是GBDT(GradientBoost Decision Tree)算法。

        GBDT主要的優點有:

        1) 可以靈活處理各種類型的數據,包括連續值和離散值。

        2) 在相對少的調參時間情況下,預測的準備率也可以比較高。這個是相對SVM來說的。

        3)使用一些健壯的損失函數,對異常值的魯棒性非常強。比如 Huber損失函數和Quantile損失函數。

        4) 很好的利用了弱分類器進行級聯。

        5) 充分考慮的每個分類器的權重。

        6) 可以得到變量間的重要性排序。

        GBDT的主要缺點有:

        1)由于弱學習器之間存在依賴關系,難以并行訓練數據,不過可以通過自采樣的SGBT來達到部分并行。

        2完整代碼實例

        工業生產中,產品在制程過程中會有很多特性值,如果能對產品的特性值及時進行預測,得到特性值的具體數值,那么就會幫組業務人員知曉產品的質量,實現產品的全檢,并能防止異常產品后流,造成不必要的浪費。

        本次實戰代碼的采用的數據是半導體制程中某一道工序的機臺的制程參數值,通過采用SparkMLlib中的GBDT算法對工業現場機臺的制程參數進行建模,預測出經過該機臺生產之后產品的膜層厚度。

        SparkMLlib GBDT算法工業大數據實戰

        SparkMLlib GBDT算法工業大數據實戰

        SparkMLlib GBDT算法工業大數據實戰

        SparkMLlib GBDT算法工業大數據實戰

        模型最后輸出模型性能指標如下:

        Mape(Mean Absolute Percentage Error):0.23%

        通過上圖模型輸出的預測值與實際值對比,發現預測出來的產品膜厚的數值走勢跟實際數值走勢基本符合,mape達到0.5%以內,擬合度相當可觀,后續還可以通過樣本篩選以及特征工程等手段對該模型進行進一步調優。

        在模型達到業務需求的擬合度等指標后,通過該模型進行部署,實現產品的“實時全檢”,從而實現產品質量的全面監控,杜絕異常產品后流;與工廠內的抽檢系統結合后,降低產品的抽檢率,提高工廠的效率。

        GBDT算法的用途還是比較廣泛的,它不僅可以處理分類問題,能對線性與非線性回歸問題進行處理,還能通過輸出變量間重要因子排序,方便業務人員快速定位異常變量。在工業現場的頑固異常分析還是產品特性預測等領域,GBDT算法確實是很值得數據分析人員考慮的一種算法。

        本文作者:

        格創東智大數據工程師黃歡(轉載請注明作者及來源)

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          智能制造 獵頭職位 更多
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 青青网站| 河曲县| 人妖15p| 奎屯市| 亚州无码熟女| 双峰县| 国产九九在线视频| 平遥县| 欧美+国产+无码+麻豆| 明水县| 欧美性生交XXXXX久久久| 霸州市| 欧美人妖性爱| 丁香五月天激情网| 包头市| 五月婷婷开心| 欧洲丰满熟女a片| 汤阴县| 天天综合91| 亚洲123区| 大同市| 欧美熟妇高潮流白浆| 制服丝袜无码视频| 亚洲精品国产AV| 亚洲免费一区二区| 69天堂| 亚洲综合一区二区| av高清| 欧美视频精品| 91视频最新网址| 中文字幕国产av| 亚洲自拍中文| 松潘县| 亚洲黑人av| 精品自拍视频| 广丰县| 日日夜干| 91日本视频| 无码?人妻?在线| 彭泽县| 另类一区|