国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        谷歌內部深度揭秘TPU3.0技術

        作為世界領先的技術領先公司之一,谷歌推出了高速定制機器學習芯片Tensor Processing Units(TPU),從而提高了標準。這些芯片最初是在2016年5月由該公司進行的 I/O 開發者大會上推出的。

        但谷歌對TPU的了解并不多,原因很明顯。然而,該公司最近發布了一篇文章,其中包含對TPU的深入分析。您可以閱讀該論文以獲得詳細摘要。在這篇博客中,我們將向您展示Google揭示的芯片的主要亮點。

        什么是TPU?

        Tensor Processing Units或TPU是由Google設計的定制機器學習芯片,用于成功執行其常規機器學習工作負載。谷歌現在正致力于實施這些TPU,而不是使用CPU,GPU和兩者的組合,據稱這些TPU比標準CPU和GPU快15-30倍。此外,在功耗方面,這些芯片的TeraOps /瓦特高出30到80倍。

        發展歷史

        谷歌透露,該公司并不知道公司的額外硬件資源可以像TPU一樣有用和強大。早在2006年,該公司就開始尋找新的方法來有效利用其過多的硬件資源,包括GPU,FPGA芯片和ASIC。在未來幾年內,Google Datacenters進行了大量實驗。但是,主要的轉變發生在2013年,當時DNN越來越受歡迎,并且在未來幾年它應該會更大。

        谷歌推斷,如果發生這種情況,公司可用的硬件資源將不足以滿足增強的計算要求。就在那時,公司開始著手一個高優先級項目,設計一系列定制ASIC芯片,以更低的功耗和更快的速度處理更多的任務。這些定制ASIC芯片被谷歌稱為“Tensor Processing Units”。

        TPU芯片旨在用于處理其內部操作,以便通過先進的機器學習算法為用戶改進其云平臺。雖然谷歌目前不太可能在其自己的云平臺之外推出TPU,但它確實展示了通向世界的道路并為新發明鋪平了道路。

        TPU 3.0與Edge TPU

        2016年5月的谷歌I/O大會,谷歌首次公布了自主設計的TPU,2017年谷歌I/O大會,谷歌宣布正式推出第二代TPU處理器,在今年的Google I/0 2018大會上,谷歌發布了新一代TPU處理器——TPU 3.0。TPU 3.0的性能相比目前的TPU 2.0有8倍提升。

        之后谷歌又發布了 Edge TPU 芯片搶攻邊緣計算市場。雖然都是 TPU,但邊緣計算用的版本與訓練機器學習的 Cloud TPU 不同,是專門用來處理AI預測部分的微型芯片。Edge TPU可以自己運行計算,而不需要與多臺強大計算機相連,因此應用程序可以更快、更可靠地工作。它們可以在傳感器或網關設備中與標準芯片或微控制器共同處理AI工作。

        Google在I/O大會上發布了TPU3,雖然目前詳細信息不多,但下面幾點還是值得討論:8倍性能;快速迭代;云服務和Benchmark。TPU3到底哪里厲害?

        一個TPU3 pod的總處理能力100 PFLOPS是TPU2 pod的8倍。從下圖我們可以看一下TPU3 pod和TPU2 pod的對比。

        TPU2的一個pod包括4個rack,兩個CPU rack(左右兩邊),兩個TPU rack(中間兩個)。每個rack有32個computing unit (板卡),每個TPU板卡有4顆TPU芯片。因此一個pod總共有64 x 4顆TPU2芯片。每顆TPU2芯片的處理能力是45TFLOPS,因此一個pod總的處理能力是45 x 4 x 64 = 11.5 PFLOPS。

        對比來看,TPU3的板卡仍然包括4顆芯片。但目測TPU3 pod的rack數量和板卡的密度(這個看的不是很清楚)和TPU2相比都增加了一倍。因此,一個pod中的TPU3芯片的數量應該是之前4倍。如果pod的總處理能力是TPU2的8倍,那么TPU3單芯片的處理能力則為TPU2的2倍。

        根據Google的說法,這次他們第一次在Data center采用水冷的散熱方式,這可能和芯片功耗以及板卡密度增加有關系。

        總得來說,如上圖所描述(來自Google I/O大會的talk:Effective Machine Learning with Google TPU,可以在YouTube上搜索Google io 18 stage 8觀看),TPU3實現的超過100 PFLOPS的處理能力是來自“新的芯片架構和大規模系統”。

        快速迭代

        從去年I/O大會發布TPU2到今天不過一年時間,Google的芯片迭代速度還是非常驚人的。“為什么Google能夠實現這樣的快速迭代?”這也是一個非常值得探討的話題。我先簡單談幾點個人看法:

        第一,TPU是一個Domain-specific Architecture,定位準確,架構簡單,容易擴展。相比之下,傳統的通用處理器必須考慮靈活性和兼容性,有太重的包袱。當然,TPU這種特點也決定它只能用于有限的應用場景,可能只有Google的體量以及云服務能夠所提供的應用需求才能充分利用TPU這種專用芯片,這一點是得天獨厚的。這也是目前幾乎所有科技巨頭都開始自研芯片的一個基本考量。而傳統的芯片廠商在這一點上就有些尷尬了。

        第二,Google的軟件和系統能力超強,TPU以Cloud service出現,提高給客戶的是整體服務。芯片硬件可做的tradeoff空間比較大,芯片本身的弱點可以在系統層面彌補。從目前得到的信息分析的,TPU3的處理能力是TPU2的8倍,其中芯片換代的貢獻只有2倍,大部分改進在系統層面。另一方面,目前芯片開發離不開相關軟件工具,Google的軟件能力和生態也是其能夠實現芯片快速迭代的一個重要因素。

        第三,錢很重要。Google不差錢,在芯片實現上可以通過花錢換取時間。總得來說,Google TPU的意義可能遠遠超過芯片本身。它背后的芯片設計邏輯,實現方法,應用模式和生態環境,相較傳統芯片開發有很大區別,也許會成為趨勢。

        Google在發布TPU3的時候同時提到了新的云服務,在之前的Cloud TPU基礎上,今年晚些時候還會發布Cloud TPU pod,可以看出TPU對于Goolge的云端戰略的重要意義。

        有意思的是,在Google的talk中強調了cost的問題,每個例子都給出了相應的training cost,畫風是這樣的。

        這里頗有廣告的感覺,不禁讓人想起黃教主的”The more GPUs you buy, The more money you save“。結合最近Microsoft對Brainwave項目的宣傳,感覺云端機器學習的價格戰馬上就要開始了。另外,Google也強調了Benchmark的重要性,還專門展示了他們最近力推的MLPerf。

        最近不同平臺之間的對比很多,有比性能的,也有拼成本的。相信隨著越來越多的廠商加入,刷榜應該會非常熱鬧。

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 每日av| 富源县| 中文字幕无码Av在线看| 豆花AV| 91综合网| 日日干日| 尤物av在线| 丁香久久婷婷| www.亞洲色| 51精品视频| 制服.丝袜.亚洲.中文.综合懂 | 无码人妻AV一区二区| 欧美777| 粉嫩AV一区二区凹凸精品| www.国产在线观看| 辉县市| 亚洲制服丝袜| 人妻少妇被猛烈进入中文字幕| 全南县| 国精产品一区一区二区三区mba| 男女动图视频网站在线播放| 汶川县| 久久久久久久久久久久无码| 国产色资源| 亚洲中文字幕av| 久久久久久亚洲AV无码专区| 拜城县| 中文字幕乱码中文字幕| 91资源总站| 最新A片| 婷婷综合久久| 亚洲熟妇无码成人A片| 国产中年熟女高潮大集合| 国产三级va| 人妻丰满熟妇av无码区波多野| 欧美丝袜另类| 中文字幕在线网址| 亚洲无码18禁| 3p无码| 国产男人天堂| 云龙县|