国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        谷歌推出全新底層架構(gòu)MoR,Transformer有了替代品

        前言:大語言模型(LLMs)規(guī)模龐大但效率低下的問題長期備受關(guān)注。盡管模型參數(shù)持續(xù)增長,其在長文本處理中的性能衰減、計算資源消耗等問題始終未能有效解決。谷歌DeepMind最新提出的MoR架構(gòu),可能為這一困境提供了新的解決路徑。

        作者 | 方文三

        圖片來源 |  網(wǎng) 絡(luò) 

        傳統(tǒng)模型的困境局限當(dāng)前性能發(fā)展

        長期以來,Transformer架構(gòu)始終作為大型語言模型的核心架構(gòu),然而隨著研究的深入,其固有局限性亦逐漸顯現(xiàn)。

        Transformer依賴堆疊網(wǎng)絡(luò)層數(shù)以增強(qiáng)模型性能,但該機(jī)制導(dǎo)致計算資源呈現(xiàn)平均分配特征,無論輸入token的復(fù)雜程度如何。

        簡單token(如連詞、助詞)與復(fù)雜token(如專業(yè)術(shù)語、長句)均被施以同等處理流程,導(dǎo)致大量冗余計算產(chǎn)生。

        此外,在處理長文本序列時,其鍵值緩存(KV緩存)機(jī)制需占用大量內(nèi)存空間,進(jìn)一步制約模型效率的提升。

        針對上述問題,研究者們正持續(xù)探索兩個關(guān)鍵方向:其一通過權(quán)重共享機(jī)制提升參數(shù)利用效率,其二依據(jù)輸入復(fù)雜度動態(tài)分配計算資源,旨在實現(xiàn)自適應(yīng)計算能力。

        當(dāng)模型規(guī)模擴(kuò)展至數(shù)千億參數(shù)量級,訓(xùn)練與推理成本已成為制約其廣泛落地的核心瓶頸。

        傳統(tǒng)Transformer架構(gòu)對所有輸入信息采用均質(zhì)化計算的處理模式,被證實存在顯著資源冗余。

        從理論到實踐的轉(zhuǎn)變:替代Transformer潛力

        基于Transformer的這些局限性,許多非Transformer架構(gòu)應(yīng)運而生,如中國的RWKV、Meta的Mega、微軟亞研的 Retnet、Mamba、DeepMind團(tuán)隊的Hawk和Griffin等。

        它們大多在RNN的基礎(chǔ)上,針對Transformer的缺陷進(jìn)行改進(jìn),試圖研究出更高效的模型結(jié)構(gòu)。

        就在最近,KAIST、Mila和谷歌DeepMind團(tuán)隊等放出重磅炸彈——一個名為Mixture-of-Recursions(MoR)的全新LLM模型架構(gòu),被業(yè)內(nèi)認(rèn)為有潛力成為“Transformer 殺手”。

        MoR首次在單一框架內(nèi)實現(xiàn)了參數(shù)共享與自適應(yīng)計算的協(xié)同優(yōu)化,解決了傳統(tǒng)方法只能二者擇一的局限。

        該框架將動態(tài)token級路由機(jī)制集成至參數(shù)高效的遞歸Transformer中,形成一種協(xié)同架構(gòu),有望達(dá)成“在避免大型模型成本的同時獲得其質(zhì)量”的目標(biāo)。

        簡而言之,MoR框架能夠依據(jù)每個token的需求,動態(tài)且精確地分配所需計算資源,在避免資源浪費的同時確保任務(wù)高效完成。

        MoR框架(Mixture-of-Recursions)是一個統(tǒng)一框架,其充分發(fā)掘了遞歸Transformer的能力特性,在預(yù)訓(xùn)練與推理階段為每個詞元動態(tài)調(diào)整遞歸步驟。

        該框架的核心在于兩個關(guān)鍵組件:輕量級路由機(jī)制與KV緩存策略。

        其中,輕量級路由機(jī)制引入了端到端訓(xùn)練的輕量級路由器,負(fù)責(zé)為每個詞元分配特定的遞歸深度。

        這意味著模型可依據(jù)詞元所需的處理深度,決定共享參數(shù)模塊的遞歸調(diào)用頻次,從而將計算資源精確導(dǎo)向需求最為迫切之處。

         

        在技術(shù)實現(xiàn)層面,MoR通過端到端訓(xùn)練輕量級路由模塊,為每個token動態(tài)分配專屬的遞歸深度。

        該機(jī)制依據(jù)每個token所需的處理深度,決定共享參數(shù)模塊對其遞歸應(yīng)用的次數(shù),從而實現(xiàn)計算資源的精準(zhǔn)投放。

        此種基于token的動態(tài)遞歸機(jī)制,天然支持遞歸層級的鍵值(KV)緩存。

        該緩存可根據(jù)各token所分配的遞歸深度,選擇性存儲并檢索對應(yīng)的鍵值對,顯著降低內(nèi)存帶寬壓力,無需后處理即可提升推理吞吐量。

        綜上所述,MoR在統(tǒng)一架構(gòu)中同時實現(xiàn)了三項關(guān)鍵優(yōu)化:參數(shù)共享、計算路由與遞歸級緩存。

        此外,采用KV緩存共享策略雖會輕微影響性能,但能顯著提升內(nèi)存效率。

        在內(nèi)存資源受限的部署場景中,此種性能與資源消耗之間的權(quán)衡是可接受的。

        這意味著模型能夠依據(jù)每個詞元的處理需求,精準(zhǔn)地分配計算資源,從而規(guī)避冗余的計算消耗。

        MoR既能顯著降低驗證集困惑度(Perplexity)并提升少樣本(Few-shot)準(zhǔn)確率,亦可在同等訓(xùn)練計算量與更小模型規(guī)模的前提下,相較現(xiàn)有模型提供更高的吞吐量。

        在少樣本學(xué)習(xí)、長文本處理等任務(wù)中的表現(xiàn)已接近Transformer,且計算效率更具優(yōu)勢,被視作替代Transformer架構(gòu)的有力競爭者。

        實驗結(jié)果來看MoR的性能表現(xiàn)亮眼

        研究團(tuán)隊在1.35億至1.7億參數(shù)的多個模型規(guī)模上進(jìn)行了測試。

        結(jié)果表明,在相同訓(xùn)練計算預(yù)算下,采用MoR架構(gòu)的模型,其參數(shù)量雖較基準(zhǔn)Transformer模型減少近一半,但在多項少樣本學(xué)習(xí)任務(wù)中的平均準(zhǔn)確率達(dá)到43.1%,優(yōu)于基準(zhǔn)模型的42.3%。

        尤為重要的是,MoR架構(gòu)具備更高的計算效率,使其能夠在相同計算預(yù)算內(nèi)處理更多訓(xùn)練數(shù)據(jù),從而進(jìn)一步提升模型性能。

        在固定訓(xùn)練數(shù)據(jù)量的對比實驗中,特定MoR配置僅需使用基準(zhǔn)模型75%的訓(xùn)練計算量,性能即超越基準(zhǔn)模型,同時訓(xùn)練時間縮短19%,峰值內(nèi)存占用降低25%。

        在推理性能方面,MoR架構(gòu)的優(yōu)勢更為顯著。

        其采用的連續(xù)深度批處理技術(shù),可將處于不同計算階段的token組合至同一批次進(jìn)行處理,因其共享相同參數(shù)塊。

        該技術(shù)與模型的早期退出機(jī)制協(xié)同作用,顯著提升了處理吞吐量。

        在3.6億參數(shù)規(guī)模的模型測試中,MoR-4配置在特定測試條件下實現(xiàn)了高達(dá)2.06倍的推理加速。

        尤其值得注意的是,盡管模型參數(shù)量縮減近50%,MoR仍展現(xiàn)出更優(yōu)性能。

        該優(yōu)勢源于其顯著提升的計算效率,從而能夠在相同F(xiàn)LOPs預(yù)算下處理更多訓(xùn)練token。

        MoR的提出意味著LLM發(fā)展邏輯的根本性變革

        MoR的出現(xiàn)標(biāo)志著AI模型從[規(guī)模擴(kuò)張]向[智能計算]的演進(jìn)趨勢。

        其動態(tài)路由機(jī)制模擬了人類認(rèn)知的[選擇性注意]特性,為開發(fā)更具生物啟發(fā)性的AI系統(tǒng)提供了新思路。

        通過動態(tài)路由、參數(shù)共享與智能緩存的三重優(yōu)化機(jī)制,MoR重新定義了大模型的效率邊界。

        推理速度倍增與內(nèi)存占用減半的突破性進(jìn)展,不僅顯著降低了部署成本,更為復(fù)雜任務(wù)處理確立了新范式。

        盡管在大規(guī)模驗證與多模態(tài)擴(kuò)展領(lǐng)域仍需深入探索,但MoR已展現(xiàn)出替代Transformer的實質(zhì)性潛力,或?qū)⒁I(lǐng)下一代AI模型的架構(gòu)革新。

        尤為重要的是,MoR為開發(fā)更具認(rèn)知啟發(fā)性的AI系統(tǒng)奠定了基石。

        該框架在生成過程中能夠按每個token自適應(yīng)分配[思考深度]的特性,與語言模型潛在推理及內(nèi)部思考機(jī)制的新興研究高度契合。

        這表明MoR可作為關(guān)鍵平臺,用于探索模型如何在保持常規(guī)任務(wù)效率的同時,逐步學(xué)會對復(fù)雜問題進(jìn)行更深入的思考。

        結(jié)尾:

        MoR延續(xù)并深化了這些研究對AI效率優(yōu)化的探索路徑,即從單一維度的優(yōu)化轉(zhuǎn)向參數(shù)、計算及內(nèi)存等多維度的協(xié)同優(yōu)化。

        這對于降低大語言模型的部署與應(yīng)用成本具有顯著的實踐價值。

        總體而言,當(dāng)前階段尚難以斷言MoR能否全面取代Transformer架構(gòu),但其確實為未來語言模型的設(shè)計提供了在性能與效率層面均極具發(fā)展?jié)摿Φ难葸M(jìn)方向。

        部分資料參考:

        炎炎星球:《谷歌DeepMind發(fā)布MoR架構(gòu),推理速度翻倍、內(nèi)存減半,或成Transformer替代方案》

        算家云:《Transformer霸權(quán)終結(jié)?谷歌DeepMind推出顛覆性架構(gòu):推理2倍速、參數(shù)減半》

        AINLPer:《Google等提出遞歸混合框架:MoR,大幅提升LLM計算效率》

        AI帝國:《Google發(fā)布MoR架構(gòu):2倍推理速度,節(jié)省50%內(nèi)存》

               原文標(biāo)題 : 深度丨谷歌推出全新底層架構(gòu)MoR,Transformer有了替代品

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

        發(fā)表評論

        0條評論,0人參與

        請輸入評論內(nèi)容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關(guān)注公眾號
          OFweek人工智能網(wǎng)
          獲取更多精彩內(nèi)容
          文章糾錯
          x
          *文字標(biāo)題:
          *糾錯內(nèi)容:
          聯(lián)系郵箱:
          *驗 證 碼:

          粵公網(wǎng)安備 44030502002758號

          主站蜘蛛池模板: 国产一区二区波多野结衣| 伊人久久五月| 国产黄片在线播放| 欧美BB| 欧美性生交XXXXX久久久| 安新县| 夜夜夜操| 大香蕉一区二区三区| xxxx欧美| 九九热色| 91福利姬| 丰满少妇被猛烈进入无码| 日韩AV中文字幕一区| 色天使av| 四川网红刘婷和爸爸视频最新| 91视频在线观| 亚东县| 久久毛片ddd| 亚洲第一av| 国产精品96久久久久久| 国产菊爆视频在线观看| 国产成人无码A片免费看| 无码探花| 亚洲区中文字幕| 桃源县| 污污内射在线观看一区二区少妇| 91探花在线| 中文字幕在线观看亚洲| 婷婷综合久久| 97香蕉碰碰人妻国产欧美| 日韩色色网| 新丰县| 欧美成人18| 无码123| 国产va在线| 杭锦旗| 狠狠干2019| 亚洲资源站| 鄄城县| 狠狠干性视频| 制服丝袜人妻|