OPPO小布推出預訓練大模型OBERT,晉升KgCLUE榜首
近日,OPPO小布助手團隊和機器學習部聯合完成了十億參數模型“OBERT”的預訓練,業務上取得了4%以上的提升;在行業對比評測中,OBERT躍居中文語言理解測評基準CLUE1.1總榜第五名、大規模知識圖譜問答KgCLUE1.0排行榜第一名,在十億級模型上進入第一梯隊,多項子任務得分與排前3名的百億參數模型效果非常接近,而參數量僅為后者的十分之一,更有利于大規模工業化應用。

CLUE1.1總榜,共9個子任務

KgCLUE1.0,知識圖譜問答榜
技術全自研,小布推動十億級預訓練大模型落地
大規模預訓練模型的出現,為自然語言處理任務帶來了新的求解范式,也顯著地提升了各類NLP任務的基準效果。自2020年,OPPO小布助手團隊開始對預訓練模型進行探索和落地應用,從“可大規模工業化”的角度出發,先后自研了一億、三億和十億參數量的預訓練模型OBERT。

預訓練模型開發&應用方案
得益于數據獲取的低成本性和語言模型強大的遷移能力,目前NLP預訓練主流的任務是基于分布式假設的語言模型。在此,小布助手團隊選擇了在下游自然語言理解類(NLU)任務上有更好效果的MLM,并采用課程學習作為主要預訓練策略,由易到難循序漸進,提高訓練穩定性。首先在一億級模型上驗證了以上mask策略的有效性,其Zero-shot效果顯著優于開源base級模型,下游應用時也取得了收益,隨后將其應用到十億級模型訓練中。

ZeroCLUE榜單
值得一提的是,從開源工作實驗結果來看,語料的數量和內容多樣性越大,下游任務效果會隨之提升。基于前期的探索和嘗試,十億級OBERT模型清洗和收集了1.6 TB級語料,通過5種mask機制從中學習語言知識,內容包含百科、社區問答、新聞等,場景涉及意圖理解、多輪聊天、文本匹配等NLP任務。
加強應用創新,小布持續深耕NLP技術
CLUE(中文語言理解評測集合)榜單是中文領域最具權威的自然語言理解榜單之一,開設了包括分類、文本相似度、閱讀理解、上下文推理等共10個子任務,旨在推動NLP訓練模型技術的不斷進步和突破。
NLP(自然語言處理)技術被譽為人工智能皇冠上的明珠。作為人工智能認知能力的核心,NLP是AI領域最具挑戰的賽道之一,其目的是使得計算機具備人類的聽、說、讀、寫等能力,并利用知識和常識進行推理和決策。
小布助手發布于2019年,到2021年底,它已經累計搭載2.5 億設備,月活用戶數突破1.3 億,月交互次數達20 億,成為國內首個月活用戶數破億的手機語音助手,一躍成為國內新一代智能助手的代表。

在NLP技術方面,小布助手經歷了從規則引擎、簡單模型到強深度學習,再到預訓練模型幾個階段。歷經3年的發展,小布助手在NLP技術領域已達到行業領先水平,此次OBERT位列CLUE 1.1總榜前五、KgCLUE 1.0排行榜榜首,便是小布助手技術沉淀與積累的最好力證。
登榜CLUE 1.1總榜并登頂KgCLUE 1.0排行榜,主要得益于三個方面:一是利用小布助手積累的海量數據,獲得口語化的語言數據,促進算法模型對智能助手場景的語言有更好的理解;二是保持著開放的成長型心態,跟進學術界和工業界最新的進展并加以實踐;三是堅定地在最新預訓練模型方向進行投入,一點一點地去做技術積累,一次一次地探索落地應用。
未來,小布助手團隊會結合智能助手場景特點,持續優化預訓練技術,深耕NLP,利用模型輕量化等技術加速大模型落地,并持續探索AI與主動情感的結合,讓智能更人性化,在萬物互融的時代,助力推動AI大放異彩,幫助AI潤物細無聲地融入人們未來的數智生活。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













