復旦NLP團隊開源MOSS,此為國內首個公開亮相的類ChatGPT模型
復旦大學自然語言處理實驗室邱錫鵬教授團隊上線 MOSS 兩個月后,把 MOSS 開源了。
目前開源的版本是 MOSS 003,二月份公開邀請內測的版本為 MOSS 002,一月份有一個內部測試版本叫做 OpenChat 001。
在 MOSS 003 中,復旦團隊采用不同的技術路線,通過讓Moss和人類以及其他對話模型都進行交互,顯著提升了學習效率和研發效率,短時間內就高效完成了對話能力訓練。
MOSS 成為國內首個公開亮相的類ChatGPT語言模型,也是國內首個搭載插件系統的開源對話語言模型, “端到端”走通了大語言模型的開發全程。
MOSS 的成長過程
復旦 NLP 團隊成員孫天祥公布了 MOSS成長過程。
ChatGPT 問世后,國內 NLP 從業者受到沖擊很大,當時沒有 llama 也沒有 alpaca,團隊普遍認為國內技術距離 ChatGPT 有一到兩年的技術差距。
要做 ChatGPT 有兩個部分是很昂貴的,一個是數據標注,一個是預訓練算力。團隊沒有算力,便去構造數據——從 OpenAI 的論文附錄里扒了一些它們API收集到的user prompt,然后用類似Self-Instruct的思路擴展出大約 40 萬對話數據。
一月份的時候,團隊研制出了 OpenChat 001,雖然 OpenChat 001 不具備中文能力,不知道關于自己的信息(比如名字、能力等),且安全性較低,但此時模型已經具備了指令遵循能力、多輪能力、跨語言對齊能力,可以理解中文并用英文回答。
這給了團隊很大的信心,于是加緊了 MOSS 002 的部署,增加到了116萬條中英文對話數據。截至MOSS 002訓練完成時,gpt-3.5-turbo、LLaMA、Alpaca均未出現,但卻收到很多類似“MOSS是蒸餾ChatGPT” / “基于LLaMA微調”等質疑。
目前開源的最新版本 MOSS 003 的基座語言模型已經在 100B 中文 token 上進行了訓練,總訓練 token 數量達到 700B,還構造了約 30 萬插件增強的對話數據,目前已包含搜索引擎、文生圖、計算器、方程求解等。還給 MOSS 增加了I nner Thoughts 作為輸出,即在 MOSS 決定調用 API 以及回復之前首先輸出其“內心想法”。
研發團隊稱本次開源只是個開始,后續團隊還將開源完整版 MOSS 003 微調數據、偏好數據、偏好模型以及經過偏好訓練過的最終模型。
MOSS 發布時掀起驚濤駭浪
2 月份,國內各大廠紛紛開始拼大模型,但在國內賽道上首個拿出大模型的不是大廠,而是學界——復旦大學自然語言處理實驗室邱錫鵬教授團隊。
2 月 20 日晚,復旦大學自然語言處理實驗室發布類 ChatGPT 模型 MOSS 的消息一經公開,很快就登頂了知乎熱榜。由于瞬時訪問壓力過大,MOSS服務器還被網友擠崩潰了。
針對服務器崩潰一事,MOSS 官網發公告回應:“我們最初的想法只是想將 MOSS 進行內測,以便進一步優化,沒有想到會引起這么大的關注,我們的計算資源不足以支持如此大的訪問量,并且作為學術團隊我們也沒有相關的工程經驗,給大家造成非常不好的體驗和第一印象,在此向大家致以真誠的歉意。
團隊稱,MOSS 還是一個非常不成熟的模型,距離 ChatGPT 還有很長的路需要走。作為一個學術研究的實驗室無法做出和 ChatGPT 能力相近的模型,MOSS 只是想在百億規模參數上探索和驗證 ChatGPT 的技術路線,并且實現各種對話能力。
MOSS 可執行對話生成、編程、事實問答等一系列任務,打通了讓生成式語言模型理解人類意圖并具有對話能力的全部技術路徑。這條路徑的走通,為國內學術界和產業界提供了重要經驗,將助力大語言模型的進一步探索和應用。
企查查 APP 顯示,目前 MOSS 商標申請信息共 74 條,已有 32 枚商標被成功注冊,申請人包括進出口、電子商務、高新技術等領域的多家公司及多個自然人,商標國際分類包括科學儀器、珠寶鐘表、教育娛樂等,此外,目前仍有 3 枚 MOSS 商標正在注冊申請中。
團隊核心人物邱錫鵬
根據復旦大學計算機科學技術學院官網的介紹,邱錫鵬教授于復旦大學獲得理學學士和博士學位。研究方向為自然語言處理、深度學習,發表CCF-A/B類論文70余篇。主持開發了開源自然語言處理工具FudanNLP、FastNLP,獲得了學術界和產業界的廣泛使用。
邱錫鵬的研究方向是,圍繞自然語言處理的機器學習模型構建、學習算法和下游任務應用,包括:自然語言表示學習、預訓練模型、信息抽取、中文NLP、開源NLP系統、可信NLP技術、對話系統等。
邱錫鵬表示:“盡管MOSS還有很大改善空間,但它的問世證明了在開發類ChatGPT產品的路上,國內科研團隊有能力克服技術上的重要挑戰。”MOSS研發項目得到了上海人工智能實驗室的有力支持。后期,這項工作將通過開源方式和業界社區分享。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













