国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        2020 年 10 篇必讀的 NLP 突破論文 LIST

        2020-12-30 15:27
        學術頭條
        關注

        4、為長文檔而生的 Longformer

        Self-Attention 機制是成功實現 Transformer 體系結構的關鍵因素之一。但是,它也使得基于 Transformer 的模型很難應用于長文檔。

        現有技術通常將長輸入分成多個塊,然后再使用復雜的結構在這些塊中組合信息。艾倫人工智能研究所的研究團隊,則為這個問題介紹了一種更為優雅的解決方案。

        他們提出的 Longformer 采用了一種新的注意力模式,即將局部自注意力和全局自注意力相結合,在提高效率的同時又不失效果。這種關注機制與序列長度成線性比例,并可以處理具有數千個 tokens 的文檔。由于 sliding window 注意力模式的實現需要帶狀矩陣乘法的形式,而現有的深度學習庫(如 PyTorch 和 Tensorflow)不支持這種形式,因此作者還引入了自定義 CUDA 內核來實現這些注意力操作。

        實驗表明,Longformer 在字符級語言建模任務上取得了最先進的結果,并且在經過預培訓后,在長文檔任務上始終優于 RoBERTa。

        一句話總結現實影響:對于經常需要處理長文檔的下游 NLP 任務,Longformer 體系結構可能會有更明顯的優勢,這些任務包括文件分類、問答、共指解析、總結、語義搜索等。

        5、GAN 的巧妙運用之 ELECTRA

        諸如 BERT 和 XLNet 這類頗受歡迎的語言模型,在預訓練任務中會屏蔽一小部分未標記的輸入,然后訓練網絡以恢復此原始輸入。

        盡管這種名叫 MLM(Masked language modeling)的訓練方式效果很好,但是由于它只能從一小部分 tokens(通常約 15%)中學習,因此其數據效率并不是特別高。這種方式遷移到下游 NLP 任務時能夠得到較好的結果,但往往需要大量的算力。

        作為替代方案,斯坦福大學和谷歌大腦的研究人員基于 BERT 的模型,與 GAN 的想法相融合,提出一種新的預訓練方法 ——RTD ,replaced token detection。RTD 不會對輸入進行遮蔽,而是從生成器中采樣得到可信的 tokens,再替換掉原始輸入上的 tokens。

        結果顯示,該方法可顯著加快下游 NLP 任務的訓練速度并提高準確性:ELECTRA-Small 的 GLUE 得分為 79.9,優于同類的 BERT 模型(得分為 75.1)和更大的 GPT 模型(得分為 78.8);可與 XLNet 和 RoBERTa 媲美的 ELECTRA 模型,僅使用其預訓練計算量的 25%;ELECTRA-Large 在 GLUE 和 SQuAD 基準測試中優于其他最新模型,同時仍需要較少的預訓練計算。

        一句話總結現實影響:由于其計算效率高,ELECTRA 方法可使從業者更容易使用預訓練的文本編碼器。

        6、GPT-3 的誕生

        如果每一個新的語言任務都需要一個與之對應的、標簽化了的數據集,那這絕對會限制語言模型的適用性。

        考慮到語言任務的范圍很廣,而且通常很難收集到大量帶標注、可用于訓練的數據集,OpenAI 的研究人員提出了另一種解決方案,即擴大語言模型的規模,訓練出含 175 B 參數的 GPT-3。

        該團隊希望 GPT-3 能夠成為更通用化的 NLP 模型,解決當前 BERT 等模型的兩個不足之處:對領域內有標記數據的過分依賴,以及對于領域數據分布的過擬合。

        他們在三種不同的設置中評估了 GPT-3 :

        ?Few-shot learning,在推理時給模型一些任務演示(通常是 10 到 100),但不允許權重更新。

        ?One-shot learning,僅允許一次演示,以及對任務的自然語言描述。

        ?Zero-shot,不允許進行演示且模型只能訪問任務的自然語言描述時。

        這三種評估表明,只訓練了一個語言模型、沒有針對任何任務進行 Fine-tuning 的 GPT-3,可以完成多項 NLP 任務,并且每一項任務都可以得到很好的效果。

        也就是說,當將這樣的語言模型擴展到前所未有的參數數量時,該語言模型本身可以用作少樣本學習的工具,無需任何額外的訓練就可以在許多任務上取得非常有競爭力的表現。

        一句話總結現實影響:一個帶有 175B 參數的模型,其資源消耗也是不符合現實考慮的,但是如果研究人員設法將此模型精簡為可行的大小,則可以將其應用于各種語言任務,包括問答和廣告文案生成。

        <上一頁  1  2  3  4  下一頁>  
        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 老司机久久精品| 汾阳市| 日本99视频| 欧美高清性| 子洲县| 寿宁县| 中文字幕精品人妻| 人人操超碰| 柏乡县| 婷婷综合久久| 定结县| 狼友视区| 91资源在线| ww91在线观看| 亚洲天堂视频在线观看| 青青草欧美| 国模一区二区| 娱乐| 中文字幕AV在线| 88XV日韩| 亚洲无码久久| 无码久久久| 丁香婷婷中文字幕| 亚洲天堂无码| xxx精品| 人妻斩0930无码视频| 3p在线看| 武宣县| 色77777| 熟女亚洲观看| 嫩呦囯产一区二区三区| 耒阳市| av无码免费| 精品人妻V| 又粗又大网站| 亚洲最大的成人网| 国精产品一区一区三区有限公司杨 | 哈巴河县| 欧美啊v| 巩义市| 亚洲成人在线网站|