国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        AI研究員收集NLP數據的四種創意方法

        數據是推動AI發展的催化劑,但如果要收集有效的數據,這就需要AI專家富有創造性了。自然語言處理(NLP)是AI的一個子域,側重于教計算機如何解析人類語言。在MIT的年度自然語言處理實證方法會議(EMNLP 2018)中,來自微軟、臉譜網和谷歌等科技公司或組織的AI專家們介紹了一大系列收集信息的新穎方法,本文主要總結了其中令人印象深刻的四種方法。

        1. 混合語言(Spanish+English=Spanglish)

        微軟在多語種NLP的論文提出了一種專注于處理“混合語言”的方法,即在夾雜不同語言的文本或語音中自由切換,考慮到世界上超過一半的人口使用多語言,這個對此前未涉及領域的研究非常重要。

        研究人員從西班牙語和英語著手,不過他們缺少足量的西班牙語文本來訓練機器。正如混合代碼,很少能找到包含多語言會話的文本,研究人員編寫了一個程序克服這個挑戰:把流行英語文本錄入到微軟的必應翻譯器,然后將以詞組為單位翻譯的西班牙語譯文轉入源文本,確保交換的單詞和短語具備同樣的意思。通過這種方式,他們能夠創建出足夠多的西班牙式英語。

        通過這種方式產生的NLP模型明顯優于之前只用西班牙語或只用英語訓練的模型。研究人員希望他們的工作最終能幫助開發多語言聊天機器人。

        2. 食譜

        食譜以圖文并茂和循序漸進的方式教人如何做菜,類似這種的方法也可以被用來訓練機器:用結構數據教會機器同時理解文本和圖像。土耳其哈斯特帕大學的研究人員匯編了一套涵蓋兩萬多本插圖烹飪食譜的大型數據集,他們希望將此作為用于訓練機器文本-圖像理解性能的基準測試的新資源。

        這個所謂的“食譜QA”的數據集是建立在先前的研究基礎之上,此前的研究分別側重機器閱讀理解和視覺理解能力,對于前者,機器必須理解問題和相關段落才能找到答案,而對于后者,機器只能在相關圖像中搜索答案。文本和圖像的并排增加了任務的復雜性,因為這會呈現出互補或多余的信息。

        3. 短句

        谷歌希望用AI潤色散文,研究人員為此創造了有史以來最大的數據集:將長句縮減成短句,但兩者具備相同意義。在哪里才能找到大量的編輯數據呢?當然是維基百科了。

        研究團隊從維基百科豐富的編輯歷史中提取了拆分長句的實例,結果顯示,相比以前的基準數據集,這次任務中發現了60倍不同的句子拆分例子和90倍的詞匯單詞,而且數據集跨越多種語言。

        當研究人員用新的數據訓練機器學習模型時,其準確度(這里的準確度是指句子被重寫后其意義和語法保持正確的比例)高達91%,相比之下,用先前數據進行訓練的模型僅達到32%的準確度,最后,研究人員結合了兩個數據集并用此對第三個模型進行了訓練,準確度達到了95%。因此,研究人員得出結論,可以通過尋找更多的數據來源實現更好的效果。

        4. 社交媒體的偏差

        相關研究已表明,人類創造的語言是人類種族、性別和年齡很好的一個預測指標,即使這些信息從未被明確地陳述過。因此,以色列巴伊蘭大學和艾倫AI研究所的研究人員試圖利用AI通過移除這些內嵌指標來消除文本中的偏差。

        為了獲取足夠數據代表基于不同人口統計的語言模式,他們轉向了Twitter平臺,收集了幾組不同用戶的推文,其中的對比組用戶包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34歲和35歲以上。

        研究人員采用一種對抗方式將兩個神經網絡相互對立,查看其是否能自動除去推文中內在的人口統計指標。其中一個神經網絡試圖預測人口統計學,而另一個試圖將文本調整到完全中立的狀態,其目的是將第一個模型的預測準確度(或可能性)降低到50%。通過這種方式能顯著減低種族,性別和年齡的指標,但無法完全消除。

        聲明: 本網站所刊載信息,不代表OFweek觀點。刊用本站稿件,務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像,違者將依法追究法律責任。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 亚洲网在线| 91在线你懂的| 欧美性极品| 五月色情婷婷| 温宿县| 久热av性爱在线观看| 欧美丝袜另类| 岳乳丰满一区二区三区| 人妻福利| 久热av性爱在线观看| 通榆县| 婷婷丁香社区| 精品黑人一区二区三区国语馆| 内射网站| 欧美色熟妇| 蓝山县| 51超碰| 野花社区日本免费图片| 吉隆县| 亚洲成人经典| 一本一道无码中文字幕精品热| A片网| 第一福利成人AV导航| 吉林市| 国产xxxxx| 女生洗鸡鸡喷尿的视频无马赛克?舒坦直叫的骚货视频?亚洲着九九九视频影院 | 亚洲国产制服丝袜| 时尚| 欧美精品xxx| 国产熟女网站| 久久99精品视频| 金寨县| 久久99久久99精品免观看吃奶网| 久久久久中文字幕| 临西县| 久草在线观看视频| 99999精品| 中文字幕亚洲有码| 灯塔市| 日韩色区| 婷婷久久久|