AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時代
工作人員齊整坐好,每個人都對著電腦全神貫注,一件又一件的“東西”在眼前劃過,經(jīng)過標準化處理就轉(zhuǎn)到下一流程……這實際上是人工智能行業(yè)里的數(shù)據(jù)標注辦公區(qū)一角。
由于深度學習的研究方向,人力密集型的數(shù)據(jù)標注工作是推進人工智能技術落地的重要環(huán)節(jié)之一。
很長一段時間以來,在過往AI的發(fā)展中數(shù)據(jù)的采集與標注行業(yè)沒有過多地被關注,畢竟,與算法、算力這些高大上的東西相比,AI數(shù)據(jù)的生產(chǎn)總帶著那么幾分與AI技術的“科技感”截然不同的形象。
然而,隨著AI的發(fā)展走向縱深,更多人發(fā)現(xiàn)這是一個誤解,AI數(shù)據(jù)產(chǎn)業(yè)正在向著高專業(yè)化、高質(zhì)量化的方向蓬勃發(fā)展。
根據(jù)2018年智研發(fā)布的《2019-2025年中國數(shù)據(jù)標注與審核行業(yè)市場專項分析研究及投資前景預測報告》,2018年該行業(yè)市場規(guī)模已達到52.55億元,2020年市場規(guī)模有望突破百億。有行業(yè)人士估計AI項目中會有10%的資金用于數(shù)據(jù)的采集和標記,2020年,數(shù)據(jù)標注行業(yè)最終市場規(guī)模將達到150億。
而分享市場的,既有BAT、京東等互聯(lián)網(wǎng)巨頭,也有云測數(shù)據(jù)這種專注于高質(zhì)量交付的專業(yè)化數(shù)據(jù)平臺。
龐大的前景下,數(shù)據(jù)采集與標注也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分,隨著數(shù)據(jù)需求量的增大、對數(shù)據(jù)質(zhì)量要求的提高,其中的NLP越來越成為“硬骨頭”,AI數(shù)據(jù)產(chǎn)業(yè)終將面臨它帶來的難題,也承襲這種難題下空出的市場空間。
AI的數(shù)據(jù)、算法和算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時代
芯片制程以及大規(guī)模并聯(lián)計算技術的發(fā)展,使得算力快速提升后,AI能力的提升主要集中到了算法和數(shù)據(jù)上(算力提升當然還有價值,只是相對價值那么明顯了,例如不可能對一個物聯(lián)網(wǎng)終端設備有太多的算力設定要求)。
這方面,多年以來,人工智能技術都呈現(xiàn)“輪流坐莊”的螺旋提升關系:
算法突破后,可容納的數(shù)據(jù)計算量往往變得很大,所以會迎來一波數(shù)據(jù)需求的高潮;而當AI數(shù)據(jù)通過某些方式達到一個新的程度時,原來的算法又“不夠了”,需要提升。
2018年11月,Google AI團隊推出劃時代的BERT模型,在NLP業(yè)內(nèi)引起巨大反響,認為是NLP領域里程碑式的進步,地位類似于更早期出現(xiàn)的Resnet相對于CV的價值。
以BERT為主的算法體系開始在AI領域大放異彩,從那時起,數(shù)據(jù)的重要性排在了NLP的首位。
加上兩個方面的因素,這等于把NLP數(shù)據(jù)采集與標注推到了更有挑戰(zhàn)的位置上。
一個因素,是NLP本身相對CV在AI數(shù)據(jù)方面的要求就更復雜。
CV是“感知型”AI,在數(shù)據(jù)方面有Ground Truth(近似理解為標準答案),例如在一個圖片中,車、人、車道線等是什么就是什么,在采集和標注時很難出現(xiàn)“感知錯誤”(圖片來源:云測數(shù)據(jù))

而NLP是“認知”型AI,依賴人的理解不同產(chǎn)生不同的意義,表達出各種需要揣測的意圖,Ground Truth是主觀的。
例如,“這房間就是個烤箱”可能是說房間的布局不好,但更有可能說的是里邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點,應用于AI時,需要被多方位、深度探索。
另一個因素,是AI數(shù)據(jù)的價值整體上由“飼料”到“奶粉”,對NLP而言這更有挑戰(zhàn)。
大部分算法在擁有足夠多常規(guī)標注數(shù)據(jù)的情況下,能夠?qū)⒆R別準確率提升到95%,而商業(yè)化落地的需求現(xiàn)在顯然不止于此,精細化、場景化、高質(zhì)量的數(shù)據(jù)成為關鍵點,從95% 再提升到99% 甚至99.9%需要大量高質(zhì)量的標注數(shù)據(jù),它們成為制約模型和算法突破瓶頸的關鍵指標。
但是,正如云測數(shù)據(jù)總經(jīng)理賈宇航所言,“圖像采標有很強的規(guī)則性,按照規(guī)范化的指導文檔工作即可,但NLP數(shù)據(jù)對應的是語言的豐富性,需要結(jié)合上下文等背景去理解和處理。”在高位提升這件事上,NLP數(shù)據(jù)更難。
例如,在訂機票這個看似簡單的AI對話場景中,想訂票的人會有多種表達,“有去上海的航班么”,“要出差,幫我查下機票”,“查下航班,下周二出發(fā)去上海”……自然語言有無窮多的組合表現(xiàn)出這個意圖,AI要“認得”它們,就需要大量高質(zhì)量的數(shù)據(jù)的訓練。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發(fā)展現(xiàn)狀與測試挑戰(zhàn)-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產(chǎn)未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 3 拐點已至!匯川領跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 4 L3自動駕駛延期,逼出車企技術自我淘汰
- 5 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 6 機器人9月大事件|3家國產(chǎn)機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 7 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機還是轉(zhuǎn)機?
- 8 7倍機器人大牛股:高管股東套現(xiàn)VS機構(gòu)兇猛抱團,該信誰?
- 9 八部門聯(lián)手放行L3自動駕駛!巨頭開始拼搶萬億市場?
- 10 OpenAI發(fā)布的AI瀏覽器,市場為何反應強烈?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













