大模型下半場:誰在掘金數據標注?

AI訓練下半場,數據成為關鍵詞。
新眸原創·作者 | 簡瑜
兩個月前,Meta豪擲約150億美元(約合人民幣1078億元)入股Scale AI,一舉拿下49%股份。交易完成后,Scale估值被推高至290億美元。
作為硅谷AI賽道近幾年最猛的黑馬,Scale AI從成立到估值飆升至138億美元,僅用了5年時間,幾乎創造了一個行業的神話。
這家公司的主業,是數據標注。低成本的員工門檻和海量的人工參與,這個看似枯燥且“苦力活”的領域,長期以來被視為是AI產業鏈里最不性感、最缺乏想象力的一環。
然而,正是憑借這門“臟活累活”,Scale在大模型時代迅速完成了從幕后到臺前的躍遷,成為硅谷最炙手可熱的明星公司。Meta的出手,則進一步將數據標注這個原本處于產業底層的環節,推向了聚光燈下。
更耐人尋味的是,這場收購并不僅僅是資本層面的“下注”。
作為交易的一部分,Scale創始人兼CEO汪滔將卸任,帶領部分核心員工加入Meta,組建所謂的「超級智能小組」,同時保留Scale董事會席位。換句話說,Meta買的不只是數據,更是汪滔本人的戰略眼光和執行能力。
這場來勢洶洶的收購背后,折射出的是Meta的數據焦慮。
2024年,Meta推出的Llama4Behemoth,曾因訓練數據質量問題飽受詬病,原因在于Llama4Behemoth約30%的語料源自低質量社交媒體內容,導致模型在多模態理解、長文本推理等核心指標上,仍落后GPT-4.5約12%。對Meta而言,缺乏高質量數據成為了限制其模型追趕的最大短板。
某種程度上,在AI模型訓練對數據依賴日益加深的當下,數據標注作為模型訓練的第一道防線,其戰略地位正在被重新估值。
從苦力活到智能化 數據標注進化之路
什么是數據標注?
一句話概括,就是給原始數據打上標簽,把“人類能理解的信息”轉化為“AI能識別的訓練樣本”。比如在自動駕駛場景中,采集車上傳的只是道路影像,但AI無法直接看懂。只有當人類標注員把車道線、路牌、行人等元素逐一框選、標記,這些影像才真正具備訓練價值。
在這個行業里,大致存在三類玩家:
第一類是純人力型公司。依靠大量低成本勞動力完成標注,適合做圖像分類、語音轉寫等標準化任務。技術門檻不高,客戶往往需要自帶工具和平臺,符合大眾對“數據標注就是體力活”的固有印象。
第二類是互聯網大廠的眾包平臺。典型代表如京東眾智、百度眾測,主要用于滿足公司自身業務場景需求,再通過眾包機制把任務拆解、分發給外部勞動力池。
第三類則是智能型服務商。這類公司具備自主研發平臺和算法能力,能提供自動化標注工具、質量控制體系以及高度定制化的解決方案,尤其擅長3D點云、多模態等復雜任務,往往在效率和準確性上顯著領先同行。
長期以來,前兩類公司本質上都是“人力堆砌型”企業,規模和利潤空間有限,天花板非常明顯。尤其是第一類,更多時候只是第三類智能公司的外包池子。事實上,今天大多數頭部智能型企業,幾乎都是從這種人力公司一步步進化而來。
以行業龍頭Scale AI為例,它的前身其實叫“ScaleAPI”。最初,它并不是一家數據平臺公司,而是提供一個“人力API”:開發者只需寫一行代碼,就能調度一支遠程勞動力團隊,幫忙完成內容審核、數據提取、預約安排等瑣碎任務。
這種以人工驅動的輕量模式,既幫Scale拿下了豐田、本田等早期大客戶,也積累了大量高價值數據。
有了基礎數據的積累,再加上AI能力的升級,自2018年起,Scale就開始逐步用模型替代掉部分重復性、套路化的人力工作,構建起一套“機器預標注+人工復核”的混合工作流。先由算法完成預標注,再由人工專家審核和修正。
這種AI代替的模式,為公司的效率和質量帶來了雙重提升。根據OpenAI的測算,ChatGPT的平均標注成本低于0.003美元,比傳統眾包平臺便宜20倍。而在準確率上,GPT-4完成的標注結果可達到88.4%,甚至超過了人類標注員的86.2%。
全球數據標注版圖:美國為何能占四成?
根據DMR(DimensionMarketResearch)在2024年7月發布的預測報告,全球數據標注行業市場規模約為20億美元,其中美國市場規模為8.38億美元,占據約40%的份額。這也是目前能查到的最新數據。
為什么美國能長期占據全球數據標注的主導地位?
一方面,數據標注本質上是人力密集型產業。標注員的工作門檻低、流動性大,導致人力幾乎成為成本控制的核心競爭力。
為了減輕組織壓力,企業通常會選擇外包或眾包的方式來派發項目。在這一點上,美國公司憑借全球化分工的優勢,將基礎標注任務外包給低成本國家,實現了極致的成本壓縮。
典型的例子,Scale AI通過旗下眾包平臺Remotasks,它將最基礎的框選標注任務分發給菲律賓、肯尼亞等低成本地區。除官網披露的900名正式員工外,其平臺上注冊工人超過24萬人,遍布全球。
其次,在技術水平和自動化程度上,國內外廠商存在明顯差距。目前國內最大的標注公司云測數據,早在2021年就嘗試引入自動標注功能,但應用范圍仍主要集中在智能駕駛領域;另一家專注語音的海天瑞聲,也在研發自動語音切割等工具,但整體智能化水平有限,仍高度依賴人工。
相比之下,Scale AI在2018年就布局自動化標注,雖然同樣是自動駕駛起家,但業務已經擴展到語言、金融、醫療甚至軍事等領域。
更重要的是,Scale AI不只是一家單純的數據標注商公司,此次 Meta重金挖走的汪滔,被稱為華裔“天才少年”,19歲那年從美國麻省理工學院輟學,創立Scale AI,在最近的一段采訪中,他提到,不僅是數據標注,在招聘流程、質控流程、數據分析、銷售報告等環節,Scale AI都已經實現了自動化管理。
某種程度上來說,作為一個因大模型訓練需求而誕生的行業,國內企業布局的短板,很大程度上是由市場需求的缺失所決定的。
數據標注最大的兩個服務場景分別是大模型和自動駕駛,而這兩個產業的絕對主力軍大多分布美國。出于數據天然涉及隱私和安全考量,企業更傾向于選擇本國標注商合作。
正因此,美國既孕育出了Scale這樣的全能型選手,還有surgeAI、Turing這樣面向微調服務,以及Lionbridge這樣面向文本、語音的數據公司。
相比之下,國內由于本身勞動力較為密集,互聯網大廠通常會采用眾包模式而非專門標注公司,且在部分模型采用蒸餾的前提下,國內市場需求要遠少于國外。
大模型下半場,數據標注地位正在反轉
隨著AI技術的快速迭代,業界曾一度流傳一種觀點:AI標注與合成數據將徹底取代人工標注。但就目前的技術現實而言,這種可能性依然遙遠。
AI標注的前提,是數據結構和規則高度明確,并且有充足的歷史樣本支撐。因此,它的應用范圍天然受限,目前仍只能覆蓋交通圖像、人臉識別等較為標準化的任務。
在工作流上,AI主要替代的是標注的中游環節,而規則制定、質量把關等關鍵節點,仍然需要人工介入。
與此同時,隨著大模型逐漸強調垂直化場景,訓練重心也從預訓練轉向了強化學習。不同于預訓練對數據質量要求相對寬松,強化學習更依賴高精細度和專業化數據,常常涉及醫療影像、法律文本、情感語言等高門檻領域。
這種變化使得標注員的角色愈發復雜。
他們不僅要具備專業知識,還需要抽象思維與跨學科能力。正如一位業內人士所說,如今的任務往往牽涉推理鏈條、多模態對齊等新場景,“早已不是簡單的框選和分類能夠解決的”。
Surge AI就是這一趨勢的典型代表。該公司自2020年創立起,就將核心放在高質量數據的生成上,例如為編程模型提供優質代碼數據,以提升模型性能。憑借這種定位,SurgeAI在2024年的營收已達到10億美元,甚至超越了行業老大Scale AI的8.7億美元。
另一條被寄予厚望的替代路徑是合成數據。理論上,它能夠在數據不足時填補空缺,但現實問題不容忽視:合成數據畢竟是在既有條件下生成的,當現實場景發生變化,它難以保持有效性;同時,數據安全風險也限制了其大規模泛化的可能。
從這個角度來看,數據標注并不會消失,而是會向更高質量、更強專業化方向演進。
回顧過去,數據標注長期被視為“三駕馬車”里最弱的一環:算法有OpenAI,算力有英偉達,而在數據標注領域,即便是行業龍頭Scale AI,其市值也不到OpenAI的十分之一。
究其原因,很大程度上源于行業門檻低、收入上限有限。但當AI模型訓練進入下半場,數據標注的技術壁壘被不斷拔高,Meta對Scale AI的收購,只是一個開始,在不遠的將來,數據資源正在被推向產業競爭的核心。
原文標題 : 大模型下半場:誰在掘金數據標注?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













