久久er99热精品一区二区,中文字幕日产av,中文字幕在线天堂

大模型下半場：誰在掘金數據標注？

2025-09-02 16:51

新眸

關注

AI訓練下半場，數據成為關鍵詞。

新眸原創·作者 | 簡瑜

兩個月前，Meta豪擲約150億美元（約合人民幣1078億元）入股Scale AI，一舉拿下49%股份。交易完成后，Scale估值被推高至290億美元。

作為硅谷AI賽道近幾年最猛的黑馬，Scale AI從成立到估值飆升至138億美元，僅用了5年時間，幾乎創造了一個行業的神話。

這家公司的主業，是數據標注。低成本的員工門檻和海量的人工參與，這個看似枯燥且“苦力活”的領域，長期以來被視為是AI產業鏈里最不性感、最缺乏想象力的一環。

然而，正是憑借這門“臟活累活”，Scale在大模型時代迅速完成了從幕后到臺前的躍遷，成為硅谷最炙手可熱的明星公司。Meta的出手，則進一步將數據標注這個原本處于產業底層的環節，推向了聚光燈下。

更耐人尋味的是，這場收購并不僅僅是資本層面的“下注”。

作為交易的一部分，Scale創始人兼CEO汪滔將卸任，帶領部分核心員工加入Meta，組建所謂的「超級智能小組」，同時保留Scale董事會席位。換句話說，Meta買的不只是數據，更是汪滔本人的戰略眼光和執行能力。

這場來勢洶洶的收購背后，折射出的是Meta的數據焦慮。

2024年，Meta推出的Llama4Behemoth，曾因訓練數據質量問題飽受詬病，原因在于Llama4Behemoth約30%的語料源自低質量社交媒體內容，導致模型在多模態理解、長文本推理等核心指標上，仍落后GPT-4.5約12%。對Meta而言，缺乏高質量數據成為了限制其模型追趕的最大短板。

某種程度上，在AI模型訓練對數據依賴日益加深的當下，數據標注作為模型訓練的第一道防線，其戰略地位正在被重新估值。

從苦力活到智能化 數據標注進化之路

什么是數據標注？

一句話概括，就是給原始數據打上標簽，把“人類能理解的信息”轉化為“AI能識別的訓練樣本”。比如在自動駕駛場景中，采集車上傳的只是道路影像，但AI無法直接看懂。只有當人類標注員把車道線、路牌、行人等元素逐一框選、標記，這些影像才真正具備訓練價值。

在這個行業里，大致存在三類玩家：

第一類是純人力型公司。依靠大量低成本勞動力完成標注，適合做圖像分類、語音轉寫等標準化任務。技術門檻不高，客戶往往需要自帶工具和平臺，符合大眾對“數據標注就是體力活”的固有印象。

第二類是互聯網大廠的眾包平臺。典型代表如京東眾智、百度眾測，主要用于滿足公司自身業務場景需求，再通過眾包機制把任務拆解、分發給外部勞動力池。

第三類則是智能型服務商。這類公司具備自主研發平臺和算法能力，能提供自動化標注工具、質量控制體系以及高度定制化的解決方案，尤其擅長3D點云、多模態等復雜任務，往往在效率和準確性上顯著領先同行。

長期以來，前兩類公司本質上都是“人力堆砌型”企業，規模和利潤空間有限，天花板非常明顯。尤其是第一類，更多時候只是第三類智能公司的外包池子。事實上，今天大多數頭部智能型企業，幾乎都是從這種人力公司一步步進化而來。

以行業龍頭Scale AI為例，它的前身其實叫“ScaleAPI”。最初，它并不是一家數據平臺公司，而是提供一個“人力API”：開發者只需寫一行代碼，就能調度一支遠程勞動力團隊，幫忙完成內容審核、數據提取、預約安排等瑣碎任務。

這種以人工驅動的輕量模式，既幫Scale拿下了豐田、本田等早期大客戶，也積累了大量高價值數據。

有了基礎數據的積累，再加上AI能力的升級，自2018年起，Scale就開始逐步用模型替代掉部分重復性、套路化的人力工作，構建起一套“機器預標注+人工復核”的混合工作流。先由算法完成預標注，再由人工專家審核和修正。

這種AI代替的模式，為公司的效率和質量帶來了雙重提升。根據OpenAI的測算，ChatGPT的平均標注成本低于0.003美元，比傳統眾包平臺便宜20倍。而在準確率上，GPT-4完成的標注結果可達到88.4%，甚至超過了人類標注員的86.2%。

全球數據標注版圖：美國為何能占四成？

根據DMR（DimensionMarketResearch）在2024年7月發布的預測報告，全球數據標注行業市場規模約為20億美元，其中美國市場規模為8.38億美元，占據約40%的份額。這也是目前能查到的最新數據。

為什么美國能長期占據全球數據標注的主導地位？

一方面，數據標注本質上是人力密集型產業。標注員的工作門檻低、流動性大，導致人力幾乎成為成本控制的核心競爭力。

為了減輕組織壓力，企業通常會選擇外包或眾包的方式來派發項目。在這一點上，美國公司憑借全球化分工的優勢，將基礎標注任務外包給低成本國家，實現了極致的成本壓縮。

典型的例子，Scale AI通過旗下眾包平臺Remotasks，它將最基礎的框選標注任務分發給菲律賓、肯尼亞等低成本地區。除官網披露的900名正式員工外，其平臺上注冊工人超過24萬人，遍布全球。

其次，在技術水平和自動化程度上，國內外廠商存在明顯差距。目前國內最大的標注公司云測數據，早在2021年就嘗試引入自動標注功能，但應用范圍仍主要集中在智能駕駛領域；另一家專注語音的海天瑞聲，也在研發自動語音切割等工具，但整體智能化水平有限，仍高度依賴人工。

相比之下，Scale AI在2018年就布局自動化標注，雖然同樣是自動駕駛起家，但業務已經擴展到語言、金融、醫療甚至軍事等領域。

更重要的是，Scale AI不只是一家單純的數據標注商公司，此次 Meta重金挖走的汪滔，被稱為華裔“天才少年”，19歲那年從美國麻省理工學院輟學，創立Scale AI，在最近的一段采訪中，他提到，不僅是數據標注，在招聘流程、質控流程、數據分析、銷售報告等環節，Scale AI都已經實現了自動化管理。

某種程度上來說，作為一個因大模型訓練需求而誕生的行業，國內企業布局的短板，很大程度上是由市場需求的缺失所決定的。

數據標注最大的兩個服務場景分別是大模型和自動駕駛，而這兩個產業的絕對主力軍大多分布美國。出于數據天然涉及隱私和安全考量，企業更傾向于選擇本國標注商合作。

正因此，美國既孕育出了Scale這樣的全能型選手，還有surgeAI、Turing這樣面向微調服務，以及Lionbridge這樣面向文本、語音的數據公司。

相比之下，國內由于本身勞動力較為密集，互聯網大廠通常會采用眾包模式而非專門標注公司，且在部分模型采用蒸餾的前提下，國內市場需求要遠少于國外。

大模型下半場，數據標注地位正在反轉

隨著AI技術的快速迭代，業界曾一度流傳一種觀點：AI標注與合成數據將徹底取代人工標注。但就目前的技術現實而言，這種可能性依然遙遠。

AI標注的前提，是數據結構和規則高度明確，并且有充足的歷史樣本支撐。因此，它的應用范圍天然受限，目前仍只能覆蓋交通圖像、人臉識別等較為標準化的任務。

在工作流上，AI主要替代的是標注的中游環節，而規則制定、質量把關等關鍵節點，仍然需要人工介入。

與此同時，隨著大模型逐漸強調垂直化場景，訓練重心也從預訓練轉向了強化學習。不同于預訓練對數據質量要求相對寬松，強化學習更依賴高精細度和專業化數據，常常涉及醫療影像、法律文本、情感語言等高門檻領域。

這種變化使得標注員的角色愈發復雜。

他們不僅要具備專業知識，還需要抽象思維與跨學科能力。正如一位業內人士所說，如今的任務往往牽涉推理鏈條、多模態對齊等新場景，“早已不是簡單的框選和分類能夠解決的”。

Surge AI就是這一趨勢的典型代表。該公司自2020年創立起，就將核心放在高質量數據的生成上，例如為編程模型提供優質代碼數據，以提升模型性能。憑借這種定位，SurgeAI在2024年的營收已達到10億美元，甚至超越了行業老大Scale AI的8.7億美元。