国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        大模型下半場:誰在掘金數據標注?

        2025-09-02 16:51
        新眸
        關注

        AI訓練下半場,數據成為關鍵詞。

        新眸原創·作者 | 簡瑜

        兩個月前,Meta豪擲約150億美元(約合人民幣1078億元)入股Scale AI,一舉拿下49%股份。交易完成后,Scale估值被推高至290億美元。

        作為硅谷AI賽道近幾年最猛的黑馬,Scale AI從成立到估值飆升至138億美元,僅用了5年時間,幾乎創造了一個行業的神話。

        這家公司的主業,是數據標注。低成本的員工門檻和海量的人工參與,這個看似枯燥且“苦力活”的領域,長期以來被視為是AI產業鏈里最不性感、最缺乏想象力的一環。

        然而,正是憑借這門“臟活累活”,Scale在大模型時代迅速完成了從幕后到臺前的躍遷,成為硅谷最炙手可熱的明星公司。Meta的出手,則進一步將數據標注這個原本處于產業底層的環節,推向了聚光燈下。

        更耐人尋味的是,這場收購并不僅僅是資本層面的“下注”。

        作為交易的一部分,Scale創始人兼CEO汪滔將卸任,帶領部分核心員工加入Meta,組建所謂的「超級智能小組」,同時保留Scale董事會席位。換句話說,Meta買的不只是數據,更是汪滔本人的戰略眼光和執行能力。

        這場來勢洶洶的收購背后,折射出的是Meta的數據焦慮。

        2024年,Meta推出的Llama4Behemoth,曾因訓練數據質量問題飽受詬病,原因在于Llama4Behemoth約30%的語料源自低質量社交媒體內容,導致模型在多模態理解、長文本推理等核心指標上,仍落后GPT-4.5約12%。對Meta而言,缺乏高質量數據成為了限制其模型追趕的最大短板。

        某種程度上,在AI模型訓練對數據依賴日益加深的當下,數據標注作為模型訓練的第一道防線,其戰略地位正在被重新估值。

        從苦力活到智能化 數據標注進化之路

        什么是數據標注?

        一句話概括,就是給原始數據打上標簽,把“人類能理解的信息”轉化為“AI能識別的訓練樣本”。比如在自動駕駛場景中,采集車上傳的只是道路影像,但AI無法直接看懂。只有當人類標注員把車道線、路牌、行人等元素逐一框選、標記,這些影像才真正具備訓練價值。

        在這個行業里,大致存在三類玩家:

        第一類是純人力型公司。依靠大量低成本勞動力完成標注,適合做圖像分類、語音轉寫等標準化任務。技術門檻不高,客戶往往需要自帶工具和平臺,符合大眾對“數據標注就是體力活”的固有印象。

        第二類是互聯網大廠的眾包平臺。典型代表如京東眾智、百度眾測,主要用于滿足公司自身業務場景需求,再通過眾包機制把任務拆解、分發給外部勞動力池。

        第三類則是智能型服務商。這類公司具備自主研發平臺和算法能力,能提供自動化標注工具、質量控制體系以及高度定制化的解決方案,尤其擅長3D點云、多模態等復雜任務,往往在效率和準確性上顯著領先同行。

        長期以來,前兩類公司本質上都是“人力堆砌型”企業,規模和利潤空間有限,天花板非常明顯。尤其是第一類,更多時候只是第三類智能公司的外包池子。事實上,今天大多數頭部智能型企業,幾乎都是從這種人力公司一步步進化而來。

        以行業龍頭Scale AI為例,它的前身其實叫“ScaleAPI”。最初,它并不是一家數據平臺公司,而是提供一個“人力API”:開發者只需寫一行代碼,就能調度一支遠程勞動力團隊,幫忙完成內容審核、數據提取、預約安排等瑣碎任務。

        這種以人工驅動的輕量模式,既幫Scale拿下了豐田、本田等早期大客戶,也積累了大量高價值數據。

        有了基礎數據的積累,再加上AI能力的升級,自2018年起,Scale就開始逐步用模型替代掉部分重復性、套路化的人力工作,構建起一套“機器預標注+人工復核”的混合工作流。先由算法完成預標注,再由人工專家審核和修正。

        這種AI代替的模式,為公司的效率和質量帶來了雙重提升。根據OpenAI的測算,ChatGPT的平均標注成本低于0.003美元,比傳統眾包平臺便宜20倍。而在準確率上,GPT-4完成的標注結果可達到88.4%,甚至超過了人類標注員的86.2%。

        全球數據標注版圖:美國為何能占四成?

        根據DMR(DimensionMarketResearch)在2024年7月發布的預測報告,全球數據標注行業市場規模約為20億美元,其中美國市場規模為8.38億美元,占據約40%的份額。這也是目前能查到的最新數據。

        為什么美國能長期占據全球數據標注的主導地位?

        一方面,數據標注本質上是人力密集型產業。標注員的工作門檻低、流動性大,導致人力幾乎成為成本控制的核心競爭力。

        為了減輕組織壓力,企業通常會選擇外包或眾包的方式來派發項目。在這一點上,美國公司憑借全球化分工的優勢,將基礎標注任務外包給低成本國家,實現了極致的成本壓縮。

        典型的例子,Scale AI通過旗下眾包平臺Remotasks,它將最基礎的框選標注任務分發給菲律賓、肯尼亞等低成本地區。除官網披露的900名正式員工外,其平臺上注冊工人超過24萬人,遍布全球。

        其次,在技術水平和自動化程度上,國內外廠商存在明顯差距。目前國內最大的標注公司云測數據,早在2021年就嘗試引入自動標注功能,但應用范圍仍主要集中在智能駕駛領域;另一家專注語音的海天瑞聲,也在研發自動語音切割等工具,但整體智能化水平有限,仍高度依賴人工。

        相比之下,Scale AI在2018年就布局自動化標注,雖然同樣是自動駕駛起家,但業務已經擴展到語言、金融、醫療甚至軍事等領域。

        更重要的是,Scale AI不只是一家單純的數據標注商公司,此次 Meta重金挖走的汪滔,被稱為華裔“天才少年”,19歲那年從美國麻省理工學院輟學,創立Scale AI,在最近的一段采訪中,他提到,不僅是數據標注,在招聘流程、質控流程、數據分析、銷售報告等環節,Scale AI都已經實現了自動化管理。

        某種程度上來說,作為一個因大模型訓練需求而誕生的行業,國內企業布局的短板,很大程度上是由市場需求的缺失所決定的。

        數據標注最大的兩個服務場景分別是大模型和自動駕駛,而這兩個產業的絕對主力軍大多分布美國。出于數據天然涉及隱私和安全考量,企業更傾向于選擇本國標注商合作。

        正因此,美國既孕育出了Scale這樣的全能型選手,還有surgeAI、Turing這樣面向微調服務,以及Lionbridge這樣面向文本、語音的數據公司。

        相比之下,國內由于本身勞動力較為密集,互聯網大廠通常會采用眾包模式而非專門標注公司,且在部分模型采用蒸餾的前提下,國內市場需求要遠少于國外。

        大模型下半場,數據標注地位正在反轉

        隨著AI技術的快速迭代,業界曾一度流傳一種觀點:AI標注與合成數據將徹底取代人工標注。但就目前的技術現實而言,這種可能性依然遙遠。

        AI標注的前提,是數據結構和規則高度明確,并且有充足的歷史樣本支撐。因此,它的應用范圍天然受限,目前仍只能覆蓋交通圖像、人臉識別等較為標準化的任務。

        在工作流上,AI主要替代的是標注的中游環節,而規則制定、質量把關等關鍵節點,仍然需要人工介入。

        與此同時,隨著大模型逐漸強調垂直化場景,訓練重心也從預訓練轉向了強化學習。不同于預訓練對數據質量要求相對寬松,強化學習更依賴高精細度和專業化數據,常常涉及醫療影像、法律文本、情感語言等高門檻領域。

        這種變化使得標注員的角色愈發復雜。

        他們不僅要具備專業知識,還需要抽象思維與跨學科能力。正如一位業內人士所說,如今的任務往往牽涉推理鏈條、多模態對齊等新場景,“早已不是簡單的框選和分類能夠解決的”。

        Surge AI就是這一趨勢的典型代表。該公司自2020年創立起,就將核心放在高質量數據的生成上,例如為編程模型提供優質代碼數據,以提升模型性能。憑借這種定位,SurgeAI在2024年的營收已達到10億美元,甚至超越了行業老大Scale AI的8.7億美元。

        另一條被寄予厚望的替代路徑是合成數據。理論上,它能夠在數據不足時填補空缺,但現實問題不容忽視:合成數據畢竟是在既有條件下生成的,當現實場景發生變化,它難以保持有效性;同時,數據安全風險也限制了其大規模泛化的可能。

        從這個角度來看,數據標注并不會消失,而是會向更高質量、更強專業化方向演進。

        回顧過去,數據標注長期被視為“三駕馬車”里最弱的一環:算法有OpenAI,算力有英偉達,而在數據標注領域,即便是行業龍頭Scale AI,其市值也不到OpenAI的十分之一。

        究其原因,很大程度上源于行業門檻低、收入上限有限。但當AI模型訓練進入下半場,數據標注的技術壁壘被不斷拔高,Meta對Scale AI的收購,只是一個開始,在不遠的將來,數據資源正在被推向產業競爭的核心。

               原文標題 : 大模型下半場:誰在掘金數據標注?

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 亚洲AV无码一区东京热久久| 成人AV毛片| 国产亚洲合集| 91在线播| 91超碰在线观看| 宁都县| 男人天堂2024手机在线| 久热久| 陵水| 蜜桃www草草精品视频区| 国产69精品久久久| 人人干干| 民勤县| 久久老司机| 久久综合国产| 临沂市| 人妻综合网| 蜜桃av网站| 日韩激情一区二区| 九九视频在线观看| 99在线观看视频| 瑞昌市| 中国老熟妇| 色偷偷免费视频| 通海县| 和静县| 姜堰市| 亚洲天堂色图| 日韩午夜福利| 江源县| 日本无码一区二区| 99久久久国产精品无码| yy19影院| 无码簧片| 宁海县| 国产v片| 阜宁县| 久久久久久久久熟女AV| 一区二区AV| 六安市| 张家界市|