大模型走到AI戰(zhàn)略分岔口,字節(jié)們面臨偏航危機(jī)


“不少AI企業(yè)追求“大而全”,面臨商業(yè)上的挑戰(zhàn)和市場(chǎng)規(guī)模的限制。盡管深度推理具有長(zhǎng)遠(yuǎn)價(jià)值,但敢于投入和堅(jiān)持的企業(yè)為數(shù)不多。 ”
@科技新知 原創(chuàng)
作者丨林書 編輯丨蕨影
最近,字節(jié)在AI方面又搞了個(gè)大新聞。
一個(gè)字節(jié)的實(shí)習(xí)生,因?yàn)閷?duì)團(tuán)隊(duì)資源分配不滿,用惡意代碼把模型訓(xùn)練過程給投了“毒”,字節(jié)這邊損失不小。
盡管“資源分配問題”這個(gè)說法還沒完全坐實(shí),但既然一個(gè)實(shí)習(xí)生,都能隨便對(duì)訓(xùn)練中的模型下毒手了,那至少說明,字節(jié)對(duì)文本模型的訓(xùn)練方面重視度不夠,因此才會(huì)出現(xiàn)“把關(guān)不嚴(yán)”的情況。
與文本大模型相比,字節(jié)在視頻方向上可謂打得火熱,推出了兩款最新的視頻模型PixelDance1和Seaweed2。

這種資源上的傾斜,反映的是國(guó)內(nèi)大廠在當(dāng)下LLM發(fā)展岔路上的關(guān)鍵分歧:算力資源有限的情況下,未來的大模型到底是要往視頻方向沖,還是繼續(xù)在文本上發(fā)力?
這樣的分歧,在OpenAI推出了能搞深度推理的o1模型后,顯得愈發(fā)棘手和關(guān)鍵。
01.
AI視頻硬傷,遭遇市場(chǎng)冷眼

在這樣的關(guān)鍵抉擇上,百度CEO李彥宏前兩天放了個(gè)大招,直接撂話說“百度不碰Sora類的視頻生成”。
原因就在于,在百度看來,現(xiàn)在的視頻大模型還不成氣候,離能真正進(jìn)行商用還早著呢。用李彥宏的話來說,“10年、20年都可能拿不到業(yè)務(wù)收益”。
而這樣的判斷,也并非空穴來風(fēng)。
據(jù)SimilarWeb統(tǒng)計(jì),位居全球前列的AI視頻生成企業(yè)Luma AI網(wǎng)站在9月的總訪問量?jī)H為1181萬次,環(huán)比下跌38.49%。

同樣地,身為AI視頻生成領(lǐng)域的“老大哥”的Runway在9月流量?jī)H755.8萬次,不及ChatGPT的1/400;
用戶不買賬,首先得從產(chǎn)品上找原因。
以國(guó)內(nèi)AI視頻生成模型為例,盡管從今年2月Sora出現(xiàn)后,國(guó)內(nèi)的大廠如快手、字節(jié)、智譜清言等,都推出了各自的視頻模型,但平心而論,目前所有的視頻模型都存在兩個(gè)難以掩蓋的短板:
其一,是難以做到成本、質(zhì)量二者兼具。

圖源:可靈
以快手的可靈為例,雖然其生成的效果,在國(guó)內(nèi)視頻模型中已算翹楚,但從成本上來說,其生成一個(gè)5秒的視頻,需消耗10個(gè)靈感值(1靈感值=1元),生成時(shí)間大約為2~5分鐘。
按照這樣的成本估算,如果要生成一分鐘的短視頻,用戶至少要花費(fèi)十余元,等上半個(gè)小時(shí)左右。
而且,這還沒算上由于AI理解不準(zhǔn)確,需要重新生成的情況,實(shí)際成本只會(huì)更高。

圖源:可靈
相較之下,身為國(guó)內(nèi)“AI六小虎”之一的智譜清言,雖然開放了可免費(fèi)使用的視頻模型“清影”,但其生成效果實(shí)在不敢恭維,其生成的畫面有一股濃濃的“90年代3D動(dòng)畫”的感覺。
況且,雖然免費(fèi)了,但其生成時(shí)長(zhǎng)還是沒打下來,用戶生成一個(gè)5秒的片段,照樣要等3~5分鐘。

圖源:智譜清言
AI視頻生成的另一大短板,便是那股始終揮之不去的“AI”味。
這幾乎是所有視頻模型的通病。
無論人物或物體的外觀,看起來多么真實(shí)、多么形似,可觀眾總覺得哪兒不對(duì)勁兒。有一種活生生的“恐怖谷”效應(yīng),看著就覺得渾身不自在。
說白了,這就是一種技術(shù)不到位的表現(xiàn)。
因?yàn)榇蠖鄶?shù)AI視頻生成算法,背后雖然在很努力地模仿現(xiàn)實(shí)世界的物理規(guī)則,模仿人和動(dòng)物的運(yùn)動(dòng)方式,但仍無法完全理解數(shù)據(jù)背后的語義和情感。因此生成的內(nèi)容,在某些細(xì)節(jié)上顯得缺乏“靈性”。

圖源:可靈
而這明顯的“AI”味,也成了當(dāng)下大眾對(duì)AI作品懷有偏見的重要原因。
由于上述短板的存在,目前火爆于各大視頻平臺(tái)的AI視頻,大都以“玩梗”“搞笑”為主,因?yàn)橹挥羞@類“不正經(jīng)”的視頻,才不會(huì)對(duì)生成的成本、效果有太高要求。
更悲哀的是,當(dāng)下的AI視頻賽道雖未大火,但早早面臨“未火先卷”的情況,多家AI視頻生成廠商都對(duì)功能進(jìn)行密集迭代,但大多是“錦上添花”而缺乏躍進(jìn)式體驗(yàn)升級(jí)。
以快手的可靈為例,其推出的運(yùn)鏡控制、高清生成、圖生視頻等功能,國(guó)內(nèi)的各大視頻生成類AI,例如智譜的清影、字節(jié)的即夢(mèng)也都有。

圖源:可靈
而這種同質(zhì)化的、聊勝于無的功能,并未能給用戶體驗(yàn)帶來大幅度的改善。
說到底,視頻生成類賽道的內(nèi)卷,本質(zhì)上是現(xiàn)在的LLM遇到瓶頸后,一種為了延續(xù)“AI故事”的無奈之舉,但悲哀的是,這樣的故事目前還沒有一個(gè)大廠能講好。
02.
數(shù)據(jù)枯竭下,深度推理或是救星

在各種訓(xùn)練數(shù)據(jù)行將耗盡的當(dāng)下,LLM的scaling law的神話該怎樣繼續(xù)?
在OpenAI 的o1模型發(fā)布后,人們意識(shí)到,這個(gè)問題的答案,就是強(qiáng)化學(xué)習(xí)。
對(duì)此,月之暗面的CEO楊植麟分析道:決定這一代AI技術(shù)的上限,核心是文本模型能力的上限。
從技術(shù)上來看,楊植麟此言非虛。
因?yàn)榧词乖诙嗄B(tài)任務(wù)中,文本層面的理解和推理也是必不可少的。以Sora為例,其訓(xùn)練數(shù)據(jù)包含了大量“視頻-文本對(duì)”,每個(gè)視頻片段都有對(duì)應(yīng)的詳細(xì)文本描述,這種配對(duì)方式,讓模型能夠建立文本語義和視覺表現(xiàn)之間的映射。
同時(shí),倘若視頻模型要想取得更大進(jìn)展,例如發(fā)展出完整的敘事結(jié)構(gòu),就要求文本模型有執(zhí)行復(fù)雜邏輯推理的能力。

如果文本模型無法規(guī)劃復(fù)雜敘事,視頻模型也難以突破這個(gè)上限。
因此,LLM未來的方向?qū)嶋H上已十分明了:文本模型決定了多模態(tài)的上限,而深度推理又決定了當(dāng)前文本模型的上限。
正因如此,在o1推出后,國(guó)內(nèi)的諸多大廠如字節(jié)、智譜清言、月之暗面等,都紛紛在自家的大模型中開通了“深度搜索”功能,這算是深度推理功能的聯(lián)網(wǎng)版本。
但從實(shí)際表現(xiàn)來看,并非所有廠商都在這方面表現(xiàn)得盡如人意。
在這里,我們以一個(gè)較為考驗(yàn)深度推理和分析能力的問題,來對(duì)字節(jié)、智譜清言、月之暗面各自的大模型進(jìn)行一番對(duì)比。
這個(gè)問題是:分析近三年全球智能手機(jī)市場(chǎng)的發(fā)展趨勢(shì),包括各大品牌的市占率變化、技術(shù)創(chuàng)新,以及消費(fèi)者偏好的變化。

圖源:豆包首先測(cè)評(píng)的,是字節(jié)的豆包大模型。
可以看到,雖然在整體的水準(zhǔn)上,確實(shí)有一些切中要害的關(guān)鍵點(diǎn),但在進(jìn)行回答時(shí),整體的內(nèi)容、結(jié)構(gòu)顯得十分臃腫、凌亂,并沒有做太多結(jié)構(gòu)化、精細(xì)化的處理,使用戶在閱讀時(shí),仍感到很大的閱讀負(fù)擔(dān)和壓力。

圖源:智譜清言
接下來測(cè)評(píng)的,是智譜清言的智譜AI。
可以看到,與豆包相比,智譜AI在進(jìn)行深度推理時(shí),結(jié)構(gòu)明顯比豆包更清晰、更有條理,且針對(duì)蘋果、三星、vivo等不同的品牌,具體列出了不同的市場(chǎng)表現(xiàn)、市場(chǎng)份額。
但從整體上來看,每一部分的總結(jié)與分析,仍顯得過于簡(jiǎn)略。

圖源:KIMI
最后登場(chǎng)的,是月之暗面的kimi。
在開啟深度搜索功能后,Kimi在信息的分析、總結(jié)上,表現(xiàn)出了更加細(xì)致、深入的特點(diǎn),不僅以不同的年份,詳細(xì)展示了不同品牌在市場(chǎng)中的份額變化,以凸顯趨勢(shì),且在對(duì)技術(shù)創(chuàng)新方面進(jìn)行分析時(shí),十分具體、細(xì)致地展示了不同年份中,不同品牌推出的具體技術(shù)。
綜合來看,Kimi在進(jìn)行復(fù)雜問題分析時(shí),其推理的深度、精細(xì)度,要顯著優(yōu)于豆包、智譜AI。
由此可見,目前在“深度推理”這一頗為考驗(yàn)LLM“內(nèi)功”的分水嶺上,國(guó)內(nèi)廠商已經(jīng)顯示出了顯著的差距。
03.
追求大而全,陷入戰(zhàn)略困境

如前所述,自從OpenAI推出o1后,當(dāng)下大模型的發(fā)展,已經(jīng)到了一個(gè)進(jìn)行戰(zhàn)略選擇的分岔口。
而在這關(guān)鍵的戰(zhàn)略分叉點(diǎn)上,國(guó)內(nèi)的部分大廠如字節(jié),由于自身布局于短視頻業(yè)務(wù)的巨大慣性,并未在深度推理方向進(jìn)行深耕,只是靠著低價(jià)競(jìng)爭(zhēng),以及“多而不精”的龐雜功能,才硬擠上國(guó)內(nèi)大模型排行榜的頭部。

圖源:豆包
據(jù)火山引擎總裁譚待介紹,“豆包主力模型在企業(yè)市場(chǎng)的定價(jià)只有0.0008元/千Tokens,比行業(yè)便宜99.3%。”
但一味地降價(jià)追求“性價(jià)比”,某種程度上透露出的是自身模型缺乏核心競(jìng)爭(zhēng)力的表現(xiàn)。
與字節(jié)類似,“AI六小虎”之一的智譜清言,也走上了一條追求“大而全”的路線。簡(jiǎn)言之,目前的智譜,也成了那種“繪畫、視頻、搜索都要一攬子拿下”的AI企業(yè)。

圖源:智譜清言
但實(shí)際上,這種“大而全”的追求,反映的是一種商業(yè)上的“困獸猶斗”。
這是因?yàn)椋壳皣?guó)內(nèi)企業(yè)主對(duì)軟件購(gòu)買意愿偏低,To B端大模型給企業(yè)帶來的價(jià)值仍處在割裂狀態(tài),2023年國(guó)內(nèi)大模型市場(chǎng)規(guī)模僅有50億元,2024年也僅增加到120億元。
在B端市場(chǎng)狹窄、C端又尚未打開的情況下,任何做大模型的企業(yè),唯有不停地融資、燒錢,橫向地?cái)U(kuò)展用戶,才能讓自己的模型活下來。
但這種跑馬圈地的邏輯,本質(zhì)上仍是互聯(lián)網(wǎng)時(shí)代的思維,這并不能真正地“救活”AI。因?yàn)榕c互聯(lián)網(wǎng)不同,AI產(chǎn)品的邊界,并不是由用戶數(shù)決定,而是由實(shí)打?qū)嵉募夹g(shù)力決定。

一個(gè)有些反直覺的現(xiàn)實(shí)是:與視頻生成這類耀眼的、更容易令人遐想聯(lián)翩的技術(shù)相比,真正能在C端帶來突破的,也許是深度推理這類既難啃又不性感的技術(shù)。
原因就在于,視頻生成主要服務(wù)創(chuàng)意表達(dá),應(yīng)用場(chǎng)景相對(duì)固定,用戶群體、變現(xiàn)模式都較為單一,其價(jià)值體現(xiàn)在內(nèi)容產(chǎn)出,ROI相對(duì)直觀。
從本質(zhì)上來說,它更像是一個(gè)效率工具,而不是一個(gè)能帶來顛覆性改變的技術(shù)。
相較之下,深度推理則屬于基礎(chǔ)認(rèn)知能力,可以賦能各類應(yīng)用,其突破可帶來各方向的普遍提升,且其能力可以遷移復(fù)用,更易于產(chǎn)生協(xié)同效應(yīng)。
更重要的是,隨著這項(xiàng)技術(shù)的發(fā)展,它對(duì)用戶的理解會(huì)越來越深入,提供的建議會(huì)越來越個(gè)性化和精準(zhǔn)。
這種持續(xù)學(xué)習(xí)和進(jìn)化的特性,讓其很難被簡(jiǎn)單的工具或服務(wù)所替代,這正是某些短命的“爆款應(yīng)用”所需要吸取的教訓(xùn)。
可惜的是,在這條難而正確的道路上,真正敢于堅(jiān)持并做出成就的企業(yè),目前仍屈指可數(shù)。
原文標(biāo)題 : 大模型走到AI戰(zhàn)略分岔口,字節(jié)們面臨偏航危機(jī)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-

員工持股爆雷?廣汽埃安緊急回應(yīng)
最新活動(dòng)更多
-
11月7日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月20日立即報(bào)名>> 【免費(fèi)下載】RISC-V芯片發(fā)展現(xiàn)狀與測(cè)試挑戰(zhàn)-白皮書
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
11月28日立即下載>> 【白皮書】精準(zhǔn)洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 海康威視數(shù)智系統(tǒng)“上崗”,重慶垃圾中轉(zhuǎn)站煥新
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 L3自動(dòng)駕駛延期,逼出車企技術(shù)自我淘汰
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 8 7倍機(jī)器人大牛股:高管股東套現(xiàn)VS機(jī)構(gòu)兇猛抱團(tuán),該信誰?
- 9 八部門聯(lián)手放行L3自動(dòng)駕駛!巨頭開始拼搶萬億市場(chǎng)?
- 10 京東回應(yīng)造車:不涉制造環(huán)節(jié),與廣汽暫無合資公司打算


分享





