囯产精品一区二区三区AV做线,亚洲中文字幕日韩,中文字幕无码A片

訓(xùn)練18個(gè)月GPT-5跳票！AI大模型的泡沫要破裂了？

2024-12-24 16:55

OpenAI遭遇史上最大危機(jī)？

12月上旬到中旬，OpenAI召開(kāi)了為期12天的馬拉松式發(fā)布會(huì)，每天都會(huì)公布一些新產(chǎn)品或新技術(shù)，帶來(lái)了包括增強(qiáng)版o1大模型、文生視頻大模型Sora Turbo、精簡(jiǎn)版推理模型o3-mini，以及高級(jí)語(yǔ)音模式增強(qiáng)等成果。

然而連續(xù)12天的發(fā)布會(huì)，卻未能收獲太高熱度，即使是多款全面升級(jí)的大模型和文生視頻大模型Sora Turbo，討論度也十分有限，收到的吐槽可能比贊揚(yáng)更多。

（圖源：OpenAI）

其中的原因很簡(jiǎn)單，這些大模型功能確實(shí)更強(qiáng)了，可以幫助用戶完成更多任務(wù)，但沒(méi)有太多本質(zhì)上的提升。廣大用戶期盼已久的GPT-5沒(méi)有來(lái)，全新產(chǎn)品Sora Turbo也僅能生成最長(zhǎng)20秒鐘的1080P視頻，未達(dá)到其在2024年初宣傳的2分鐘時(shí)長(zhǎng)。

2023年3月GPT-4發(fā)布后，OpenAI就啟動(dòng)了代號(hào)為“Orion”（獵戶座）的GPT-5研發(fā)項(xiàng)目。OpenAI主要投資者微軟原計(jì)劃2024年中期看到GPT-5，結(jié)果18個(gè)月時(shí)間過(guò)去了，GPT-5卻依然難產(chǎn)。

面對(duì)遲遲未能發(fā)布的GPT-5，《華爾街日?qǐng)?bào)》表示，OpenAI的AI項(xiàng)目費(fèi)用極高，卻不清楚何時(shí)能成功，甚至難以確定究竟能否成功。還有人質(zhì)疑，問(wèn)題或許不在OpenAI身上，而在于AI行業(yè)的發(fā)展已進(jìn)入瓶頸。

耗資甚巨卻不見(jiàn)成效，OpenAI遭遇大麻煩

2023年中期，OpenAI啟動(dòng)了針對(duì)Orion的首次實(shí)戰(zhàn)測(cè)試項(xiàng)目，代號(hào)“Arrakis”。然而測(cè)試結(jié)果卻顯示，更大規(guī)模的AI大模型訓(xùn)練所需時(shí)間極長(zhǎng)，會(huì)導(dǎo)致整體成本飆升。

OpenAI工作人員認(rèn)為，Orion進(jìn)展緩慢的原因在于沒(méi)有足夠多的高質(zhì)量數(shù)據(jù)。早之前，OpenAI不斷從互聯(lián)網(wǎng)抓取數(shù)據(jù)，將新聞報(bào)道、社交媒體的帖子、科學(xué)論文等數(shù)據(jù)統(tǒng)統(tǒng)拿去訓(xùn)練大模型，甚至因此遭到加拿大Torstar Corp集團(tuán)的起訴。

然而現(xiàn)有的互聯(lián)網(wǎng)數(shù)據(jù)不夠訓(xùn)練出GPT-5，因此OpenAI想到了一個(gè)方案——原創(chuàng)數(shù)據(jù)。OpenAI正在招聘人員，負(fù)責(zé)編寫(xiě)軟件代碼或解決數(shù)學(xué)問(wèn)題，供Orion學(xué)習(xí)。顯而易見(jiàn)，該方案勢(shì)必導(dǎo)致Orion訓(xùn)練時(shí)間進(jìn)一步延長(zhǎng)，訓(xùn)練所需的成本也會(huì)大幅提高。

電腦與代碼及 AI (2).png

（圖源：AI生成）

2024年初，感受到同行的壓力后，OpenAI接連對(duì)Orion進(jìn)行了幾次小規(guī)模訓(xùn)練，并于5月到11月啟動(dòng)了第二次大規(guī)模訓(xùn)練，可數(shù)據(jù)量太少、數(shù)據(jù)多樣化不足的問(wèn)題依然存在。

OpenAI CEO山姆·奧特曼（Sam Altman）曾表示，訓(xùn)練GPT-4的費(fèi)用大約是1億美元，未來(lái)AI模型訓(xùn)練費(fèi)用將達(dá)到10億美元。而現(xiàn)在，GPT-5為期個(gè)月的訓(xùn)練已耗費(fèi)了5億美元，且未能取得理想的效果。

困擾OpenAI的不只是數(shù)據(jù)和成本，外部競(jìng)爭(zhēng)同樣關(guān)鍵。AI行業(yè)爆火后，對(duì)于人才的需求暴增，身為行業(yè)領(lǐng)頭羊的OpenAI，自然成了其他企業(yè)爭(zhēng)相挖墻腳的對(duì)象。OpenAI最初的11位聯(lián)合創(chuàng)始人，已有9人離職，首席技術(shù)官M(fèi)ira Murati、首席研究官Bob McGrew、研究副總裁Barret Zoph等高層也于2024年相繼離職。

另一方面，來(lái)自對(duì)手的競(jìng)爭(zhēng)迫使OpenAI開(kāi)拓更多賽道，如打造精簡(jiǎn)版的GPT-4和文生視頻大模型Sora等。知情人士稱(chēng)，這些新的項(xiàng)目導(dǎo)致OpenAI內(nèi)部新品開(kāi)發(fā)團(tuán)隊(duì)和Orion研究人員不得不爭(zhēng)搶有限的資源。

對(duì)于OpenAI而言，唯一值得慶幸的是，不只是OpenAI遇到了數(shù)據(jù)、資金問(wèn)題。曾在谷歌、OpenAI工作過(guò)的Ilya Sutskever直言，數(shù)據(jù)是AI的化石燃料，而這份燃料即將耗盡，但我們只有一個(gè)互聯(lián)網(wǎng)，最大化數(shù)據(jù)的時(shí)代已經(jīng)過(guò)去了。

正因如此，《華爾街日?qǐng)?bào)》才會(huì)質(zhì)疑GPT-5最終能否研發(fā)成功。但數(shù)據(jù)量的局限性，真的鎖死AI行業(yè)的發(fā)展了嗎？

賦予AI大模型思維能力，這是OpenAI的大餅？

盡管Orion項(xiàng)目耗費(fèi)了大量資金，但擁有微軟、蘋(píng)果等互聯(lián)網(wǎng)巨頭支持的OpenAI，暫時(shí)不缺資金，所缺的唯有數(shù)據(jù)和算力。

面對(duì)數(shù)據(jù)量不足的問(wèn)題，OpenAI研究人員想到了一個(gè)捷徑——給予AI大模型更長(zhǎng)的思考時(shí)間，去解決未經(jīng)訓(xùn)練的困難問(wèn)題。也就是說(shuō)，OpenAI要憑借賦予大模型思維能力的方法，規(guī)避數(shù)據(jù)量不足的問(wèn)題，令其可以像人類(lèi)一樣思考，去解決從未遇到類(lèi)型的問(wèn)題。

問(wèn)題是，AI大模型真的具有思維能力嗎？蘋(píng)果研究員在《理解大語(yǔ)言模型中數(shù)學(xué)推理局限性》論文中提出了異議，蘋(píng)果研究人員稱(chēng)，AI大模型只能套用現(xiàn)有模式，不具備真正的推理能力。蘋(píng)果還舉了一個(gè)奇異果測(cè)試案例，在該案例中，當(dāng)描述語(yǔ)加了句廢話“其中五個(gè)比平均較小”，GPT-4o mini便無(wú)法準(zhǔn)確計(jì)算奇異果數(shù)量。

在之前的文章中，小雷曾實(shí)測(cè)了該案例，GPT-4o mini雖計(jì)算失敗，但豆包、Kimi等多款大模型成功通過(guò)測(cè)試。另外，現(xiàn)在向AI大模型詢問(wèn)數(shù)學(xué)問(wèn)題，得到的回答通常會(huì)帶有解題思路，也能夠說(shuō)明大模型已不再是單純套用訓(xùn)練過(guò)的模式，而是根據(jù)一定的邏輯去解題。

通過(guò)這種方式，訓(xùn)練AI大模型所需的數(shù)據(jù)量自然會(huì)大幅減少，未來(lái)甚至有可能實(shí)現(xiàn)僅輸入數(shù)學(xué)公式就能解決相應(yīng)問(wèn)題。當(dāng)然，目前AI大模型的能力還沒(méi)有達(dá)到這種地步，高質(zhì)量數(shù)據(jù)依然不可或缺。

高質(zhì)量數(shù)據(jù)真的如Ilya Sutskever所言，被用完了嗎？小雷認(rèn)為，答案是否定的。準(zhǔn)確地說(shuō)，容易采集的數(shù)據(jù)被用完了。

訓(xùn)練AI大模型的數(shù)據(jù)主要有三大來(lái)源：第一，公開(kāi)數(shù)據(jù)，如部分機(jī)構(gòu)或組織公開(kāi)的開(kāi)源數(shù)據(jù)、互聯(lián)網(wǎng)上的帖子、論文等等，盡管互聯(lián)網(wǎng)數(shù)據(jù)也存在版權(quán)問(wèn)題，但審查并不嚴(yán)格，而且方便抓取；第二，自有數(shù)據(jù)，如阿里巴巴、小米等企業(yè)開(kāi)發(fā)AI大模型，完全可以使用平臺(tái)用戶積累的數(shù)據(jù)；第三，合作數(shù)據(jù)，AI公司與其他企業(yè)交換或購(gòu)買(mǎi)到的數(shù)據(jù)。

電腦與代碼及 AI (1).png

（圖源：AI生成）

被采集完的數(shù)據(jù)，主要指公開(kāi)數(shù)據(jù)和自有數(shù)據(jù)，合作數(shù)據(jù)還有極大的挖掘空間。例如在中國(guó)互聯(lián)網(wǎng)文化的發(fā)展歷程中，網(wǎng)頁(yè)端的占比沒(méi)有想象中大，大量數(shù)據(jù)集中在App開(kāi)發(fā)者手中，與開(kāi)發(fā)者合作互換或購(gòu)買(mǎi)這部分?jǐn)?shù)據(jù)，同樣可以用于訓(xùn)練大模型。另外，不少企業(yè)也會(huì)有一些保密數(shù)據(jù)，AI公司也可以買(mǎi)來(lái)訓(xùn)練大模型。

這些數(shù)據(jù)并未公開(kāi)，企業(yè)需要付出一定的成本才能獲取到，可能會(huì)增加AI公司訓(xùn)練大模型的成本。因而不少AI公司也在考慮，使用AI生成的數(shù)據(jù)或?qū)σ延袛?shù)據(jù)進(jìn)行變換處理，用于訓(xùn)練AI大模型。

不過(guò)AI創(chuàng)作的數(shù)據(jù)用于訓(xùn)練自身，可能會(huì)出現(xiàn)故障或生成無(wú)意義內(nèi)容，因而需要另一款A(yù)I大模型負(fù)責(zé)生成數(shù)據(jù)，以規(guī)避該問(wèn)題，這種方案同樣需要大量資金。

AI大模型的發(fā)展進(jìn)入了瓶頸，但遠(yuǎn)沒(méi)有到盡頭，只是AI企業(yè)獲取數(shù)據(jù)的成本飆升，且對(duì)于算力的需求更高。解決困境的方法也很簡(jiǎn)單，那就是盡快實(shí)現(xiàn)盈利。

AI大模型成了吞金獸，燒錢(qián)模式何時(shí)休？

前幾年元宇宙、區(qū)塊鏈、一滴血預(yù)測(cè)所有疾病等轟動(dòng)全球的泡沫接連被戳破，導(dǎo)致不少網(wǎng)友懷疑AI也是泡沫和騙局。就小雷的體驗(yàn)而言，AI已成為提高我們工作效率的好幫手，如本文多張配圖便是由AI生成，AI絕非泡沫，但資金問(wèn)題已然成為困擾AI技術(shù)發(fā)展的重要因素。

今年初，奧特曼曾表示，需要7萬(wàn)億資金重塑全球半導(dǎo)體行業(yè)格局，為AI大模型的訓(xùn)練提供足夠的算力支持。當(dāng)時(shí)幾乎所有人都認(rèn)為奧特曼的想法不切實(shí)際，NVIDIA CEO黃仁勛更是表示，目前全球數(shù)據(jù)中心總價(jià)值僅1萬(wàn)億美元。

現(xiàn)在看來(lái)，7萬(wàn)億美元都不見(jiàn)得能夠?qū)I行業(yè)推至巔峰，AI公司仍需為數(shù)據(jù)付出極高代價(jià)。沒(méi)有大量數(shù)據(jù)，AI大模型就難以產(chǎn)生質(zhì)變，若不能質(zhì)變，其帶來(lái)的價(jià)值不夠，又可能導(dǎo)致投資者放棄支持。在AI大模型一只腳踏入瓶頸的今天，盡快扭虧為盈方能激活A(yù)I行業(yè)。

當(dāng)前全球付費(fèi)版AI大模型的訂閱價(jià)格都相當(dāng)昂貴，行業(yè)領(lǐng)頭羊OpenAI推出的ChatGPT更是如此，ChatGPT Plus訂閱價(jià)格已高達(dá)20美元/月，更強(qiáng)的ChatGPT Pro則達(dá)到了驚人的200美元/月。

微信圖片_20241223202412.png

（圖源：ChatGPT截圖）

然而提高訂閱費(fèi)用就能實(shí)現(xiàn)盈利嗎？恐怕不行。愿意付費(fèi)使用的個(gè)人用戶始終是少數(shù)，唯有打造專(zhuān)業(yè)應(yīng)用場(chǎng)景，從企業(yè)身上賺錢(qián)，方能盡快實(shí)現(xiàn)盈利。更何況專(zhuān)業(yè)場(chǎng)景訓(xùn)練所需的數(shù)據(jù)和算力較少，能夠一定程度節(jié)省成本。C端市場(chǎng)向來(lái)錢(qián)少事多加眾口難調(diào)，可以暫時(shí)減少相關(guān)投入，以降低支出成本。

AI公司實(shí)現(xiàn)盈利后，投資者自然更有信心投入資金支持，公司也將有更多資金購(gòu)買(mǎi)數(shù)據(jù)和算力芯片，從而訓(xùn)練和提升AI大模型。

來(lái)源：雷科技

原文標(biāo)題 : 訓(xùn)練18個(gè)月GPT-5跳票！AI大模型的泡沫要破裂了？

OpenAI ChatGPT AI大模型 Sora GPT-5