推理電效: 被忽視的AI“命門”

“ 參數越大,燈泡越暗?”
文 | 王子
出品 | 極新
IEA(2025)的基線情景顯示:全球數據中心在 2024 年的耗電量約為 415 TWh,占全球用電的 1.5%;到 2030 年,這一數字可能翻倍至 945 TWh。其中,用于 AI 計算的加速型服務器貢獻了近一半的增量。
算力盡頭是電力,已是科技行業公認不爭的事實。
這意味著,掌握海量算力的企業,也必須承擔同樣龐大的能源賬單。
AI 競賽的下半場,打的就是電網和清潔能源。
但除了“加電”,或許還有另一條路徑——
大模型到底多費電?
先看量級感:
更大的模型 + 更長的訓練 → 更高的能耗

0.3–3 Wh/次 可作為“環境估算”的保守帶, 用這個“區間”算一筆“10 億次/天”的賬:
日耗電 = 10 億次 × (0.3–3 Wh/次) × PUE
= 0.33–4.7 GWh
≈ 1.6 萬–16 萬戶家庭/天[^3]
企業的經濟賬:

圖:2018–2023 年大型數據中心運營商及科技企業的用電量估算
圖片來源:IEA 4E TCP / EDNA,《Data Centre Energy Use: Critical Review of Models and Results》,2025.03
能源成為長期運營成本的重要部分:據麥肯錫早期測算,大模型部署可驅動企業幾萬至幾十萬美金的年度電費(以推理負載為主),成為可量化的運營支出——尤其推理成為“持續跑”的最大電耗單位。
基礎設施選址影響投資回報:數據顯示,美國至 2030 年數據中心電力需求將占國家電力增長近一半,電網重構和新增容量瓶頸讓站點選址更偏好“電力便宜且可靠地區”。部分企業開始選擇建在內蒙古、甘肅等風能豐富、價格較低的地區來部署大模型基礎設施。
企業拿綠電、簽能量協議實質減負:Google 與 Kairos Power 簽訂核電協議,為其美國 AI 數據中心提供未來清潔電力;此外,GridFree AI 初創業務以“就地供電”方式構建高效率數據中心,顯著降低運營預算。當電費成為企業賬單主項,低碳、低價格的電力供給本身已納入商業競爭策略。
AI 模型效率等于財務效率:GPT4o 的推理能耗若按當前查詢總量折算,一年電耗相當于 35,000 美國家庭;蒸發的冷卻水量能填滿 500 多個奧運泳池。“看不見的成本”變正在變得直觀。
最極端對比:GPT5,無論科技能力還是成本代價都在“跳級”:估計其每次推理消耗高達 18 Wh,假設每天 25 億次調用,每日功耗高達 45 GWh,等于 150 萬戶家庭一天用電,甚至幾座核電站的產出。

這筆賬,不僅企業要算,投資人也開始算了。
資本問句悄然轉變
過去幾年,資本市場對大模型的關注幾乎集中在“參數規模”和“模型性能”這兩項指標上,但如今風向正在發生變化。
隨著算力成本與電力賬單的急劇膨脹,投資人越來越意識到,真正決定 AI 商業可行性的,并非模型越大越好,而是推理電效——每一瓦時電力能產出多少推理結果。
高能效推理芯片初創 Positron AI 最近獲得 5,160 萬美元融資,投資人直言“改善推理能效是最大機會”;EnCharge AI 正計劃募資 1.5 億美元,其芯片能效據稱比英偉達產品高出 20 倍;英國初創 Lumai 嘗試用光學計算降低推理能耗,已獲逾 1,000 萬美元投資;而 Etched.ai 則憑借“一臺服務器替代 160 臺 H100”的節能優勢,拿下 1.2 億美元融資。
與此同時,能源巨頭也開始入場。Chevron 與 GE Vernova 等企業投資天然氣電廠,以專供數據中心;市場上甚至出現了“綠電算力期貨”的設想(即通過提前購買清潔電力額度來對沖未來的 AI 電耗風險)。這種資本邏輯,正在把 AI 的增長曲線與能源市場深度綁定。
科技巨頭同樣在用行動下注能源。OpenAI CEO 山姆·奧特曼多次強調,AI 的未來發展取決于能源突破,尤其是核聚變或廉價太陽能+儲能。他已向核聚變初創 Helion Energy 投資 3.75 億美元——這是其迄今為止最大的一筆個人投資。亞馬遜收購了核能開發商 X-energy,微軟在肯尼亞出資建設由地熱能驅動的數據中心,蘋果則在德克薩斯州投資了一座以氫儲能為核心的 100% 綠電數據中心,并在休斯頓啟動了將天然氣電改造為氫能綠電的項目。
大模型賽道的核心矛盾,正從“模型能不能做出來”,轉向“做出來的模型能不能高效、低碳、可持續地跑起來”。
如何降低這筆能源賬單?
答案:把“每個 token 的電”降下來。
降低每次推理所需的電力成本,已不再是單純的工程優化,而是決定 AI 服務能否規模化盈利的關鍵環節。
在實際應用中,這一差異往往被放大:
場景一:實時語音助手。假設兩個產品性能相同,但其中一個每千次推理耗電多 10%。在電費占據相當成本的情況下,這 10% 的能效差距可能足以抹平利潤,甚至將產品推向虧損。
場景二:邊緣端移動模型。在手機或離網設備上,能效直接決定用戶體驗。同樣的AI功能,若能耗更低,就意味著手機電池續航更長,或在電池容量固定的前提下,能夠處理更多用戶請求。
簡言之,推理電效比就是 AI 的“單位經濟學”。
提高推理能效,正是緩解“大模型吃電難題”的一條現實解法。
算法層面
推測解碼(Speculative Decoding)被認為是近年重要路徑。Heming Xia 等學者在論文 《Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding》 中梳理了相關進展:通過一個輕量級的“草稿模型”先生成候選,再由大模型驗證,大幅減少逐 token 的重復計算。
實驗結果顯示,推測解碼可帶來 2–3 倍的推理加速與能耗下降,等于同樣一度電能支撐的調用次數翻倍。推測解碼把“能效”從一個抽象的算法指標,變成了可以直接映射到電費和電池壽命的現實變量。

更長遠地看,如果我們把“推理電效比”作為產業競爭的共識指標,那么推測解碼就是推動其下降的第一代代表性技術。未來的 LLM 推理有望在“每瓦時能產出多少 token”這一指標上,逼近傳統芯片產業的摩爾定律式改進。屆時,AI 產業的成本曲線和能耗曲線才可能真正出現拐點。
模型壓縮
FP8/FP4 低精度、結構化稀疏、蒸餾和小模型化,已經在主流推理框架中落地應用,通常能在不顯著犧牲精度的前提下,帶來 30–60% 的能耗節省。
硬件升級
過去,單單訓練一個大型語言模型(LLM)的能源成本就可能高達 1.4 億美元,讓整個過程幾乎在經濟上不可承受。但隨著芯片架構的迭代,這一局面正在發生變化。
NVIDIA 聲稱其最新 Blackwell/GB200 架構在推理能效上比上一代 Hopper 提升 25 倍(從約 10 joules/token 降至 0.4)。
雖然這是供應商口徑,但這意味著,處理同樣規模的自然語言任務,所需的電力大幅減少,從而直接壓低了運營成本。

圖:GPU 從 Pascal 到 Blackwell 的迭代,使大模型訓練電費從逾 1.4 億美元降至不足 60 萬美元。
未來5年,誰有后發優勢?
在算力與電力的博弈中,美國與中國展現出兩種迥然不同的路徑。
美國:“敢投但難供”——資本勇、技術快,但電網吃緊
一方面,亞馬遜、谷歌、OpenAI等企業加快押注清潔能源;
另一方面,美國電網發出警告——東北部最大的電網運營商 PJM 報告稱,未來幾年電力供給難以滿足新建數據中心的需求;加州數據中心的負荷增長與實時電價走勢聯動,凸顯出電網升級壓力。
中國:“能建但難調”——裝機大、供給快,但煤電依賴與消納難題
一方面,在“東數西算”戰略下,東部的算力需求正與西部的風光水電優勢對接。截至 2024 年底,中國風電與太陽能裝機已突破 14 億千瓦,為數據中心提供了強勁的綠色電力支撐。
《仲量聯行數據中心投資報告》顯示,中國數據中心用電量持續攀升,預計到 2030 年將達到 4000 億千瓦時,占全國用電量約 3.7%。
與美國不同,中國政府通過“全國一盤棋”的調度方式,一邊大規模增建綠電,一邊統一優化電網與數據中心布局。但挑戰在于如何平衡煤電基底與清潔能源比例。
原文標題 : 推理電效:被忽視的AI“命門”
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













