国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        Claude發布全球首款混合推理模型,這會是AI的新標準?

        2025-02-26 11:34
        雷科技
        關注

        一個模型,兩種思考方式。

        北京時間 2 月 25 日,Anthropic 最新發布的 Claude 3.7 Sonnet 和 Claude Code,讓 AI 技術圈再次炸開了鍋。

        對于開發者來說,基于 Claude 3.7 Sonnet 模型打造 Claude Code 是一份意外驚喜。作為一個面向代碼編輯、測試和命令行交互的 AI 工具,Claude Code 的亮相迅速引發了開發者的熱議,很多開發者在進行了開發嘗試后,都在 X(原 Twitter)上直呼「哇塞」。

        有人用一句話就創建出了「立等可玩」的仿《我的世界》游戲:

        SCR-20250225-njwk.png

        圖/ X

        有人用一句話寫好了一個動效自然的天氣卡片:

        SCR-20250225-njpr.png

        圖/ X

        還有人用一句話直接生成了一個帶光影變化的 3D 城市:

        SCR-20250225-njlq.png

        圖/ X

        但如果把視角拉遠,從 AI 發展的產品策略來看,更值得關注的可能還是:Claude 3.7 Sonnet 是全球第一個混合推理模型。

        簡單來說,Claude 3.7 Sonnet 擁有標準模型和擴展模型(高級推理)兩種模式,前者是 Claude 3.5 Sonnet、(OpenAI)GPT-4o、DeepSeek V3 這類「傳統模型」,后者則是 DeepSeek R1、OpenAI o1 這類「推理模型」。

        但不同于 OpenAI、DeepSeek 將兩種模型獨立運行,Claude 3.7 Sonnet 選擇了「融合」:既可以像傳統模型那樣迅速給出回答,又能在復雜問題上調用更深層次的推理能力進行思考,并給出更好的回答。

         

        0D77E24E3F6F8DA3010FA181FB8EFF54B749A301_size1731_w640_h360.gif

        圖/ Claude

        在此之前,AI 需要在「快」和「準」之間做選擇。要么是 GPT-4o 這樣的傳統模型,獲得快速但不一定嚴謹的回答;要么轉向 DeepSeek R1 或 OpenAI o1 這樣的推理模型,等待更久,但換來更高的計算精度和更合理的回答。

        現在,Claude 3.7 Sonnet 試圖打破這個割裂,讓 AI 在效率和智能之間找到平衡,而 Anthropic 邁出的這一步,也在試圖定義 AI 未來的產品形態。

        Claude 3.7 Sonnet 升級,不只是編程能力提升

        和所有 AI 版本升級一樣,Claude 3.7 Sonnet 的強大,首先可以從各類 Benchmark 跑分中直觀地體現出來。

        在 MMLU(大規模多任務語言理解)、GSM8K(數學推理)和 HumanEval(代碼生成)等測試中,Claude 3.7 Sonnet 的表現全面超越 3.5 版本,甚至在部分任務上已經能與 Claude 3 Opus(教師模型)相媲美。

        Anthropic 甚至還讓 Claude 3.7 Sonnet 跑了《寶可夢》游戲測試,也展現出了超越前代模型的決策與規劃能力。

        claude-3-7-sonnet-progress-playing-pokemon-v0-PGZt7-GxEl_Se1X04Cea14WIuO_NNnXYTpS4YTZrhBk.jpeg

        圖/ Claude

        不過更明顯的升級,還是體現在代碼理解這類高度依賴推理能力的任務上,Claude 3.7 Sonnet 取得了跨代式的躍遷,本來就公認領先的軟件開發能力,又有了大幅提升。

        08bba4487fb5ac1ba52540ee656d7e4da10ca1be-1920x1145.jpeg

        圖/ Claude

        但跑分只是冰冷的數字,真正讓人印象深刻的,是它在實際應用中的表現。對于開發者來說,最直觀的感受來自編程能力的提升,Claude 3.7 Sonnet 能給出比前代更高效的代碼邏輯,甚至可以檢測潛在的安全漏洞,提出合理的修復方案。

        當然,Claude 3.7 Sonnet 在數學推理上的級也不可不提。之前 Claude 3.5 Sonnet 在 GSM8K 這類測試中表現并不算頂尖,偶爾還會翻車,給出錯誤答案。

        但 3.7 版本的升級,顯然補齊了這塊短板——有人測試發現,它在涉及多步推理的題目上正確率明顯提高,甚至可以在解答數學題時,自己檢查并修正推導過程,就像一個經驗豐富的考生,答完題后還會主動回頭檢查答案。

        而這一切提升,最終導向了 Claude 3.7 Sonnet 最核心的變革——混合推理模式。

        正如前文所提,Claude 3.7 Sonnet 在原本標準模型的基礎上融入了新的擴展模型,實現了「一個模型,兩種思考方式」,既能快速反應,又能深入思考。

         

        SCR-20250225-qtxv.png

        圖/ Claude

        作為 Claude 3.5 Sonnet 的升級版,Claude 3.7 Sonnet 除了編程和工具調用能力,在標準模式下的整體性能升級其實不大。而在擴展模式下,Claude 在回答前會進行自我反思(思考鏈),從而提高了在數學、物理、指令遵循、編碼和其他許多任務上的表現。

        更重要的是,你可以選擇何時讓模型正常回答,何時讓它思考更長的時間后再回答。同時針對 API 調用,Claude 3.7 Sonnet 還支持自定義「思考鏈」的長短限制,允許開發者根據實際場景在回答質量(以及成本)與速度之間進行權衡。

        推理模型的痛點,Claude 一招就破解了?

        OpenAI o1、DeepSeek R1 這類推理模型流行后,相信大家都發現了,雖然 推理模型確實在數學、代碼、邏輯推理等任務上遠勝傳統模型,但它們普遍存在一個致命短板:思考過程長、響應延遲明顯。

        輸入一個問題,往往要等待十幾秒甚至更長時間,才能得到答案。

        如果說面對復雜問題,推理模型往往能夠給出準確度更高的答案,值得等待;但如果只是日常聊天或信息檢索,這種等待顯然過于昂貴,更遑論推理模型的「幻覺」并沒有減少,甚至可能更高。

        這也導致,用戶如果想在「速度」和「深度」之間做選擇,就必須在兩個不同模型之間切換。比如,日常交流時用 GPT-4o 或者 DeepSeek V3,但如果遇到復雜的數學推理或者代碼邏輯問題,改用 OpenAI o1 或 DeepSeek R1 這類推理模型。

        V3vsR1_1.jpeg

        圖/ X

        但這種選擇真的「繞不開」嗎?在當前的技術架構下,AI 的推理能力和響應速度,幾乎是一個此消彼長的關系。推理模型的核心優勢是更強的邏輯能力,但代價是計算量更大,生成速度更慢,甚至需要額外的服務器資源支持。

        而這,正是 Claude 3.7 Sonnet 沒有簡單復制 o1 或 R1,而是選擇了「混合推理」模式的關鍵原因。

        采用混合推理模式,AI 可以在標準模式和擴展模式之間自由切換。打個比方,這就像是一個經驗豐富的咨詢師,面對簡單問題可以立刻給出答案,而面對復雜問題時,會停下來認真思考,而不是讓客戶自己去決定該用哪種方式。

        這也直接帶來了兩個好處:普通用戶不用煩擾選擇,開發者也可以靈活調整 AI 的思考方式。

        一方面,在普通對話、搜索信息、文案寫作等日常任務中,Claude 3.7 Sonnet 依舊保持流暢的響應速度,和 GPT-4o 這樣的模型表現類似。但當提出數學計算、編程、邏輯推理等高復雜度任務時,根據需要進行適度的「深度思考」,實現效果、體驗與成本的平衡。

        另一方面,在對實時性要求較高的場景或者應用(比如 AI 語音助手、客服系統)中,開發者可以盡可能縮短 AI 的思考鏈,甚至僅使用標準模型,保證最快地響應。可以在對精度要求較高的任務(比如代碼審計、法律分析、金融預測)中,適當調整模型推理的深度,讓 AI 更仔細地思考每個步驟。

        混合推理會成為AI主流趨勢?

        SCR-20250225-qudx.png

        圖/ Claude

        當然,混合推理模式并非完美無缺,比如 AI 如何判斷某個任務是否需要進入「深度推理」?這個判斷一旦出錯,要么導致延遲過長(不必要地進入深度模式),要么導致答案不夠精準(應該深度推理但沒有執行)。

        但從產品策略來看,它極有可能成為 AI 未來的主流趨勢。因為它抓住了一個核心問題:用戶并不想糾結于模型的選擇,只關心 AI 對話的結果和體驗。

        換句話說,如果 Anthropic 能進一步優化動態判斷的精準度,并通過 API 讓開發者可以更靈活地調整推理策略,「混合推理模式」可能會成為大模型發展的下一個標準配置。

        屆時,OpenAI 和 DeepSeek 等大模型廠商也可能會一起跟進,將自己的推理模型與傳統模型進行整合,共同促成一次 AI 產品范式的轉變。

        來源:雷科技

               原文標題 : Claude發布全球首款混合推理模型,這會是AI的新標準?

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 无码人妻AⅤ一区二区三区A片一 | 一色道久久88加勒比一| 91一区二区在线播放精品| jizz麻豆| 久久草视频在线| 施秉县| 亚洲v?a| 五月天成人社区| 枝江市| 亚洲AV电影冈| 色婷婷婷婷| 色婷婷色| 中文字幕乱码亚洲中文在线| 亚洲综合无码| 国产精品中文| 亚州精品熟女在线| 人人插人人| 黑人又大又粗免费视频| 国产中文在线| 小黄片入口| 国产av一区二区三区| 艳妇乳肉豪妇荡乳AV无码福利| 爆乳一区二区| 日本道久久综合88| 日本黄色免费看| 亚洲第一成年网| 新民市| 北条麻妃无码视频| 亚洲熟女视频| 亚洲video| 亚洲自偷精品视频自拍| 曰批免费40分钟免费观看软件 | 北海市| 淫色人妻网| 中文字幕熟女| 亚洲精品区| 涡阳县| 民县| 醴www,亚洲熟女,Com| 山东省| 亚洲福利|