云知聲發布 U2：為執行而生的原生智能體大模型，可自主拆解并完成 100+ 步復雜真實工作流

2026-06-08 09:42:35來源：今日熱點網

剛剛，云知聲正式發布新一代通用大語言模型——U2。

作為我們面向個人、開發者與組織打造的原生智能體大模型，U2的技術主張極為純粹：高智能密度 × 高Token價值。它不再盲目堆疊參數，而是追求高智能密度，用更少激活資源承載更強能力；不再簡單比拼輸出長度，而是追求高Token 價值，讓每一次調用都更接近交付結果。

與傳統大模型更偏向單輪問答或短鏈路生成不同，U2 更強調面向真實任務的連續執行能力。在復雜辦公、軟件工程、深度研究與多工具協同場景中，U2 能夠自主拆解并推進 100+ 步復雜工作流，將需求理解、任務規劃、環境交互、工具調用、過程糾錯與結果驗收串聯為完整閉環，從“給出答案”進一步走向“完成任務”。

權威評測進入第一梯隊，U2展現硬核實力

在最新發布的一系列國內外權威能力評測中， U2已經在多個關鍵能力方向進入主流大模型第一梯隊：

在衡量知識與復雜推理能力的 GPQA Diamond 上，U2 取得 87.9 分，超過 GLM-5.1、Hy3 preview、DeepSeek-V4-Flash（High）和 MiniMax M2.7，展現出對高難度知識問題的穩定理解、推理與求解能力。

在衡量真實軟件工程能力的 SWE-Bench Verified 上，U2 取得 75 分，進入主流模型第一梯隊。

而在面向自主 Agent 端到端執行能力的 Claw-Eval（pass@3）上，U2 取得 76.9 分，超過 Hy3 preview、DeepSeek-V4-Flash（High）和 MiniMax M2.7，進一步驗證了其在工具調用、流程編排與任務交付中的穩定表現。

在面向真實辦公與知識工作交付能力的 GDPval 上，U2 取得 72.9 分，展現出扎實的專業辦公能力。相比傳統問答式評測，GDPval 更關注模型能否完成真實工作場景中的高價值交付，包括資料分析、報告撰寫、表格處理、圖表生成、幻燈片制作等典型辦公任務。

這組成績背后，傳遞出一個重要信號：U2并不是以單點能力取勝，而是在推理、代碼、Agent和辦公交付等多項關鍵能力上形成了系統性表現。

混合思考 + Harness 聯合訓練：讓模型原生能力進入真實工作流

對云知聲而言，U2 不只是一個模型代號，更是我們對 AI 2.0 時代大模型價值的重新思考。我們認為，衡量今天的大模型價值，不能再單純比拼參數規模和內容生成長度。當 AI 真正進入真實工作流，用戶關心的不再只是模型能否給出一個漂亮回答，而是它能否真正把任務完成。

因此，U2 從設計之初，就不是一個單純面向聊天場景的通用模型，而是一款面向任務執行的原生智能體大模型。

要讓模型真正完成任務，僅靠更大的參數并不夠。真實工作流往往復雜、動態且長鏈路：模型既要能夠快速理解目標、拆解任務、搜索路徑，也要能在關鍵節點進行邏輯校準、約束檢查和結果驗證。傳統顯式思維鏈雖然具備較強可解釋性，但往往需要生成大量中間推理文本，帶來更高 Token 消耗與推理延遲；而完全依賴隱空間推理，雖然效率更高，卻可能在復雜任務中出現邏輯漂移，缺乏足夠的可控性與驗證能力。

為了解決這一矛盾，U2 創新引入混合思考機制。它并不是在顯式 CoT 與隱式推理之間二選一，而是在同一推理過程中，根據任務階段、復雜度和不確定性動態切換思考形態。

在任務早期，U2 優先在隱空間中進行高效探索，完成路徑搜索、任務拆解、候選方案生成與執行規劃，避免把每一步中間思考都解碼為可見 Token；當任務進入關鍵判斷、復雜約束處理或結果收斂階段，模型則切換到顯式推理，通過可讀、可校驗的推理過程完成邏輯校準、過程驗證與最終決策。

進一步地，U2引入可控隱空間展開（Bounded Latent Rollout）與熵感知切換（Entropy-aware Switching）機制，使模型能夠根據推理過程中的不確定性動態調整思考方式：當隱式探索穩定時，模型保持高效推理；當不確定性升高、推理路徑可能發散時，則及時回到顯式思維鏈，通過確定性 Token 完成精準推導與結果收斂。

這意味著，U2 并不是簡單縮短思維鏈，而是重構了模型的思考分工：把開放探索、路徑規劃等高消耗環節更多內化到隱空間，把邏輯驗證、約束校準和結果收斂留給顯式推理。由此，U2 能夠在減少無效推理步驟和冗余中間文本的同時，保持復雜任務中的可靠性與可控性，實現“少 Token，深思考”。

在知識底座上，U2 進一步通過高知識密度數據精篩提純技術，過濾重復、低質與幻覺數據，完成知識點級精煉萃取；并結合稀疏知識編碼與知識蒸餾架構，壓縮模型冗余參數，將高價值知識能力固化到更高效的模型結構中。

在任務執行層面，U2 引入 Agent-Harness 協同訓練范式。我們認為，Harness 不應只是外部套殼，而應該與模型能力共同進化。因此，U2 將模型原生 Agent 能力提升與 Harness 迭代優化納入同一訓練閉環：一方面，Harness 根據 U2 的模型特點持續優化任務執行鏈路；另一方面，真實任務中產生的高質量執行軌跡，又反過來強化模型的任務規劃、工具調用、過程糾錯和結果驗收能力。

而這一系列完整的閉環，最終要落到一套務實的訓練體系上。我們沒有讓 U2 只盯著正確答案死記硬背，而是通過課程學習、過程監督、軌跡對比與多維獎勵，教會它在復雜任務中如何規劃、執行、糾錯、驗收。配合 Agent-Harness 協同演進，U2 能夠在真實任務軌跡中持續強化長鏈路執行能力，真正從“能聊天”走向“能完成任務”。

三大核心能力，支撐任務交付閉環

圍繞真實任務交付，U2重點強化了Reasoning、Coding和Agent三大核心能力。

在Reasoning方面，U2強調低偏差執行和長程邏輯穩定性。面對復雜、多步驟任務時，模型不僅要能回答局部問題，更要能夠持續保持目標一致，動態權衡預算、時間、約束條件和可行路徑，最終輸出更優方案。

在Coding方面，U2不再局限于代碼生成，而是面向端到端工程交付。它能夠根據自然語言需求生成代碼，也能夠理解多文件項目結構，保持接口、依賴和調用邏輯一致，并在環境調試和自主Debug中持續推進任務完成。

在Agent方面，U2重點提升了多工具協同、長流程編排和環境交互能力。面對開放式目標，它能夠拆解任務優先級，理解API能力邊界，組合調用不同工具，并根據外部系統反饋調整執行策略。

這三類能力共同構成了U2的任務交付閉環：先理解和規劃，再執行和協作，最后校驗和交付。也正因為如此，U2更適合被放到真實工作場景中檢驗，而不是只停留在單輪對話或單點能力展示中。

應用場景：從單次回答到任務完成

U2 具備從需求理解到完整成果交付的自主任務執行能力，可廣泛應用于以下四類典型場景：

1. 全形態界面設計

響應式網頁開發：根據設計需求生成具備生產級布局、真實導航流程和完整交互狀態的多頁面網站，支持一鍵打包部署。

移動端 Web App：構建類原生社交應用，包括 Feed 流、Stories、發帖入口、通知、個人主頁、圖片網格及底部導航，所有資源本地化。

設計規范落地：自動約束色彩、字體、間距等樣式體系，同時適配 PC 與移動端，實現從視覺到代碼的端到端輸出。

Prompt:參考 [anotherescape.com](https://anotherescape.com/)，構建一個體現水獺和虎鯨智慧與魅力的中文網站。

要求：

- 純原生 HTML/CSS/JS，多頁面（首頁 + 6 個 Story 詳情頁），共享 CSS/JS

- 內容/圖片通過網絡搜索獲取，下載到本地 images/，不依賴圖床

- 編輯式極簡風格，深海藍+米白+珊瑚橙配色，響應式

- Story 頁參考 anotherescape.com 文章頁結構：面包屑 → 標題/作者 → 頭圖 → 正文 → 分享 → 相關推薦

- 提供 package.sh一鍵打包為 tar.gz / zip / 圖片-base64 內嵌的單文件 HTML

2. 深度研究分析

行業與政策研究：跨平臺檢索并清洗多源數據，輸出結構化研究報告，格式涵蓋 Word、PPT 及含動態交互圖表的 HTML 深度網頁。

數據可視化分析：自動生成時間軸、趨勢曲線、熱力圖等可交互圖表，支撐專家級分析與匯報。

多格式合規交付：支持一鍵導出符合排版規范的文檔，滿足內部分享、對外匯報等不同場景。

Prompt:（上傳文檔）把這份 50 頁 PDF 的要點與數據提出來，整理成報告，以html格式輸出。

3. 沉浸式可交互游戲開發

經典休閑游戲：獨立完成算法設計、代碼編寫與調試閉環，交付如俄羅斯方塊等可玩、可交互的 HTML5 游戲。

物理模擬器：基于真實物理公式構建多擺混沌系統、粒子運動等模擬器，支持參數調節與實時軌跡繪制。

Prompt:用網頁做一個經典的俄羅斯方塊小游戲，游戲規則和主流的一致就好，要求把所有代碼都寫在一個文件里，我保存后雙擊就能直接在瀏覽器里玩。游戲畫面要好看一點，支持用電腦鍵盤的方向鍵來控制方塊的移動和變形。還要有計分功能。

4. 高效辦公自動化

經營報告分析：跨系統抓取銷售、成本、庫存等核心指標，自動生成帶趨勢圖表與異常標注的可視化看板及 Word 報告。

行業全景分析：匯集市場格局、技術路線、政策驅動等數據，輸出交互式競爭矩陣與可演示 PPT。

周期性業務復盤：全自主編排數據清洗、交叉校驗與報告生成流程，實現組織核心業務復盤的自動化。

Prompt:請對新能源汽車行業進行全景式深度分析，包括市場規模、競爭格局、技術路線、政策環境及未來3年發展趨勢，輸出結構化研究報告。

要求輸出PPT格式的文檔，PPT的整體風格要極具高級審美，排版要清晰，信息層級明確。畫面以圖形、結構、色塊為主。配色統一，風格一致，有視覺系統感。比例為16:9。

對云知聲而言，U2 的發布不只是一次常規的模型升級，更是我們在原生智能體大模型長跑中的一次關鍵落子。

從榜單上的實測數據，到真實場景的交付閉環，我們希望用更高智能密度、更高Token價值，讓每一次調用都轉化為實實在在的生產力。

目前，U2 已經正式上線云知聲Token Hub，全面面向個人、開發者及組織開放。

歡迎體驗：https://maas.unisound.com/models/u2

免責聲明：市場有風險，選擇需謹慎！此文僅供參考，不作買賣依據。

關鍵詞：

責任編輯：孫知兵

免責聲明：本文僅代表作者個人觀點，與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。
如有問題，請聯系我們！

精彩推薦

搬運機器人板塊股票市值10大榜單（3月25日）

閱讀排行

深耕綠色供應鏈建設，家家悅打造威海零售業綠色升級樣板
下一篇2026-06-08 09:44:01
銅基安全，驅動未來論銅材料在提升新能源汽車安全性與可靠性中的核心價值（下篇）
上一篇2026-06-08 09:30:45

未經過本站允許請勿將本站內容傳播或復制業務QQ：302 369 7155

亚洲成av人片在www色猫咪_精品剧情在线观看_国产欧美一区二区在线_欧美一卡2卡3卡4卡

云知聲發布 U2：為執行而生的原生智能體大模型，可自主拆解并完成 100+ 步復雜真實工作流

精彩推薦

搬運機器人板塊股票市值10大榜單（3月25日）

閱讀排行

推薦閱讀