來也科技OpenAPA框架刷新OSWorld紀錄并開源
近日,來也科技 OpenAPA 框架在 Computer Use Agent 計算機操控智能體的權威基準 OSWorld 上取得 78.3% 的成績,在 Agentic Framework 這一技術路線上位列全球第一。

OSWorld 是什么?Computer Use Agent 界的“高考”
如果說大語言模型的能力可以用 MMLU、GSM8K 這些考試衡量,那么AI 是否能像人一樣操作電腦,標尺就是 OSWorld。這個由 HKUNLP、CMU、Waterloo 等頂尖機構聯合發布的基準,已成為全球評估計算機操作智能體 的黃金標準——OpenAI、Anthropic、Google 發布最新模型時,均以 OSWorld 作為官方標尺。
OSWorld的“權威性”來自三點:
· 真實環境:在真實的 Ubuntu 和 Windows 系統中,用真實的 Chrome、VS Code、LibreOffice、Thunderbird 等應用完成任務,不是仿真、不是沙盒簡化版
· 真實任務:361 個由人類專家精心設計的任務,覆蓋辦公、編程、瀏覽、設計、系統管理等日常工作場景
· 客觀評分:每個任務都配有可執行的驗證腳本,Agent 是否真正完成,由機器自動判定,不靠人工評價
讓我們看一個來自 OSWorld 的真實任務:
一個熟練的辦公人員完成它也需要不少時間。而對 Agent 來說,這個任務的難度至少體現在兩點:
· 超過 60 步的連續操作:從打開郵件客戶端、定位郵件、下載附件、查看已有文件命名、按規則重命名,到打開賬本、找到正確的 sheet 和行列、按既有格式填寫——任何一步出錯都會連鎖失敗
· 全過程需要推理與判斷:Agent 必須看懂賬單的內容,總結已有 PDF 文件的命名規律,理解賬本 Excel 中行、列及格式,而不是按照預設腳本機械執行
這只是 361 個任務中的一個。每一個百分點的提升,背后都是工程與算法的硬仗。
兩條技術路線,OpenAPA 在其中一條上站到了最前面
要準確理解 OpenAPA 的成績,需要先區分 OSWorld 上的兩條主流技術路線:
· 專用模型(Specialized Model)路線:通過在 GUI 操作數據上做大規模后訓練,得到“會操作計算機”的專用大模型,再搭配相對輕量的執行層
· 通用模型 + Agentic Framework 路線:使用通用大模型(如 Gemini、Claude、GPT),依靠框架設計、規劃能力、多 Agent 協作、上下文工程等架構和工程創新驅動任務完成
兩條路線各有所長:專用模型對特定能力更“熟練”,通用框架則具備更強的可遷移性、可組合性和可控性——同一套框架可以隨著底層大模型的進步自動受益,也更適合企業根據自身業務與合規要求靈活調整框架。
OpenAPA 走的正是第二條路線,并在這條路線上以 78.3% 的成績取得了全球第一。這意味著,在不依賴專門訓練模型的前提下,僅通過架構與工程創新,Agent 框架+通用模型也能達到世界級的水平。
OpenAPA 的幾個關鍵創新
僅靠“通用模型 + Agent 框架”,OpenAPA 為什么能在 OSWorld 上跑出全球領先的成績?答案藏在它的架構設計里:
· 分層規劃 + 動態反思:初始規劃只定義“做什么”,不預先鎖死“怎么做”;反思模塊每一步基于最新截圖重新校準,有效抑制長程任務中的“越走越偏”。
· Coding Agent 和 GUI Agent 協作:Coding Agent 負責數值計算、數據清洗、文件解析等“程序化”工作,GUI Agent 專注視覺理解和執行,兩者之間相互驗證、共享知識,兼顧效率與魯棒性。
· 面向長程任務的上下文工程:通過滑動窗口 + Token 預算機制,動態保留最近的關鍵截圖與推理軌跡,讓 100 步級別的長任務穩定運行,Token 消耗降低 60% 以上。
· 推理與定位雙模型解耦:主推理模型負責任務理解與決策,專用視覺模型負責像素級坐標定位。“思考”和“看”各司其職,避免單一模型兼顧兩頭但都做不到極致。
這些設計指向同一個目標:讓“通用模型 + 通用框架”,在真實世界的復雜任務中跑出專用系統才具備的可靠性。后續我們將有文章展開介紹 OpenAPA 的架構設計理念。
從 RPA 到 APA,再到 OpenAPA
企業級流程自動化,正在經歷一條清晰的演進路徑。
來也科技最近將 RPA 升級為 APA(Agentic Process Automation,智能體流程自動化),通過將智能體能力融入流程自動化的開發、執行、維護全生命周期,讓企業級自動化變得更智能、更靈活、也更容易落地——過去需要 IT 團隊反復配置與維護的流程,如今可以由智能體基于目標自主完成,大幅降低了部署與變更的門檻。
而 OpenAPA 在 OSWorld 上探索的,是 APA 未來演進的下一條關鍵路徑——以 Computer Use Agent 為核心的“視覺驅動、語義理解、自主規劃、自我修復”范式,它不依賴固定的接口或腳本,而是像人一樣“看屏幕、做判斷、執行操作”,這將為 APA 帶來了更強的界面理解、任務規劃和流程自愈能力。
來也科技已連續五年作為中國唯一廠商入選 Gartner 機器人流程自動化(RPA)魔力象限,同時也是中國唯一入選 Gartner 智能文檔處理(IDP)魔力象限和企業級對話式 AI 平臺魔力象限的廠商。來也科技已經通過 APA 證明了“智能體 × 流程自動化”的工程化價值,而 OpenAPA 則在更前沿的方向上,為未來的 APA 產品持續注入更靈活、更智能的能力輸入。兩者共同構成了來也科技對“下一代企業級自動化”的判斷與投入。
開源即刻可用
當 AI 學會看屏幕,企業流程自動化將不再止步于“按規則執行”,而是走向“按目標自主完成”——來也科技愿意在這條演進之路上,作為持續的推動者和同行者。
Computer Use Agent 的發展還在早期,因此我們將 OpenAPA 開源,期待更多社區開發者和我們一起共同探索,共同成長,共同推進 Computer Use Agent 技術的發展:
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞:
責任編輯:孫知兵
免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯系我們!
- 多重邏輯支持行業景氣 電力ETF華夏投資價值凸顯2026-05-08
- 來也科技OpenAPA框架刷新OSWorld紀錄并開源2026-05-08
- 國際十大現貨黃金正規平臺品牌一覽20262026-05-08
- 香港排名前五的外盤貴金屬交易平臺排名(2026版)2026-05-08
- 皇雅門窗南京工廠十周年盛典暨品牌升級峰會圓滿成功!2026-05-08
- 2026年怎么選?這4點幫你篩出靠譜的炒黃金交易平臺2026-05-08
- 康養塑形,門店必爭!蝶姿蘭“輕姿產”全球發布會圓滿收官2026-05-08
- 高頓AI行研大賽如何幫助大學生建立商業洞察2026-05-08
- 國際前十主流版黃金期貨交易平臺排名榜單(2026最新版)2026-05-08
- 聚勢·啟新·向未來|“姆愛優生活”品牌啟動會盛大舉行2026-05-08
- 伊的家高級護膚達人王煥鑫老師:持續精進的專業護膚之路2026-05-08
- 普通人如何投資黃金?在哪個平臺投資黃金合規安全?2026-05-08
- 告別 Excel 算傭!eRoad 以 AI 重構薪酬激勵,傭金零誤差2026-05-08
- 2026香港現貨黃金交易平臺排名(權威前十強)2026-05-08
- 在國內炒黃金用什么交易軟件比較好?2026-05-08
- 合眾遠景 智能金融時代的領航者——解碼核心優勢2026-05-08
- ?業績拐點顯現!海目星集團邁入“多極驅動”增長周期2026-05-08
- 91團幫:讓消費“轉”起來,讓經濟“暖”起來!2026-05-08
- 連連數字亮相第九屆數字中國建設峰會 加速推進AI原生智能金融新基建落地2026-05-08
- 買房避坑|「壹沐」這個盤到底火在哪兒?2026-05-08
- 僑興南粵聚合力 粵企出海添新能2026-05-08
- 網上保險平臺怎么選?慧擇保險網領跑全風險防御賽道2026-05-08
- 廣東僑助出海專輯發布 覆蓋兩百余個優質項目2026-05-08
- 為什么外地考生慕名來濰坊?奇小丫個性化面試輔導真的香2026-05-08
- 國際前十專業外盤期貨交易APP軟件平臺獨家排名(最新版)2026-05-08
- 倫敦金交易所有哪些國際知名的(名單信息)2026-05-08
- 為全球生物醫藥嚴苛標準打造,ACROBiosystems百普賽斯SAFENSURE?全面布局生物醫藥安全性指標檢測2026-05-08
- 嗯哼:深耕行業鑄就實力,精準判斷書寫新生代傳奇2026-05-08
- 黃金投資在哪開戶?2026最新指南2026-05-08
- 僑鄉優勢賦能雙向經貿 助力廣東高質量發展2026-05-08
精彩推薦
- 一眼心動!蘇超“八俊圖”火爆出圈 定格足球“名場面”
- 關注:世名科技:江蘇鋒暉累計質押股數為2337萬股
- 訊息:倫敦世乒賽團體賽開賽
- 圖|鄉村振興注入“科技buff”
- “熊貓專列·錦繡天府號”在蓉首發 精彩看點
- 網易有道云筆記推出“LLM Wiki”技能套件
- 生意社:4月27日河南地區螢石市場行情暫穩|消息
- 自2020/21賽季以來,阿森納首次實現聯賽雙殺紐卡
- 大摩:維持上海醫藥(02607)“增持”評級 目標價降至15.8港元_每日速遞
- 微頭條丨快閃|湖南“引才專列”開往重慶,超多心動offer等你來!
- PriceSeek重點提醒:利華益維遠上調丙酮價格|觀速訊
- 德國DAX指數連續四日收跌 地緣緊張與通脹壓力拖累歐元區經濟
- 隊史首次闖進季后賽!寧波男籃官宣:與NBL場均20+8內線完成簽約-視焦點訊
- 焦點快播:A股午評:創業板指跌1.83%,超4300股下跌,CPO概念股普遍回調
- 廈門金租2025年營收同比增長48% 實現凈利1.64億元 今日快看





中國互聯網違法和不良信息舉報中心