美日韩一区二区三区,日本妓女精品一区二区,91精品激情,性感 内射 97,WWW.色99,中文字幕AV无码,久久人妻一二三四区,96人妻精品视频在线,少妇一区二区在线观看

首頁 > 財經 > 正文

來也科技OpenAPA框架刷新OSWorld紀錄并開源

2026-05-08 15:22:57來源:今報在線

近日,來也科技 OpenAPA 框架在 Computer Use Agent 計算機操控智能體的權威基準 OSWorld 上取得 78.3% 的成績,在 Agentic Framework 這一技術路線上位列全球第一。

OSWorld 是什么?Computer Use Agent 界的“高考”

如果說大語言模型的能力可以用 MMLU、GSM8K 這些考試衡量,那么AI 是否能像人一樣操作電腦,標尺就是 OSWorld。這個由 HKUNLP、CMU、Waterloo 等頂尖機構聯(lián)合發(fā)布的基準,已成為全球評估計算機操作智能體 的黃金標準——OpenAI、Anthropic、Google 發(fā)布最新模型時,均以 OSWorld 作為官方標尺。

OSWorld的“權威性”來自三點:

· 真實環(huán)境:在真實的 Ubuntu 和 Windows 系統(tǒng)中,用真實的 Chrome、VS Code、LibreOffice、Thunderbird 等應用完成任務,不是仿真、不是沙盒簡化版

· 真實任務:361 個由人類專家精心設計的任務,覆蓋辦公、編程、瀏覽、設計、系統(tǒng)管理等日常工作場景

· 客觀評分:每個任務都配有可執(zhí)行的驗證腳本,Agent 是否真正完成,由機器自動判定,不靠人工評價

讓我們看一個來自 OSWorld 的真實任務:

一個熟練的辦公人員完成它也需要不少時間。而對 Agent 來說,這個任務的難度至少體現(xiàn)在兩點:

· 超過 60 步的連續(xù)操作:從打開郵件客戶端、定位郵件、下載附件、查看已有文件命名、按規(guī)則重命名,到打開賬本、找到正確的 sheet 和行列、按既有格式填寫——任何一步出錯都會連鎖失敗

· 全過程需要推理與判斷:Agent 必須看懂賬單的內容,總結已有 PDF 文件的命名規(guī)律,理解賬本 Excel 中行、列及格式,而不是按照預設腳本機械執(zhí)行

這只是 361 個任務中的一個。每一個百分點的提升,背后都是工程與算法的硬仗。

兩條技術路線,OpenAPA 在其中一條上站到了最前面

要準確理解 OpenAPA 的成績,需要先區(qū)分 OSWorld 上的兩條主流技術路線

· 專用模型(Specialized Model)路線:通過在 GUI 操作數(shù)據(jù)上做大規(guī)模后訓練,得到“會操作計算機”的專用大模型,再搭配相對輕量的執(zhí)行層

· 通用模型 + Agentic Framework 路線:使用通用大模型(如 Gemini、Claude、GPT),依靠框架設計、規(guī)劃能力、多 Agent 協(xié)作、上下文工程等架構和工程創(chuàng)新驅動任務完成

兩條路線各有所長:專用模型對特定能力更“熟練”,通用框架則具備更強的可遷移性、可組合性和可控性——同一套框架可以隨著底層大模型的進步自動受益,也更適合企業(yè)根據(jù)自身業(yè)務與合規(guī)要求靈活調整框架。

OpenAPA 走的正是第二條路線,并在這條路線上以 78.3% 的成績取得了全球第一。這意味著,在不依賴專門訓練模型的前提下,僅通過架構與工程創(chuàng)新,Agent 框架+通用模型也能達到世界級的水平。

OpenAPA 的幾個關鍵創(chuàng)新

僅靠“通用模型 + Agent 框架”,OpenAPA 為什么能在 OSWorld 上跑出全球領先的成績?答案藏在它的架構設計里:

· 分層規(guī)劃 + 動態(tài)反思:初始規(guī)劃只定義“做什么”,不預先鎖死“怎么做”;反思模塊每一步基于最新截圖重新校準,有效抑制長程任務中的“越走越偏”。

· Coding Agent 和 GUI Agent 協(xié)作:Coding Agent 負責數(shù)值計算、數(shù)據(jù)清洗、文件解析等“程序化”工作,GUI Agent 專注視覺理解和執(zhí)行,兩者之間相互驗證、共享知識,兼顧效率與魯棒性。

· 面向長程任務的上下文工程:通過滑動窗口 + Token 預算機制,動態(tài)保留最近的關鍵截圖與推理軌跡,讓 100 步級別的長任務穩(wěn)定運行,Token 消耗降低 60% 以上。

· 推理與定位雙模型解耦:主推理模型負責任務理解與決策,專用視覺模型負責像素級坐標定位?!八伎肌焙汀翱础备魉酒渎?,避免單一模型兼顧兩頭但都做不到極致。

這些設計指向同一個目標:讓“通用模型 + 通用框架”,在真實世界的復雜任務中跑出專用系統(tǒng)才具備的可靠性。后續(xù)我們將有文章展開介紹 OpenAPA 的架構設計理念。

從 RPA 到 APA,再到 OpenAPA

企業(yè)級流程自動化,正在經歷一條清晰的演進路徑。

來也科技最近將 RPA 升級為 APA(Agentic Process Automation,智能體流程自動化),通過將智能體能力融入流程自動化的開發(fā)、執(zhí)行、維護全生命周期,讓企業(yè)級自動化變得更智能、更靈活、也更容易落地——過去需要 IT 團隊反復配置與維護的流程,如今可以由智能體基于目標自主完成,大幅降低了部署與變更的門檻。

而 OpenAPA 在 OSWorld 上探索的,是 APA 未來演進的下一條關鍵路徑——以 Computer Use Agent 為核心的“視覺驅動、語義理解、自主規(guī)劃、自我修復”范式,它不依賴固定的接口或腳本,而是像人一樣“看屏幕、做判斷、執(zhí)行操作”,這將為 APA 帶來了更強的界面理解、任務規(guī)劃和流程自愈能力。

來也科技已連續(xù)五年作為中國唯一廠商入選 Gartner 機器人流程自動化(RPA)魔力象限,同時也是中國唯一入選 Gartner 智能文檔處理(IDP)魔力象限和企業(yè)級對話式 AI 平臺魔力象限的廠商。來也科技已經通過 APA 證明了“智能體 × 流程自動化”的工程化價值,而 OpenAPA 則在更前沿的方向上,為未來的 APA 產品持續(xù)注入更靈活、更智能的能力輸入。兩者共同構成了來也科技對“下一代企業(yè)級自動化”的判斷與投入。

開源即刻可用

當 AI 學會看屏幕,企業(yè)流程自動化將不再止步于“按規(guī)則執(zhí)行”,而是走向“按目標自主完成”——來也科技愿意在這條演進之路上,作為持續(xù)的推動者和同行者。

Computer Use Agent 的發(fā)展還在早期,因此我們將 OpenAPA 開源,期待更多社區(qū)開發(fā)者和我們一起共同探索,共同成長,共同推進 Computer Use Agent 技術的發(fā)展:


免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。

關鍵詞:

責任編輯:孫知兵

免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯(lián)系我們!

關于我們 - 聯(lián)系方式 - 版權聲明 - 招聘信息 - 友鏈交換 - 網站統(tǒng)計
 

太平洋財富主辦 版權所有:太平洋財富網

?中國互聯(lián)網違法和不良信息舉報中心中國互聯(lián)網違法和不良信息舉報中心

Copyright© 2012-2020 太平洋財富網(m.lanye888.cn) All rights reserved.

未經過本站允許 請勿將本站內容傳播或復制 業(yè)務QQ:302 369 7155

 

湖口县| 南涧| 北辰区| 绵竹市| 嘉兴市| 郯城县| 荃湾区| 集贤县| 哈巴河县| 宁明县| 磐安县| 环江| 瑞安市| 科尔| 垦利县| 华亭县| 黄石市| 深水埗区| 吴忠市| 永定县| 凉山| 根河市| 佳木斯市| 萍乡市| 六安市| 屯门区| 镇安县| 左贡县| 桐庐县| 新沂市| 太白县| 奎屯市| 张北县| 古交市| 盐山县| 皋兰县| 泸溪县| 霍州市| 寿光市| 木里| 玉屏|