研究人员正在当地功能使用(UI-NEXUS-Anchor)、中文正在线办事使用、英文正在线办事使用三个测试子集,共 100 个指令模板长进行了测试,次要结论有?。
:为了供给可控、可扩展的测试开辟,研究人员基于 AndroidWorld 的 20 个当地功能 App 建立了当地离线使命子集 UI-NEXUS-Anchor。该测试集中的使命能够通过数据库、文件系统、adb 东西精准设定,支撑使命指令可扩展性和测试可控性。
Agent-NEXUS支撑智能体的可插拔接入。正在本尝试中,研究人员测验考试了用 UI-TARS-7B-SFT 和 M3A 做为低阶施行模块的智能体。
研究人员针对支流的挪动端 GUI 智能体展开系统的研究。尝试显示,现有的挪动端 GUI 智能体正在面临复合长程使命时都具有较着的能力缺陷,展示出显著的原子使命到复合使命的泛化坚苦。
自动回忆正在复杂消息依赖的复合长程使命中带来更优的表示,可是每一步都判断能否回忆带来较大的计较冗余。Agent-NEXUS 通过将界面。消息收集、消息处置都显式正在高阶安排平分配好次序,正在开销可控的同时实现了多源消息的办理和整合。
:是语境传送型使命的一种特殊环境。正在设备操控中不只需要前进履做导向的推理以及消息的简单回忆,还需要融入通用推理能力对两头消息进行深度的处置和阐发。如图中的今日 Hacker News 摘要使命,Google Doc 中进行点击、滑动等操做,还需要操纵通用推理能力对当前页面的旧事内容做摘要阐发。
本文第一做者郭源是上海交通大学计较机系三年级本科生,研究标的目的为自从智能体和智能体平安。该工做由上海交通大学取澜舟科技配合完成。
本文不只全面、深切地切磋了当下挪动端智能体研究中火急需要深切挖掘的一个方面:复合长程使命,也憧憬了新一代 AI 操做系统的雏形。
比拟之下,基于开源规模范畴微调的 Agent-as-a-Model 正在短链操做内部逻辑、动做落实、推理速度等方面有显著劣势,但因为锻炼体例的,当面临选择等复合逻辑、动做和通用推理交织等使命需求时完全无法应对,容易呈现盲目施行的现象,需要借帮系统级的设想来加强。
2。多智能体使命安排系统 AGENT-NEXUS:提出轻量化安排框架,支撑指令分发、消息传送取历程办理。该系统无需点窜底层智能体模子,便于高效接入取多体协同。
UI-NEXUS 测试基准对各个挪动端 GUI 智能体 baseline 都形成很大挑和,各智能体的使命完成率均低于 50%?。
多模态大模子 (MLLM) 驱动的 OS 智能体正在单屏动做落实(如 ScreenSpot)、短链操做使命(如 AndroidControl)上展示出凸起的表示,标记着端侧使命从动化的初步成熟。
可是,实正在世界的用户需求常常包含复合长程使命,例如 “比力价钱并正在廉价的平单” 使命,需要正在多个使用法式中操做,收集和比力异源消息,并据此确定后续的操做步调;“查看今日热点旧事,归纳综合并记实” 的使命,需要正在多个网页之间,将设备操做取文本归纳综合的通用推理能力交织融合,并完成当令的消息传送。从简单有序使命到复杂有序和复杂无序使命的过渡是从单智能体基座加强到 AI 操做系统的必经之。当前支流的、动做落实和短序列轨迹微调等锻炼体例显著地提高了前述原子使命上的表示,可是复合长程使命带来了长链条进度办理、消息收集和传送、操做取通用思虑的连系等全新的挑和。
为了深切阐发原子到复合泛化的表示,研究人员拔取部门组合型和语境传送型使命进行了进一步的阐发尝试。研究人员对比了三种使命成功率。
研究人员正在常用手机使用上构制代表性的测试使命,针对支流的 OS-Atlas, UI-TARS, Mobile-Agent 系列,M3A 等挪动端 GUI 智能体进行初步尝试,发觉支流智能体正在复合长程使命上较着表示欠佳。
可是,实正在场景中的用户指令常常包含长程场景取复合依赖需求。本文根据子使命的依赖关系分类,给出了常见的三种使命复合类型。
:根据子使命的依赖关系,系统研究三种复合使命类型 —— 组合型(Simple Concatenation)、语境传送型(Context Transition)、深度阐发型(Deep Dive)。
2。工做流搭建(Agentic Workflow):凡是操纵 GPT-4o 等闭源模子辅以模块化设想来建立智能体工做流。如 M3A 是 AndroidWorld 中提出的手机智能体,每步推理时操纵 a11y tree 提取出元素列表做为辅帮输入,并利用 React 和 Reflexion 来前进履做推理和成果反思。Mobile-Agent-V2 和 Mobile-Agent-E 采纳多智能体协做的模式,并辅以 OCR 和元素标识表记标帜等模块,进行手机使命从动化。
该工做为复合长程使命下的挪动端智能体供给了有挑和性的测试基准和开辟平台,也为瞻望将来复杂、精细的 AI 原生操做系统成立了雏形。
:若干无依赖关系的原子子使命的拼接。并设定明早 7!00 的闹钟”!
跟着基座模子的持续加强和、单屏动做落实、静态轨迹微调、强化进修等锻炼策略的优化,基于多模态大模子的设备操控 GUI 智能体正在单屏动做落实(grounding)和短链操做使命上的测试表示持续提拔,曾经可以或许端到端地从动化施行收集搜刮等原子使命。
1。动态评测基准 UI-Nexus:建立可控的动态测评平台,笼盖复合型、传送型、深度阐发型等复杂长程使命,涵盖 50 类中英文使用(包罗当地功能使用和第三朴直在线 个使命模板,平均最优完成步数为 14。05 步。
:50 款 App(20 当地功能使用 + 30 中英正在线 条指令模板,最优径 14。05 步,难度显著高于同类基准。
:后续子使命需要承继并操纵前序使命发生的两头成果或界面形态,需要把消息 / 上下文准确地带到下一个 App 或页面。如图中先上彀搜刮气候预告,并按照搜刮成果发送微信动静的使命。
1。 间接将复合指令给定智能体,测试智能体的使命完成率,做为原子 - 复合泛化中的 Weak Performance。
AGENT-NEXUS 显著提拔使命完成率(+24% ~ +40%),同时仅带来约 8% 的推理开销增加。
2。 基于 GPT-4o 搭建的 Agentic Workflow 因为具有多智能体协做,复杂推理等机制,正在复合使命上的表示显著更优。可是,GPT-4o 正在 GUI 操做使命上的原生范畴能力比力无限,需要借帮元素列表、屏幕解析东西等辅帮,加之本身挪用成本较高,了现实使用的可行性。
3。 Memory 机制的设想正在处置复合长程使命中至关主要。当前挪动端智能体的 Memory 机制次要包含无回忆(如 OS-Atlas-Pro,只按照动做汗青和当前屏幕预测下一步动做,没有储存汗青消息的机制)、部门回忆(如 UI-TARS,每次输入前 N 张屏幕察看,必然程度上能够操纵前 N 张屏幕中的有益消息,可是正在多源、逾越较大的消息传送和整合中收到较大)。
Agent-NEXUS 安排框架无效地填补了原子到复合使命的泛化丧失,正在成本提拔可控的同时让使命完成率大幅提拔,迫近了 strong ceiling 的表示。
所有挪动端智能体 baseline 正在给定手动拆分后的原子指令时表示都显著更优,此中 UI-TARS 的差别特别显著,从 11% 间接提拔到了 60%。这是因为其正在微调后曾经锻炼了充实的 GUI 操做能力,而间接给定复合指令时的极低完成率次要受制于进度办理和消息办理功能的缺失。
基于 Agentic Workflow 实现的智能体正在复合长程使命上的鲁棒性显著优于基于 Agent-as-a-Model 的方式,可是基于 GPT-4o 的工做流带来很高的推理成本和时延,了现实场景的使用潜力。
正在每个子使命完成后,安排模块按照汗青历程消息和当前更新高阶使命规划,并将后续的第一个子方针传给施行模块的 Navigator/Analyst/Tool 进行具体落实。如许的条理化安排模式让低阶施行模块每次都收到企图明白的原子使命,减轻了语境过载的风险。
:记实端到端使命成功率、终止缘由、Token 成本取推理时延,对智能体的表示进行细粒度阐发。
对错误案例的详尽阐发显示,支流挪动端智能体因为缺乏无效的进度办理和消息办理机制等,展示出典型的失型,如。
正在将来,我们不只需要能根据一个指令为人类从动化完成简单操做的智能体模子,更但愿建立可以或许高效协调、处置、安排复合使命需求的系统级端侧智能。我们相信,当如许的评测基准取安排框架被普遍采用并不竭演进,挪动设备将实正为具备类操做系统条理智能的小我帮手,为人机协做打开新的想象空间。
为了对挪动端智能体正在复合长程使命上的表示供给科学全面的测试基准取开辟平台,研究人员提出了 UI-NEXUS:一个针对挪动端智能体复合使命的交互式测试基准。
建湖永乐高030net(中国)有限公司科技有限公司
2025-08-10 10:50
0515-68783888
免费服务热线
扫码进入手机站 |
网站地图 | | XML | © 2022 Copyright 江苏永乐高030net(中国)有限公司机械有限公司 All rights reserved.