让智能体(Agent)自主操作图形用户界面(GUI)是实现通用人工智能的关键一步。但现有方案大多依赖文本表示与模块化框架,存在平台兼容性差、泛化能力弱以及需大量人工指导的问题;而端到端GUI智能体模型面临 GUI ...