凤凰网科技讯 12月29日,通义实验室多模态交互团队近日宣布开源其通用GUI智能体基座模型MAI-UI。该模型旨在通过理解屏幕界面并执行操作,完成跨应用、多步骤的复杂任务,例如查询车票、在通讯群组同步信息、调整会议安排等。
在更接近真实场景的MobileWorld测试集上,MAI-UI-235B-A22B整体成功率41.7%,比其他端到端模型高出20.8个百分点。在需要主动询问用户的任务上成功率37.5%,在需要调用MCP工具的任务上成功率51.1%,分别比之前最好的成绩高出32.1和18.7个百分点。
省流:我们基于 AutoGLM 和 GELab-Zero 这类 开源 GUI model ,构建了一个 GUI Agent --- OMG-Agent!已开源先是豆包手机证明 AI ...
在12月初,豆包与中兴旗下的努比亚共同推出了AI手机“努比亚M153”,这一举动迅速成为互联网和AI领域的热议焦点。豆包手机的最大亮点在于其具备在用户授权下自动操作手机的能力,能够高效完成复杂的长链路任务。这一创新不仅引发了国内的广泛讨论,也让海外市场倍感震撼。
此外,AI入口或许将重新改变硬件和软件生态的商业模式。在谈到和应用企业探索AI合作的未来商业模式变化时,姜昱辰表示,从功能机到智能机时代,手机企业的生态位是变好了,互联网收入或者渠道收入增多,到了AI时代,渠道收入预计仍会存在。“在和智能体探索合作,比如和支付宝的合作探索还在早期,甚至整个行业还处于早期,我们还在技术合作的阶段。” ...
在科技迅猛发展的今天,智能手机行业再一次迎来了革命性的变革。2025年12月初,豆包与中兴旗下努比亚携手推出了AI手机“努比亚M153”,这一创新产品瞬间成为了互联网和AI圈的热议焦点。豆包手机凭借其独特的设计理念,能够在用户授权的前提下自动执行复杂的任务,引发了国内外广泛的关注与讨论。
嘻疯 发自 凹非寺量子位 | 公众号 QbitAI3万台首批备货被一抢而空、在二手市场价格翻番的当红炸子鸡“豆包手机”,更多技术详情得到证实。事实证明,豆包手机助手技术预览版背后,是字节在“系统级GUI ...
近日,OPPO ColorOS 智慧产品研发总监姜昱辰在接受媒体采访时,阐述了 OPPO 在 AI 手机领域的发展路线,强调 GUI Agent 是当前技术的过渡形态未来将更倾向于 Agent to Agent(A2A)模式。此番言论恰逢字节跳动与努比亚联合推出的 “豆包 AI 手机” 引发广泛关注,后者通过语音指令实现跨 App 自动操作,成为行业热点。
在嵌入式系统开发中,选择一个合适的图形用户界面(GUI)库是至关重要的。在屏幕上显示的时候,使用现成的图形库,这样开发人员就不需要弄清楚底层任务,例如如何绘制像素、线条、形状,如果再高级一点,则可以绘制某些对象,例如窗口、按钮等。
近日,微软研究团队发布了一篇长达 80 页、逾 3 万字的综述论文《Large Language Model-Brained GUI Agents: A Survey》。这份综述系统梳理了大模型驱动的 GUI 智能体在现状、技术框架、挑战与应用等方面的研究进展。论文指出,通过将大语言模型(LLMs)与多模态模型(Visual Language Models, VLMs)相结合,GUI ...
凤凰网科技讯 12月29日,通义实验室多模态交互团队近日宣布开源其通用GUI智能体基座模型MAI-UI。该模型旨在通过理解屏幕界面并执行操作,完成跨应用、多步骤的复杂任务,例如查询车票、在通讯群组同步信息、调整会议安排等。 据介绍,MAI-UI具备在指令不 ...
DoNews12月17日消息,12月17日,阶跃星辰升级发布了全新的 AI Agent 系列模型「Step-GUI」,包括云端模型 Step-GUI、首个面向 GUI Agent 的 MCP 协议,以及业内首个支持手机部署的开源端侧模型 ...