description 多模态能力自动唤醒框架 - 让大模型自动识别并处理用户发送的各种媒体文件。 **核心能力:** 自动检测消息中的媒体引用标记([media:type:path]),使用通用工具处理: - image: 图片分析、OCR、场景识别(使用通用 `image` 工具) - audio: 语音转写、音频摘要 ...
这项由上海交通大学计算机科学团队主导的研究,以预印本形式发布于2026年4月,编号为arXiv:2604.03088v3,有兴趣深入了解的读者可通过该编号查阅完整论文。 假设你雇了一位助理,给他一本厚厚的工作手册,告诉他"按照手册里的步骤帮我完成任务"。如果这位 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果