本实验旨在为游戏场景实时理解系统筛选合适的本地端视觉语言模型(VLM)。实验分为两个阶段:首先,我们设计了一套面向游戏截图与视频片段的评估框架(包含多维度评分标准和结构化 prompt),并通过 10 个 SOTA 大模型的校准实验验证该评估框架的合理性与 ...