智东西8月30日消息,阿里通义千问于昨日开源新一代视觉语言模型Qwen2-VL。其中,Qwen2-VL-72B在大部分指标上都达到了最优,刷新了开源多模态模型的最好表现,甚至超过了GPT-4o和Claude 3.5 Sonnet等闭源模型。 据官方博客文章介绍,Qwen2-VL基于Qwen2打造,相比第一代Qwen ...
LeCun 的联合嵌入预测架构(JEPA)迎来了新进展。 近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。 据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果