大型语言模型(LLM)作为自动裁判(LLM-as-a-Judge),因其能灵活评估开放域答案质量,正迅速取代传统规则型奖励模型,成为强化学习可验证奖励(RLVR)的核心组件。 然而,腾讯AI实验室与普林斯顿大学揭露了一个惊人漏洞:仅需一个标点符号或一句通用推理 ...
2026年3月10日,65岁的杨立昆(Yann LeCun)在家乡法国创办的AMI Labs宣布完成10.3亿美元(约70.8亿元人民币)种子轮融资,公司投前估值达35亿美元(约240.7亿元人民币)。这是欧洲史上规模最大的种子轮融资。
真正的元凶是缺乏批次不变性。 就在今天,由 OpenAI 前 CTO Mira Murati 成立于今年 2 月的人工智能初创公司 Thinking Machines Lab,发了第一篇文章 ——《克服 LLM 推理中的不确定性》(Defeating Nondeterminism in LLM Inference)。 这篇博客属于 Thinking Machines Lab 新提出的博客 ...
在工业级大语言模型(LLM)应用中,动态适配任务与保留既有能力的 “自进化” 需求日益迫切。真实场景中,不同领域语言模式差异显著,LLM 需在学习新场景合规规则的同时,不丢失旧场景的判断能力。这正是大模型自进化核心诉求,即 “自主优化跨任务知识 ...
路由LLM开源基准RouterEval实现异构模型协同,突破单模型性能上限。 【导读】路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准,通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果