LLM Lab - 搜索 News

一个标点就能迷惑LLM-as-a-Judge！腾讯AI Lab俞栋团队通过数据增强训练 ...

大型语言模型（LLM）作为自动裁判（LLM-as-a-Judge），因其能灵活评估开放域答案质量，正迅速取代传统规则型奖励模型，成为强化学习可验证奖励（RLVR）的核心组件。然而，腾讯AI实验室与普林斯顿大学揭露了一个惊人漏洞：仅需一个标点符号或一句通用推理 ...

Opinion

9 小时Opinion

原创杨立昆，两个月融了70.8亿

2026年3月10日，65岁的杨立昆（Yann LeCun）在家乡法国创办的AMI Labs宣布完成10.3亿美元（约70.8亿元人民币）种子轮融资，公司投前估值达35亿美元（约240.7亿元人民币）。这是欧洲史上规模最大的种子轮融资。

腾讯网

刚刚，Thinking Machines Lab首次发长文，揭开LLM推理不确定性真相

真正的元凶是缺乏批次不变性。就在今天，由 OpenAI 前 CTO Mira Murati 成立于今年 2 月的人工智能初创公司 Thinking Machines Lab，发了第一篇文章 ——《克服 LLM 推理中的不确定性》（Defeating Nondeterminism in LLM Inference）。这篇博客属于 Thinking Machines Lab 新提出的博客 ...

新浪网

LLM工业级自进化：北邮与腾讯AI Lab提出MoE-CL架构，解决大模型持续 ...

在工业级大语言模型（LLM）应用中，动态适配任务与保留既有能力的 “自进化” 需求日益迫切。真实场景中，不同领域语言模式差异显著，LLM 需在学习新场景合规规则的同时，不丢失旧场景的判断能力。这正是大模型自进化核心诉求，即 “自主优化跨任务知识 ...

36氪

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

路由LLM开源基准RouterEval实现异构模型协同，突破单模型性能上限。【导读】路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准，通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

一个标点就能迷惑LLM-as-a-Judge！腾讯AI Lab俞栋团队通过数据增强训练 ...

原创 杨立昆，两个月融了70.8亿

刚刚，Thinking Machines Lab首次发长文，揭开LLM推理不确定性真相

LLM工业级自进化：北邮与腾讯AI Lab提出MoE-CL架构，解决大模型持续 ...

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

原创杨立昆，两个月融了70.8亿