得益于量化技术(GPTQ、AWQ)、推理框架优化(vLLM、TensorRT),DeepSeek的显存需求相比其他大模型可降低约30~70%。 大模型在RL阶段会出现很多高阶推理模式,而小模型因为容量和表示能力有限,很难在无监督或纯RL情境下学到类似水平。 蒸馏能将大模型的推理 ...
过去一年,大模型的能力曲线几乎是指数上升的——推理更强、工具调用更稳、上下文窗口越撑越大。但一个越来越尖锐的问题也随之浮出水面:模型变强了,可承接它的那层东西在哪? Agent 能写出漂亮的方案,却不记得昨天踩过的坑;能调用十几个工具,却 ...
作为清华“姚班”的传奇校友,他曾是IOI的银牌得主;作为OpenAI早期的核心成员,他亲历了那群被主流学界视为“神棍”的非主流天才如何用非共识打破了Google的围剿;而作为清华大学交叉信息研究院的助理教授和AReal项目负责人,他又在这个巨头林立的时代 ...