为方便社区使用,OCR-Reasoning 评测代码已集成至 VLMevalkit 工具包,支持研究者一键进行评估,极大提升效率。 OCR-Reasoning 基准的发布,填补了OCR场景下复杂推理能力评估的空白,为多模态推理模型的研发与优化提供了重要的评测依据和方向指引。
"We identified a profound duality in our research: when the proof difficulty of a geometric proposition is far higher than its construction complexity, it possesses 'aesthetic value' as an ...
清华和微软刚刚发布了一篇非常硬核但也极具启发性的论文,题为《Vibe Reasoning:引出前沿AI的数学能力》。 研究者发现,目前的顶尖AI模型(如GPT-5和Gemini 3 Pro)其实已经掌握了解决最难数学问题所需的全部知识,但在被要求独立攻克这些复杂的陌生难题时 ...
IT之家 7 月 11 日消息,科技媒体 NeoWin 昨日(7 月 10 日)发布博文,报道称微软推出 Phi-4-mini-flash-reasoning 小语言模型,重点提升端侧 AI 模型的数学和逻辑推理能力。 Phi-4-mini-flash-reasoning 的主要优势在于,它能够在边缘设备、移动应用和嵌入式系统等资源不足的 ...
IT之家 7 月 19 日消息,GPT-5 有望在未来几天或几周内正式亮相。有迹象表明,OpenAI 正在测试一个代号为 gpt-5-reasoning-alpha-2025-07-13 的新模型。该模型已于 7 月 13 日定稿,当前正处于最终测试阶段。 根据 X 网友 Tibor Blaho 今晚的分享,一段代码中提到:“Models: openai ...