Distill - 搜索 News

谷歌领头、大牛联合强推的ML可交互期刊平台Distill，有什么神奇之处？

不管是质疑还是反对，这个承载着很多希望的炫酷平台都已然将在机器学习领域扮演重要角色。过去的30余年，科技圈的发展日新月异，如今大热的机器学习更是常爆出“大新闻”，发展迅猛。但当我们把目光转向学术刊物时，仿佛又回到了20世纪初：学术研究 ...

腾讯网

Gitee AI 联合沐曦首发全套 DeepSeek R1 千问蒸馏模型

IT之家 2 月 3 日消息，Gitee AI 昨日宣布上线 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B 四个较小尺寸的 DeepSeek 模型。更值得关注的是，本次上线的四个模型均部署在国产沐曦曦云 GPU 上 ...

36氪

雅虎收购面向科技公司的招聘初创 Distill，不过创始人才是真正的目标

两位创始人曾任职于 Google、Tapjoy、和雅虎等公司，负责过广告及软件架构工作。根据 Distill 的官方公告，平台将于今年 3 月底彻底关闭。两名创始人将前往雅虎从事与移动广告有关的工作。 Distill 是一家位于旧金山的初创公司，以为科技公司解决招聘问题而生 ...

新浪网

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日，360 智脑开源了 Light-R1-32B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维链的 Qwen2.5-32B-Instruct 出发，仅使用 7 万条数学数据训练，得到 Light-R1-32B，在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分，在 ...

太平洋电脑网

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Llama-8B 是基于 Llama-3.1-8B 架构开发的蒸馏模型，通过 DeepSeek-R1 生成的样本进行微调优化。该模型在数学推理（MATH-500 准确率 89.1%）、编程（CodeForces 评分 1205）等任务中表现优异，同时通过蒸馏技术降低计算资源消耗，适合资源受限场景。支持文本 ...

来自MSN

超算互联网宣布上线DeepSeek-R1-Distill-Qwen-7B/14B API接口服务

【超算互联网宣布上线DeepSeek-R1-Distill-Qwen-7B/14B API接口服务】《科创板日报》18日讯，国家超算互联网平台2月18日晚间宣布正式上线DeepSeek-R1-Distill-Qwen-7B/14B API接口服务，可免费获得额度高达100万Tokens。此前超算互联网平台已上线DeepSeek多款大模型以及DeepSeek满血版 ...

来自MSN

荣科科技：目前公司已完成DeepSeek-R1-Distill-Qwen-14B模型本地化部署

每经AI快讯，有投资者在投资者互动平台提问：近期多家医药科技上市公司宣布接入或者集成DeepSeek，比如恒瑞医药就计划在公司内部全面开展DeepSeek应用，考虑到DeepSeek在大语言模型领域的专业性和贵公司在多个领域的IT服务经验，如果双方能够开展合作，将有助 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果