oimi分享美好数字生活 oimi分享美好数字生活
  • 首页
  • AI
  • Lab
  • Apple
  • 生活方式
  • 硬件
首页 › AI › DeepSeek-R1 发布,性能对标 OpenAI o1 正式版
  • 0
  • 0

DeepSeek-R1 发布,性能对标 OpenAI o1 正式版

OIMI
27 1 月, 2025
1,263 views

DeepSeek-V3,这是一个强大的专家混合 (MoE) 语言模型,总共有 671B 个参数,每个令牌激活了 37B。为了实现高效的推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。此外,DeepSeek-V3 开创了一种用于负载平衡的辅助无损失策略,并设定了多令牌预测训练目标以获得更强的性能。我们在 14.8 万亿个多样化和高质量令牌上对 DeepSeek-V3 进行了预训练,然后是监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 的完整训练只需要 2.788M H800 GPU 小时。此外,它的训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或执行任何回滚。

DeepSeek-R1 发布,性能对标 OpenAI o1 正式版-oimi分享美好数字生活

2. 模型摘要


架构:创新的负载均衡策略和训练目标

  • 除了 DeepSeek-V2 的高效架构之外,我们还开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。
  • 我们研究了多令牌预测 (MTP) 目标,并证明它对模型性能有益。它还可用于推理加速的推测解码。

训练前:迈向终极训练效率

  • 我们设计了一个 FP8 混合精度训练框架,并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
  • 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全的计算-通信重叠。
    这显著提高了我们的训练效率,降低了训练成本,使我们能够在没有额外开销的情况下进一步扩大模型规模。
  • 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T 令牌上完成了 DeepSeek-V3 的预训练,产生了目前最强的开源基础模型。预训练后的后续训练阶段只需要 0.1M GPU 小时。

培训后:DeepSeek-R1 的知识提炼

  • 我们引入了一种创新方法,将长链思维 (CoT) 模型中的推理能力提炼出来,特别是从 DeepSeek R1 系列模型之一中提炼到标准 LLM 中,特别是 DeepSeek-V3。我们的管道将 R1 的验证和反射模式优雅地整合到 DeepSeek-V3 中,并显著提高了其推理性能。同时,我们还保持了对 DeepSeek-V3 的输出样式和长度的控制。

3. 模型下载

型 #Total Params #Activated Params 上下文长度 下载
DeepSeek-V3-基础 671B 系列 编号 37B 128K 🤗 拥抱脸
深度搜索-V3 671B 系列 编号 37B 128K 🤗 拥抱脸

注意

Hugging Face 上的 DeepSeek-V3 模型的总大小为 685B,其中包括 671B 的主模型权重和 14B 的多标记预测 (MTP) 模块权重。

为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供了多种在本地运行模型的方法。有关分步指南,请查看第 6 节:How_to Run_Locally。

对于希望深入了解的开发人员,我们建议探索 README_WEIGHTS.md 以了解有关主模型权重和多令牌预测 (MTP) 模块的详细信息。请注意,MTP 支持目前正在社区内积极开发中,我们欢迎您的贡献和反馈。

4. 评估结果

基本模型

标准基准

基准 (度量) # 镜头 深度搜索-V2 Qwen2.5 72B LLaMA3.1 405B 深度搜索-V3
建筑 - 教育部 稠 稠 教育部
# 激活的 Params - 21B 72B 系列 405B 系列 编号 37B
# 总参数 - 编号 236B 72B 系列 405B 系列 671B 系列
英语 桩测试 (BPB) - 0.606 0.638 0.542 0.548
BBH (EM) 3 镜头 78.8 79.8 82.9 87.5
MMLU (Acc.) 5 镜头 78.4 85.0 84.4 87.1
MMLU-Redux (Acc.) 5 镜头 75.6 83.2 81.3 86.2
MMLU-Pro (附件) 5 镜头 51.4 58.3 52.8 64.4
DROP (F1) 3 镜头 80.4 80.6 86.0 89.0
ARC-Easy (累积) 25 发 97.6 98.4 98.4 98.9
ARC-Challenge (累积) 25 发 92.2 94.5 95.3 95.3
HellaSwag (累积) 10 次拍摄 87.1 84.8 89.2 88.9
PIQA (累积) 0 次射击 83.9 82.6 85.9 84.7
WinoGrande (Acc.) 5 镜头 86.3 82.3 85.2 84.9
RACE-中 (Acc.) 5 镜头 73.1 68.1 74.2 67.1
RACE-High (累积) 5 镜头 52.6 50.3 56.8 51.3
花絮QA (EM) 5 镜头 80.0 71.9 82.7 82.9
自然问题 (EM) 5 镜头 38.6 33.2 41.5 40.0
AGIEval (Acc.) 0 次射击 57.5 75.8 60.6 79.6
法典 HumanEval (Pass@1) 0 次射击 43.3 53.0 54.9 65.2
MBPP (Pass@1) 3 镜头 65.0 72.6 68.4 75.4
LiveCodeBench-Base (Pass@1) 3 镜头 11.6 12.9 15.5 19.4
CRUXEval-I (Acc.) 2 次射击 52.5 59.1 58.5 67.3
CRUXEval-O (Acc.) 2 次射击 49.8 59.9 59.9 69.8
数学 GSM8K (电磁) 8 镜头 81.6 88.3 83.5 89.3
数学 (EM) 4 发 43.4 54.4 49.0 61.6
MGSM (EM) 8 镜头 63.6 76.2 69.9 79.8
CMath (EM) 3 镜头 78.7 84.5 77.3 90.7
中文 CLUEWSC (EM) 5 镜头 82.0 82.5 83.0 82.7
C-Eval (Acc.) 5 镜头 81.4 89.2 72.5 90.1
CMMLU (Acc.) 5 镜头 84.0 89.5 73.7 88.8
CMRC (EM) 1 次 77.4 75.8 76.0 76.3
C3 (累积) 0 次射击 77.4 76.7 79.7 78.6
CCPM (累积) 0 次射击 93.0 88.5 78.6 92.0
多种语言 MMMLU-non-English (Acc.) 5 镜头 64.0 74.8 73.8 79.4

注意

最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中都取得了最佳性能,尤其是在数学和代码任务上。有关更多评估详情,请查看我们的论文。

上下文窗口

DeepSeek-R1 发布,性能对标 OpenAI o1 正式版-oimi分享美好数字生活

(NIAH) 测试的评估结果。DeepSeek-V3 在高达 128K 的所有上下文窗口长度上都表现良好。Needle In A Haystack

聊天模型

标准基准(大于 67B 的型号)

基准 (度量) 深度寻觅 V2-0506 深度seek V2.5-0905 Qwen2.5 72B-研究所 骆驼3.1 405B-研究所 克劳德-3.5-十四行诗-1022 GPT-4o 0513的 深度seek V3
建筑 教育部 教育部 稠 稠 - - 教育部
# 激活的 Params 21B 21B 72B 系列 405B 系列 - - 编号 37B
# 总参数 编号 236B 编号 236B 72B 系列 405B 系列 - - 671B 系列
英语 MMLU (EM) 78.2 80.6 85.3 88.6 88.3 87.2 88.5
MMLU-Redux (EM) 77.9 80.3 85.6 86.2 88.9 88.0 89.1
MMLU-Pro (EM) 58.5 66.2 71.6 73.3 78.0 72.6 75.9
DROP (3 次 F1) 83.0 87.8 76.7 88.7 88.3 83.7 91.6
IF-Eval (Prompt Strict) 57.7 80.6 84.1 86.0 86.5 84.3 86.1
GPQA 钻石 (Pass@1) 35.3 41.3 49.0 51.1 65.0 49.9 59.1
SimpleQA(正确) 9.0 10.2 9.1 17.1 28.4 38.2 24.9
FRAMES (Acc.) 66.9 65.4 69.8 70.0 72.5 80.5 73.3
LongBench v2 (Acc.) 31.6 35.4 39.4 36.1 41.0 48.1 48.7
法典 HumanEval-Mul (Pass@1) 69.3 77.4 77.3 77.2 81.7 80.5 82.6
LiveCodeBench (Pass@1-COT) 18.8 29.2 31.1 28.4 36.3 33.4 40.5
LiveCodeBench (Pass@1) 20.3 28.4 28.7 30.1 32.8 34.2 37.6
Codeforces (百分位数) 17.5 35.6 24.8 25.3 20.3 23.6 51.6
SWE 验证 (已解决) - 22.6 23.8 24.5 50.8 38.8 42.0
Aider-Edit (Acc.) 60.3 71.6 65.4 63.9 84.2 72.9 79.7
Aider-Polyglot (Acc.) - 18.2 7.6 5.8 45.3 16.0 49.6
数学 AIME 2024 (Pass@1) 4.6 16.7 23.3 23.3 16.0 9.3 39.2
数学 500 (EM) 56.3 74.7 80.0 73.8 78.3 74.6 90.2
CNMO 2024 (Pass@1) 2.8 10.8 15.9 6.8 13.1 10.8 43.2
中文 CLUEWSC (EM) 89.9 90.4 91.4 84.7 85.4 87.9 90.9
C-Eval (EM) 78.6 79.5 86.1 61.5 76.7 76.0 86.5
C-SimpleQA(正确) 48.5 54.1 48.4 50.4 51.3 59.3 64.8

注意

所有模型都在将输出长度限制为 8K 的配置中进行评估。包含少于 1000 个样本的基准测试使用不同的温度设置进行多次测试,以获得可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型,并且与前沿的闭源模型相比也表现出有竞争力的性能。

开放式生成评估

型 竞技场-困难 羊驼评估 2.0
深度搜索-V2.5-0905 76.2 50.5
Qwen2.5-72B-指令 81.2 49.1
LLaMA-3.1 405B 69.3 40.5
GPT-4o-0513 80.4 51.1
克劳德-十四行诗-3.5-1022 85.2 52.0
深度搜索-V3 85.5 70.0

注意

英语开放式对话评估。对于 AlpacaEval 2.0,我们使用长度控制的胜率作为指标。

5. 聊天网站和API平台

您可以在 DeepSeek 的官方网站上与 DeepSeek-V3 聊天:chat.deepseek.com

我们还在 DeepSeek 平台上提供兼容 OpenAI 的 API:platform.deepseek.com

6. 如何在本地运行

DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:

  1. DeepSeek-Infer Demo:我们为 FP8 和 BF16 推理提供了一个简单轻量级的 Demo。
  2. SGLang:在 BF16 和 FP8 推理模式下完全支持 DeepSeek-V3 模型,即将推出多标记预测。
  3. LMDeploy:为本地和云部署提供高效的 FP8 和 BF16 推理。
  4. TensorRT-LLM :目前支持 BF16 推理和 INT4/8 量化,即将推出 FP8 支持。
  5. vLLM:支持 DeepSeek-V3 模型,具有 FP8 和 BF16 模式,用于张量并行和管道并行。
  6. AMD GPU:支持通过 SGLang 在 BF16 和 FP8 模式下在 AMD GPU 上运行 DeepSeek-V3 模型。
  7. 华为昇腾 NPU:支持在华为昇腾设备上运行 DeepSeek-V3。

由于 FP8 训练在我们的框架中是原生采用的,因此我们只提供 FP8 权重。如果您需要 BF16 权重进行实验,则可以使用提供的转换脚本来执行转换。

以下是将 FP8 权重转换为 BF16 的示例:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
官网

https://www.deepseek.com/

0

HEU KMS Activator v42.3.2

上一篇

DeepSeek开源周首日推出FlashMLA项目 可以显著降低内存占用和计算开销

下一篇

评论 (0)

再想想
暂无评论

聚合文章

Hermes Agent Windows 原生支持正式发布
Hermes 凭什么爆:不是技术,是时机
Hermes 原生桌面版
OpenClaw 到底能干嘛?
OpenFang 
Goose
GitHub Trending- Shannon
nanobot超轻量级个人AI助手
beautiful-mermaid
BettaFish

猜你喜欢

ventoy-1.0.86

ventoy-1.0.86

29 12 月, 2022
2,981 0 0
vivo Sans字体今起可以免费下载和商用

vivo Sans字体今起可以免费下载和商用

10 10 月, 2024
1,273 0 0
柚坛工具箱-3.0.0

柚坛工具箱-3.0.0

11 9 月, 2024
1,823 0 0
MIUI12正式发布:触碰想象,感受真实!

MIUI12正式发布:触碰想象,感受真实!

27 4 月, 2020
2,315 0 0

关于

OIMI(oimi.me)是分享美好数字生活的内容平台,同时还涉及 macOS、iOS 等知名系统的使用技巧。 科技 / 旅行 / 摄影 / 生活方式

社交媒体

Nicky

导航

Nicky
Copyright © 2016-2026 oimi分享美好数字生活. Designed by OIMI.
  • ChatTTS,HyperOS,HEU KMS Activator,Win10/11数字权利激活

OIMI

272
文章
1
评论
138
喜欢