DeepSeek-R1 发布，性能对标 OpenAI o1 正式版

DeepSeek-V3，这是一个强大的专家混合（MoE）语言模型，总共有 671B 个参数，每个令牌激活了 37B。为了实现高效的推理和具有成本效益的训练，DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了全面验证。此外，DeepSeek-V3 开创了一种用于负载平衡的辅助无损失策略，并设定了多令牌预测训练目标以获得更强的性能。我们在 14.8 万亿个多样化和高质量令牌上对 DeepSeek-V3 进行了预训练，然后是监督微调和强化学习阶段，以充分利用其功能。综合评估表明，DeepSeek-V3 的性能优于其他开源模型，并实现了与领先的闭源模型相当的性能。尽管性能出色，但 DeepSeek-V3 的完整训练只需要 2.788M H800 GPU 小时。此外，它的训练过程非常稳定。在整个训练过程中，我们没有遇到任何不可恢复的损失峰值或执行任何回滚。

2. 模型摘要

架构：创新的负载均衡策略和训练目标

除了 DeepSeek-V2 的高效架构之外，我们还开创了一种用于负载均衡的辅助无损策略，该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。
我们研究了多令牌预测（MTP）目标，并证明它对模型性能有益。它还可用于推理加速的推测解码。

训练前：迈向终极训练效率

我们设计了一个 FP8 混合精度训练框架，并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
通过算法、框架和硬件的协同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，几乎实现了完全的计算-通信重叠。
这显著提高了我们的训练效率，降低了训练成本，使我们能够在没有额外开销的情况下进一步扩大模型规模。
我们以仅 2.664M H800 GPU 小时的经济成本，在 14.8T 令牌上完成了 DeepSeek-V3 的预训练，产生了目前最强的开源基础模型。预训练后的后续训练阶段只需要 0.1M GPU 小时。

培训后：DeepSeek-R1 的知识提炼

我们引入了一种创新方法，将长链思维（CoT）模型中的推理能力提炼出来，特别是从 DeepSeek R1 系列模型之一中提炼到标准 LLM 中，特别是 DeepSeek-V3。我们的管道将 R1 的验证和反射模式优雅地整合到 DeepSeek-V3 中，并显著提高了其推理性能。同时，我们还保持了对 DeepSeek-V3 的输出样式和长度的控制。

3. 模型下载

型	#Total Params	#Activated Params	上下文长度	下载
DeepSeek-V3-基础	671B 系列	编号 37B	128K	🤗 拥抱脸
深度搜索-V3	671B 系列	编号 37B	128K	🤗 拥抱脸

注意

Hugging Face 上的 DeepSeek-V3 模型的总大小为 685B，其中包括 671B 的主模型权重和 14B 的多标记预测（MTP）模块权重。

为了确保最佳性能和灵活性，我们与开源社区和硬件供应商合作，提供了多种在本地运行模型的方法。有关分步指南，请查看第 6 节：How_to Run_Locally。

对于希望深入了解的开发人员，我们建议探索 README_WEIGHTS.md 以了解有关主模型权重和多令牌预测（MTP）模块的详细信息。请注意，MTP 支持目前正在社区内积极开发中，我们欢迎您的贡献和反馈。

4. 评估结果

基本模型

标准基准

	基准（度量）	# 镜头	深度搜索-V2	Qwen2.5 72B	LLaMA3.1 405B	深度搜索-V3
	建筑	-	教育部	稠	稠	教育部
	# 激活的 Params	-	21B	72B 系列	405B 系列	编号 37B
	# 总参数	-	编号 236B	72B 系列	405B 系列	671B 系列
英语	桩测试（BPB）	-	0.606	0.638	0.542	0.548
	BBH （EM）	3 镜头	78.8	79.8	82.9	87.5
	MMLU （Acc.）	5 镜头	78.4	85.0	84.4	87.1
	MMLU-Redux （Acc.）	5 镜头	75.6	83.2	81.3	86.2
	MMLU-Pro （附件）	5 镜头	51.4	58.3	52.8	64.4
	DROP （F1）	3 镜头	80.4	80.6	86.0	89.0
	ARC-Easy （累积）	25 发	97.6	98.4	98.4	98.9
	ARC-Challenge （累积）	25 发	92.2	94.5	95.3	95.3
	HellaSwag （累积）	10 次拍摄	87.1	84.8	89.2	88.9
	PIQA （累积）	0 次射击	83.9	82.6	85.9	84.7
	WinoGrande （Acc.）	5 镜头	86.3	82.3	85.2	84.9
	RACE-中（Acc.）	5 镜头	73.1	68.1	74.2	67.1
	RACE-High （累积）	5 镜头	52.6	50.3	56.8	51.3
	花絮QA （EM）	5 镜头	80.0	71.9	82.7	82.9
	自然问题（EM）	5 镜头	38.6	33.2	41.5	40.0
	AGIEval （Acc.）	0 次射击	57.5	75.8	60.6	79.6
法典	HumanEval （Pass@1）	0 次射击	43.3	53.0	54.9	65.2
	MBPP （Pass@1）	3 镜头	65.0	72.6	68.4	75.4
	LiveCodeBench-Base （Pass@1）	3 镜头	11.6	12.9	15.5	19.4
	CRUXEval-I （Acc.）	2 次射击	52.5	59.1	58.5	67.3
	CRUXEval-O （Acc.）	2 次射击	49.8	59.9	59.9	69.8
数学	GSM8K （电磁）	8 镜头	81.6	88.3	83.5	89.3
	数学（EM）	4 发	43.4	54.4	49.0	61.6
	MGSM （EM）	8 镜头	63.6	76.2	69.9	79.8
	CMath （EM）	3 镜头	78.7	84.5	77.3	90.7
中文	CLUEWSC （EM）	5 镜头	82.0	82.5	83.0	82.7
	C-Eval （Acc.）	5 镜头	81.4	89.2	72.5	90.1
	CMMLU （Acc.）	5 镜头	84.0	89.5	73.7	88.8
	CMRC （EM）	1 次	77.4	75.8	76.0	76.3
	C3 （累积）	0 次射击	77.4	76.7	79.7	78.6
	CCPM （累积）	0 次射击	93.0	88.5	78.6	92.0
多种语言	MMMLU-non-English （Acc.）	5 镜头	64.0	74.8	73.8	79.4

注意

最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中都取得了最佳性能，尤其是在数学和代码任务上。有关更多评估详情，请查看我们的论文。

上下文窗口

（NIAH）测试的评估结果。DeepSeek-V3 在高达 128K 的所有上下文窗口长度上都表现良好。Needle In A Haystack

聊天模型

标准基准（大于 67B 的型号）

	基准（度量）	深度寻觅 V2-0506	深度seek V2.5-0905	Qwen2.5 72B-研究所	骆驼3.1 405B-研究所	克劳德-3.5-十四行诗-1022	GPT-4o 0513的	深度seek V3
	建筑	教育部	教育部	稠	稠	-	-	教育部
	# 激活的 Params	21B	21B	72B 系列	405B 系列	-	-	编号 37B
	# 总参数	编号 236B	编号 236B	72B 系列	405B 系列	-	-	671B 系列
英语	MMLU （EM）	78.2	80.6	85.3	88.6	88.3	87.2	88.5
	MMLU-Redux （EM）	77.9	80.3	85.6	86.2	88.9	88.0	89.1
	MMLU-Pro （EM）	58.5	66.2	71.6	73.3	78.0	72.6	75.9
	DROP （3 次 F1）	83.0	87.8	76.7	88.7	88.3	83.7	91.6
	IF-Eval (Prompt Strict)	57.7	80.6	84.1	86.0	86.5	84.3	86.1
	GPQA 钻石（Pass@1）	35.3	41.3	49.0	51.1	65.0	49.9	59.1
	SimpleQA（正确）	9.0	10.2	9.1	17.1	28.4	38.2	24.9
	FRAMES （Acc.）	66.9	65.4	69.8	70.0	72.5	80.5	73.3
	LongBench v2 （Acc.）	31.6	35.4	39.4	36.1	41.0	48.1	48.7
法典	HumanEval-Mul （Pass@1）	69.3	77.4	77.3	77.2	81.7	80.5	82.6
	LiveCodeBench （Pass@1-COT）	18.8	29.2	31.1	28.4	36.3	33.4	40.5
	LiveCodeBench （Pass@1）	20.3	28.4	28.7	30.1	32.8	34.2	37.6
	Codeforces （百分位数）	17.5	35.6	24.8	25.3	20.3	23.6	51.6
	SWE 验证（已解决）	-	22.6	23.8	24.5	50.8	38.8	42.0
	Aider-Edit （Acc.）	60.3	71.6	65.4	63.9	84.2	72.9	79.7
	Aider-Polyglot （Acc.）	-	18.2	7.6	5.8	45.3	16.0	49.6
数学	AIME 2024 （Pass@1）	4.6	16.7	23.3	23.3	16.0	9.3	39.2
	数学 500 （EM）	56.3	74.7	80.0	73.8	78.3	74.6	90.2
	CNMO 2024 （Pass@1）	2.8	10.8	15.9	6.8	13.1	10.8	43.2
中文	CLUEWSC （EM）	89.9	90.4	91.4	84.7	85.4	87.9	90.9
	C-Eval （EM）	78.6	79.5	86.1	61.5	76.7	76.0	86.5
	C-SimpleQA（正确）	48.5	54.1	48.4	50.4	51.3	59.3	64.8

注意

所有模型都在将输出长度限制为 8K 的配置中进行评估。包含少于 1000 个样本的基准测试使用不同的温度设置进行多次测试，以获得可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型，并且与前沿的闭源模型相比也表现出有竞争力的性能。

开放式生成评估

型	竞技场-困难	羊驼评估 2.0
深度搜索-V2.5-0905	76.2	50.5
Qwen2.5-72B-指令	81.2	49.1
LLaMA-3.1 405B	69.3	40.5
GPT-4o-0513	80.4	51.1
克劳德-十四行诗-3.5-1022	85.2	52.0
深度搜索-V3	85.5	70.0

注意

英语开放式对话评估。对于 AlpacaEval 2.0，我们使用长度控制的胜率作为指标。

5. 聊天网站和API平台

您可以在 DeepSeek 的官方网站上与 DeepSeek-V3 聊天：chat.deepseek.com

我们还在 DeepSeek 平台上提供兼容 OpenAI 的 API：platform.deepseek.com

6. 如何在本地运行

DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署：

DeepSeek-Infer Demo：我们为 FP8 和 BF16 推理提供了一个简单轻量级的 Demo。
SGLang：在 BF16 和 FP8 推理模式下完全支持 DeepSeek-V3 模型，即将推出多标记预测。
LMDeploy：为本地和云部署提供高效的 FP8 和 BF16 推理。
TensorRT-LLM ：目前支持 BF16 推理和 INT4/8 量化，即将推出 FP8 支持。
vLLM：支持 DeepSeek-V3 模型，具有 FP8 和 BF16 模式，用于张量并行和管道并行。
AMD GPU：支持通过 SGLang 在 BF16 和 FP8 模式下在 AMD GPU 上运行 DeepSeek-V3 模型。
华为昇腾 NPU：支持在华为昇腾设备上运行 DeepSeek-V3。

由于 FP8 训练在我们的框架中是原生采用的，因此我们只提供 FP8 权重。如果您需要 BF16 权重进行实验，则可以使用提供的转换脚本来执行转换。

以下是将 FP8 权重转换为 BF16 的示例：

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

官网

https://www.deepseek.com/

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版

2. 模型摘要

3. 模型下载

4. 评估结果