为什么你需要这篇文章

想要 DIY 一台能跑本地大模型的工作站，打开京东一查：¥20,000 起步——这不是幻觉，是 RTX 4090D + 32GB×2 内存的真实价格。但经过一周的研究，我发现一个被忽视的路径：Q4_K_M 量化 + MoE 架构，可以把 30B 参数级别的模型塞进 16GB 显存里，预算直接砍掉一大截。

本文从需求出发，逐个配件分析"选这个、不选那个"的原因，最终给出三档完整配置。没有废话，直接给答案。

一、需求场景锚定

所有配置方案均基于以下核心场景约束：

纯推理部署（不做训练）
Q4_K_M 量化格式（权重体积约为 FP16 的 1/4）
5路并发（同时处理 5 个用户请求）
支持 MoE 架构（如5-35B-A3B，推理时只激活部分专家网络）
最低支持 13B Q4 模型

核心逻辑：推理框架中模型权重只加载一次，并发请求共享权重，显存增量主要来自 KV Cache。5路 13B Q4 只需 ~12GB，24GB 显存的卡绰绰有余。

二、统一内存的选择：Mac 与迷你工作站

2.1 Mac 系列

机型	价格	统一内存	5路 Q4 并发能力
Mac mini M4 Pro 64GB	¥15,499	64GB	✅ 13B Q4 5路流畅
Mac Studio M4 Max 64GB	¥21,749	64GB	✅ 13B Q4 5路流畅，31B Q4 可行
Mac Studio M4 Max 128GB	¥27,749	128GB	✅ 31B Q4 5路可行
Mac Studio M4 Ultra 256GB	¥41,299+	256GB	✅ 70B Q4 5路可行

2.2 带宽选择指南

档位	芯片型号	带宽
基础级	M1 → M5	68 → 153 GB/s
进阶级	M1/2 Pro → M3 Pro → M4/5 Pro	200 → 150 → 307 GB/s
性能级	M1/2 Max → M3 Max → M4 Max → M5 Max	400 → 300/400 → 410/546 → 460/614 GB/s
旗舰级	M1/2 Ultra → M3 Ultra	800 → 819 GB/s

⚠️ 购买二手 Mac 注意

2.3 迷你工作站

以华硕 GX10 为例：128GB 统一内存，1TB 磁盘，带宽约 273 GB/s，价格 ¥30,844。其他 GB10 芯片组产品价格基本在 ¥30,000 以上。

2.4 统一内存的并发原因

使用 vLLM 等支持连续批处理的推理框架，动态将新请求"打包"进正在进行的计算
量化（Q4）减少模型权重大小，降低内存带宽需求
MoE 架构（5-35B-A3B）推理时只激活部分专家网络，减少计算量和内存读取量
异构计算与 Offloading：利用统一内存零拷贝特性，将部分 KV Cache 卸载到内存
组合：同型号统一内存产品可天然组网共同完成 AI 推理

三、DIY 组装机的三大痛点

四、入门配置：7B/13B Q4 5路可行（¥16,641）

配件	型号	核心参数	价格	备注
CPU	Intel Ultra 5 250KF	6P+12E/20T, 5.3GHz	¥1,599	套装价
主板	华硕 TUF B760M-PLUS WIFI II	4×DDR5, 2×CPU直连M.2	¥1,289	套装 ¥2,699
显卡	盈通 RTX 5060 Ti 16G	4608 CUDA, 16GB GDDR7	¥4,178
内存	科赋雷霆 V DDR5 2×32GB	海力士 A-die, 6400 CL32 双通道	¥5,350
系统 SSD	铠侠 SD10 1TB	PCIe 4.0	¥1,399
模型 SSD	致态 TiPlus7100 1TB	PCIe 4.0	¥1,399
散热	利民 PA120 SE 双塔风冷	6热管 245W	¥179
电源	海韵 Core GX-1000 金牌	1000W, ATX 3.0	¥999
机箱	先马趣造2 MATX	20L，为风冷准备	¥249

合计：¥16,641

能力与局限

能力	说明
✅ 7B Q4 5路并发轻松	~6GB 显存占用
✅ 13B Q4 5路并发可行	~12GB 占用，16GB 余量约 4GB
⚠️ 13B Q4 长上下文注意	KV Cache 随上下文增长，4K 以下安全，8K+ 需注意
⚠️ 31B Q4 单路不够	~17.4GB > 16GB，需 offload 到内存
❌ 31B Q4 5路显存溢出	~28GB > 16GB，显存溢出

升级路径

升级方案	费用
显卡：RTX 5060 Ti 16G → RTX 5070 Ti / RTX 5080 16G+	+¥3,300~5,000
内存：64GB → 128GB（2×64GB 或 4×32GB）	+¥700
主板：B760 → Z890（解锁多卡支持）	+¥900

五、推荐配置：7B/13B Q4 5路流畅（¥20,600）

配件	型号	核心参数	价格	备注
CPU	Intel Ultra 5 250KF	6P+12E/20T, 5.3GHz	¥1,599	套装价
主板	ROG STRIX B860-G GAMING WIFI S	MATX, 4×DDR5	¥1,489
显卡	技嘉 RTX 4070 Ti SUPER OC 16G	8448 CUDA, 16GB GDDR6X	¥7,999
内存	阿斯加特 64GB(32GB×2) DDR5 6000	海姆达尔镁光颗粒, CL40	¥4,974
系统 SSD	铠侠 SD10 1TB	PCIe 4.0	¥1,399
模型 SSD	致态 TiPlus7100 4TB	PCIe 4.0	¥1,999
散热	利民 PA120 SE 双塔风冷	6热管 245W	¥179
电源	海韵 Core GX-1000 金牌	1000W, ATX 3.0	¥999
机箱	先马趣造2 MATX	20L，为风冷准备	¥249

合计：~¥20,600

💡 为什么选 4070 Ti SUPER 而非 4090D？

能力与局限

能力	说明
✅ 7B Q4 5路并发流畅	~6GB 占用，余量充足
✅ 13B Q4 5路并发流畅	~12GB 占用，16GB 余量约 4GB
⚠️ 13B Q4 长上下文注意	4GB 余量可容纳较长 KV Cache，8K+ 需注意
⚠️ 31B Q4 单路不够	~17.4GB > 16GB，需 offload 到内存
❌ 31B Q4 5路显存溢出	~28GB > 16GB

升级路径

升级方案	费用
显卡：4070 Ti SUPER 16G → RTX 5070 Ti 16G / RTX 5080 16G+	+¥0~1,200
内存：64GB → 128GB	+¥700
主板：B860 → Z890（解锁多卡支持）	+¥800

六、旗舰配置：31B Q4 5路可行（¥28,444）

配件	型号	核心参数	价格	备注
CPU	Intel Ultra 7 265K	8P+12E/20T, 5.5GHz, 13TOPS NPU	¥2,699
主板	技嘉 Z890M 冰雕 DUO	4×DDR5, 4×CPU直连M.2, 双Gen5×16	¥2,000
显卡	RTX 6000 Ada 48G ECC	18432 CUDA, 48GB GDDR6 ECC, 1457 AI TOPS	¥18,000
内存	光威龙武 DDR5 64GB	6400 CL32 A-die, 四通道	¥6,089
系统 SSD	三星 990 PRO 1TB	PCIe 4.0 旗舰	¥599
模型 SSD	致态 TiPlus7100 4TB	PCIe 4.0	¥1,999
散热	瓦尔基里 C360 水冷	350W+	¥499
电源	振华 LEADEX III 1000W 金牌	ATX 3.0	¥999
机箱	乔思伯 D31 MATX	25L, 360水冷	¥449

合计：~¥28,444

能力与局限

能力	说明
✅ 7B Q4 5路并发过剩
✅ 13B Q4 5路并发过剩	~12GB 占用
✅ 31B Q4 5路并发可行	~28GB 占用，48GB 余量约 20GB
✅ 70B Q4 单路完整加载	40GB + KV ≈ 43GB，48GB 可容纳
❌ 70B Q4 5路超出显存	40GB + 5×KV ≈ 55GB+，超出 48GB

升级路径

升级方案	费用
加第二张 RTX 6000 Ada：双卡 96GB，70B Q4 5路可行	+¥18,000+
内存升级：128GB → 256GB（4×64GB）	+¥2,000
电源升级：1000W → 1600W（双卡必需）	+¥600

⚠️ RTX 6000 Ada 注意事项

七、三档配置横向对比（5路 Q4 并发场景）

对比维度	入门（5060 Ti 16G）	推荐（4070 Ti SUPER 16G）	旗舰（6000 Ada 48G）
7B Q4 5路	✅ 轻松	✅ 流畅	✅ 过剩
13B Q4 5路	✅ 可行	✅ 流畅	✅ 过剩
31B Q4 单路	⚠️ 需 offload	⚠️ 需 offload	✅ 流畅
31B Q4 5路	❌ 溢出（~28GB）	❌ 溢出（~28GB）	✅ 可行
70B Q4 单路	❌	❌	✅ 完整加载 ~18 t/s
单卡显存	16GB	16GB	48GB ECC
内存容量	64GB	64GB	64GB
性价比	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
总价	¥16,641	~¥20,600	~¥28,444

八、品牌整机与 Mac 推荐

8.1 品牌整机

机型	价格	显存	适合场景
联想拯救者刃7000K RTX 4090D	¥25,000+	24GB	兼顾办公 + AI，5路 13B Q4 流畅
惠普 Z2 G9 RTX 6000 Ada 48G	¥35,000~80,000+	48GB ECC	企业报销，5路 31B Q4 流畅

8.2 Mac 推荐（统一内存路线）

机型	价格	统一内存	5路 Q4 并发能力
Mac mini M4 Pro 64GB	~¥15,499	64GB	✅ 13B Q4 5路流畅
Mac Studio M4 Max 64GB	¥21,749	64GB	✅ 13B Q4 5路流畅，31B Q4 可行
Mac Studio M4 Max 128GB	~¥27,700	128GB	✅ 31B Q4 5路可行

九、最终决策参考

需求	推荐方案	预算
5路 7B/13B Q4，预算紧张	入门配置（RTX 5060 Ti 16G）	~¥16,641
5路 13B Q4 流畅，性价比优先	推荐配置（RTX 4070 Ti SUPER 16G）	~¥20,600
5路 31B Q4，或 70B 单路	旗舰配置（RTX 6000 Ada 48G）	~¥28,444
企业报销，5路 31B Q4	惠普 Z2 G9 RTX 6000 Ada	¥35,000+
苹果生态，13B Q4 5路	Mac mini M4 Pro 64GB	~¥15,500
苹果生态，31B Q4 5路	Mac Studio M4 Max 128GB	~¥27,700

十、配置选择决策树

你需要 5路并发的最大模型是？

13B Q4 → 预算多少？

├── ≤ ¥17,000 → 入门配置（RTX 5060 Ti 16G，~12GB 占用，5路可行）

└── ¥20,000+ → 推荐配置（RTX 4070 Ti SUPER 16G，余量充裕，速度更快）

31B Q4 → 必须至少 48GB 显存

├── 性价比路线 → 双 RTX 4090D（48GB，~¥29,500）

└── 单卡简洁 → 旗舰配置（RTX 6000 Ada 48G，~¥28,400）

70B Q4 → 最低 48GB 显存（单路），5路需 96GB+

├── 单路运行 → 旗舰配置（RTX 6000 Ada 48G，~18 t/s）

└── 5路并发 → 双 RTX 6000 Ada 96GB（~¥55,000+）

AI 工作站配置选购完全指南

为什么你需要这篇文章

目录

一、需求场景锚定

二、统一内存的选择：Mac 与迷你工作站

2.1 Mac 系列

2.2 带宽选择指南

2.3 迷你工作站

2.4 统一内存的并发原因

三、DIY 组装机的三大痛点

四、入门配置：7B/13B Q4 5路可行（¥16,641）

能力与局限

升级路径

五、推荐配置：7B/13B Q4 5路流畅（¥20,600）

能力与局限

升级路径

六、旗舰配置：31B Q4 5路可行（¥28,444）

能力与局限

升级路径

七、三档配置横向对比（5路 Q4 并发场景）

八、品牌整机与 Mac 推荐

8.1 品牌整机

8.2 Mac 推荐（统一内存路线）

九、最终决策参考

十、配置选择决策树

Hermes Agent 本周更新：v0.15.0 + v0.15.1

Qwen3.6越狱版来了，真正的"模型自由"？

评论 (0)

聚合文章

Hermes 原生桌面版

Vectorizer.AI

Claude：ChatGPT的替代方案

GitHub Trending- Shannon

AI 工作站配置选购完全指南

为什么你需要这篇文章

目录

一、需求场景锚定

二、统一内存的选择：Mac 与迷你工作站

2.1 Mac 系列

2.2 带宽选择指南

2.3 迷你工作站

2.4 统一内存的并发原因

三、DIY 组装机的三大痛点

四、入门配置：7B/13B Q4 5路可行（¥16,641）

能力与局限

升级路径

五、推荐配置：7B/13B Q4 5路流畅（¥20,600）

能力与局限

升级路径

六、旗舰配置：31B Q4 5路可行（¥28,444）

能力与局限

升级路径

七、三档配置横向对比（5路 Q4 并发场景）

八、品牌整机与 Mac 推荐

8.1 品牌整机

8.2 Mac 推荐（统一内存路线）

九、最终决策参考

十、配置选择决策树

Hermes Agent 本周更新：v0.15.0 + v0.15.1

Qwen3.6越狱版来了，真正的"模型自由"？

评论 (0)

聚合文章

猜你喜欢

Hermes 原生桌面版

Vectorizer.AI

Claude：ChatGPT的替代方案

GitHub Trending- Shannon

OIMI