为什么你需要这篇文章
想要 DIY 一台能跑本地大模型的工作站,打开京东一查:¥20,000 起步——这不是幻觉,是 RTX 4090D + 32GB×2 内存的真实价格。但经过一周的研究,我发现一个被忽视的路径:Q4_K_M 量化 + MoE 架构,可以把 30B 参数级别的模型塞进 16GB 显存里,预算直接砍掉一大截。
本文从需求出发,逐个配件分析"选这个、不选那个"的原因,最终给出三档完整配置。没有废话,直接给答案。
目录
一、需求场景锚定
二、统一内存的选择:Mac 与迷你工作站
三、DIY 组装机的三大痛点
四、入门配置:7B/13B Q4 5路可行(¥16,641)
五、推荐配置:7B/13B Q4 5路流畅(¥20,600)
六、旗舰配置:31B Q4 5路可行(¥28,444)
七、三档配置横向对比
八、品牌整机与 Mac 推荐
九、最终决策参考
十、配置选择决策树
一、需求场景锚定
所有配置方案均基于以下核心场景约束:
- 纯推理部署(不做训练)
- Q4_K_M 量化格式(权重体积约为 FP16 的 1/4)
- 5路并发(同时处理 5 个用户请求)
- 支持 MoE 架构(如5-35B-A3B,推理时只激活部分专家网络)
- 最低支持 13B Q4 模型
核心逻辑:推理框架中模型权重只加载一次,并发请求共享权重,显存增量主要来自 KV Cache。5路 13B Q4 只需 ~12GB,24GB 显存的卡绰绰有余。
二、统一内存的选择:Mac 与迷你工作站
2.1 Mac 系列
| 机型 | 价格 | 统一内存 | 5路 Q4 并发能力 |
| Mac mini M4 Pro 64GB | ¥15,499 | 64GB | ✅ 13B Q4 5路流畅 |
| Mac Studio M4 Max 64GB | ¥21,749 | 64GB | ✅ 13B Q4 5路流畅,31B Q4 可行 |
| Mac Studio M4 Max 128GB | ¥27,749 | 128GB | ✅ 31B Q4 5路可行 |
| Mac Studio M4 Ultra 256GB | ¥41,299+ | 256GB | ✅ 70B Q4 5路可行 |
2.2 带宽选择指南
| 档位 | 芯片型号 | 带宽 |
| 基础级 | M1 → M5 | 68 → 153 GB/s |
| 进阶级 | M1/2 Pro → M3 Pro → M4/5 Pro | 200 → 150 → 307 GB/s |
| 性能级 | M1/2 Max → M3 Max → M4 Max → M5 Max | 400 → 300/400 → 410/546 → 460/614 GB/s |
| 旗舰级 | M1/2 Ultra → M3 Ultra | 800 → 819 GB/s |
| ⚠️ 购买二手 Mac 注意 |
2.3 迷你工作站
以华硕 GX10 为例:128GB 统一内存,1TB 磁盘,带宽约 273 GB/s,价格 ¥30,844。其他 GB10 芯片组产品价格基本在 ¥30,000 以上。
2.4 统一内存的并发原因
- 使用 vLLM 等支持连续批处理的推理框架,动态将新请求"打包"进正在进行的计算
- 量化(Q4)减少模型权重大小,降低内存带宽需求
- MoE 架构(5-35B-A3B)推理时只激活部分专家网络,减少计算量和内存读取量
- 异构计算与 Offloading:利用统一内存零拷贝特性,将部分 KV Cache 卸载到内存
- 组合:同型号统一内存产品可天然组网共同完成 AI 推理
三、DIY 组装机的三大痛点
四、入门配置:7B/13B Q4 5路可行(¥16,641)
| 配件 | 型号 | 核心参数 | 价格 | 备注 |
| CPU | Intel Ultra 5 250KF | 6P+12E/20T, 5.3GHz | ¥1,599 | 套装价 |
| 主板 | 华硕 TUF B760M-PLUS WIFI II | 4×DDR5, 2×CPU直连M.2 | ¥1,289 | 套装 ¥2,699 |
| 显卡 | 盈通 RTX 5060 Ti 16G | 4608 CUDA, 16GB GDDR7 | ¥4,178 | |
| 内存 | 科赋 雷霆 V DDR5 2×32GB | 海力士 A-die, 6400 CL32 双通道 | ¥5,350 | |
| 系统 SSD | 铠侠 SD10 1TB | PCIe 4.0 | ¥1,399 | |
| 模型 SSD | 致态 TiPlus7100 1TB | PCIe 4.0 | ¥1,399 | |
| 散热 | 利民 PA120 SE 双塔风冷 | 6热管 245W | ¥179 | |
| 电源 | 海韵 Core GX-1000 金牌 | 1000W, ATX 3.0 | ¥999 | |
| 机箱 | 先马 趣造2 MATX | 20L,为风冷准备 | ¥249 |
合计:¥16,641
能力与局限
| 能力 | 说明 |
| ✅ 7B Q4 5路并发轻松 | ~6GB 显存占用 |
| ✅ 13B Q4 5路并发可行 | ~12GB 占用,16GB 余量约 4GB |
| ⚠️ 13B Q4 长上下文注意 | KV Cache 随上下文增长,4K 以下安全,8K+ 需注意 |
| ⚠️ 31B Q4 单路不够 | ~17.4GB > 16GB,需 offload 到内存 |
| ❌ 31B Q4 5路显存溢出 | ~28GB > 16GB,显存溢出 |
升级路径
| 升级方案 | 费用 |
| 显卡:RTX 5060 Ti 16G → RTX 5070 Ti / RTX 5080 16G+ | +¥3,300~5,000 |
| 内存:64GB → 128GB(2×64GB 或 4×32GB) | +¥700 |
| 主板:B760 → Z890(解锁多卡支持) | +¥900 |
五、推荐配置:7B/13B Q4 5路流畅(¥20,600)
| 配件 | 型号 | 核心参数 | 价格 | 备注 |
| CPU | Intel Ultra 5 250KF | 6P+12E/20T, 5.3GHz | ¥1,599 | 套装价 |
| 主板 | ROG STRIX B860-G GAMING WIFI S | MATX, 4×DDR5 | ¥1,489 | |
| 显卡 | 技嘉 RTX 4070 Ti SUPER OC 16G | 8448 CUDA, 16GB GDDR6X | ¥7,999 | |
| 内存 | 阿斯加特 64GB(32GB×2) DDR5 6000 | 海姆达尔镁光颗粒, CL40 | ¥4,974 | |
| 系统 SSD | 铠侠 SD10 1TB | PCIe 4.0 | ¥1,399 | |
| 模型 SSD | 致态 TiPlus7100 4TB | PCIe 4.0 | ¥1,999 | |
| 散热 | 利民 PA120 SE 双塔风冷 | 6热管 245W | ¥179 | |
| 电源 | 海韵 Core GX-1000 金牌 | 1000W, ATX 3.0 | ¥999 | |
| 机箱 | 先马 趣造2 MATX | 20L,为风冷准备 | ¥249 |
合计:~¥20,600
| 💡 为什么选 4070 Ti SUPER 而非 4090D? |
能力与局限
| 能力 | 说明 |
| ✅ 7B Q4 5路并发流畅 | ~6GB 占用,余量充足 |
| ✅ 13B Q4 5路并发流畅 | ~12GB 占用,16GB 余量约 4GB |
| ⚠️ 13B Q4 长上下文注意 | 4GB 余量可容纳较长 KV Cache,8K+ 需注意 |
| ⚠️ 31B Q4 单路不够 | ~17.4GB > 16GB,需 offload 到内存 |
| ❌ 31B Q4 5路显存溢出 | ~28GB > 16GB |
升级路径
| 升级方案 | 费用 |
| 显卡:4070 Ti SUPER 16G → RTX 5070 Ti 16G / RTX 5080 16G+ | +¥0~1,200 |
| 内存:64GB → 128GB | +¥700 |
| 主板:B860 → Z890(解锁多卡支持) | +¥800 |
六、旗舰配置:31B Q4 5路可行(¥28,444)
| 配件 | 型号 | 核心参数 | 价格 | 备注 |
| CPU | Intel Ultra 7 265K | 8P+12E/20T, 5.5GHz, 13TOPS NPU | ¥2,699 | |
| 主板 | 技嘉 Z890M 冰雕 DUO | 4×DDR5, 4×CPU直连M.2, 双Gen5×16 | ¥2,000 | |
| 显卡 | RTX 6000 Ada 48G ECC | 18432 CUDA, 48GB GDDR6 ECC, 1457 AI TOPS | ¥18,000 | |
| 内存 | 光威 龙武 DDR5 64GB | 6400 CL32 A-die, 四通道 | ¥6,089 | |
| 系统 SSD | 三星 990 PRO 1TB | PCIe 4.0 旗舰 | ¥599 | |
| 模型 SSD | 致态 TiPlus7100 4TB | PCIe 4.0 | ¥1,999 | |
| 散热 | 瓦尔基里 C360 水冷 | 350W+ | ¥499 | |
| 电源 | 振华 LEADEX III 1000W 金牌 | ATX 3.0 | ¥999 | |
| 机箱 | 乔思伯 D31 MATX | 25L, 360水冷 | ¥449 |
合计:~¥28,444
能力与局限
| 能力 | 说明 |
| ✅ 7B Q4 5路并发过剩 | |
| ✅ 13B Q4 5路并发过剩 | ~12GB 占用 |
| ✅ 31B Q4 5路并发可行 | ~28GB 占用,48GB 余量约 20GB |
| ✅ 70B Q4 单路完整加载 | 40GB + KV ≈ 43GB,48GB 可容纳 |
| ❌ 70B Q4 5路超出显存 | 40GB + 5×KV ≈ 55GB+,超出 48GB |
升级路径
| 升级方案 | 费用 |
| 加第二张 RTX 6000 Ada:双卡 96GB,70B Q4 5路可行 | +¥18,000+ |
| 内存升级:128GB → 256GB(4×64GB) | +¥2,000 |
| 电源升级:1000W → 1600W(双卡必需) | +¥600 |
| ⚠️ RTX 6000 Ada 注意事项 |
七、三档配置横向对比(5路 Q4 并发场景)
| 对比维度 | 入门(5060 Ti 16G) | 推荐(4070 Ti SUPER 16G) | 旗舰(6000 Ada 48G) |
| 7B Q4 5路 | ✅ 轻松 | ✅ 流畅 | ✅ 过剩 |
| 13B Q4 5路 | ✅ 可行 | ✅ 流畅 | ✅ 过剩 |
| 31B Q4 单路 | ⚠️ 需 offload | ⚠️ 需 offload | ✅ 流畅 |
| 31B Q4 5路 | ❌ 溢出(~28GB) | ❌ 溢出(~28GB) | ✅ 可行 |
| 70B Q4 单路 | ❌ | ❌ | ✅ 完整加载 ~18 t/s |
| 单卡显存 | 16GB | 16GB | 48GB ECC |
| 内存容量 | 64GB | 64GB | 64GB |
| 性价比 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 总价 | ¥16,641 | ~¥20,600 | ~¥28,444 |
八、品牌整机与 Mac 推荐
8.1 品牌整机
| 机型 | 价格 | 显存 | 适合场景 |
| 联想拯救者刃7000K RTX 4090D | ¥25,000+ | 24GB | 兼顾办公 + AI,5路 13B Q4 流畅 |
| 惠普 Z2 G9 RTX 6000 Ada 48G | ¥35,000~80,000+ | 48GB ECC | 企业报销,5路 31B Q4 流畅 |
8.2 Mac 推荐(统一内存路线)
| 机型 | 价格 | 统一内存 | 5路 Q4 并发能力 |
| Mac mini M4 Pro 64GB | ~¥15,499 | 64GB | ✅ 13B Q4 5路流畅 |
| Mac Studio M4 Max 64GB | ¥21,749 | 64GB | ✅ 13B Q4 5路流畅,31B Q4 可行 |
| Mac Studio M4 Max 128GB | ~¥27,700 | 128GB | ✅ 31B Q4 5路可行 |
九、最终决策参考
| 需求 | 推荐方案 | 预算 |
| 5路 7B/13B Q4,预算紧张 | 入门配置(RTX 5060 Ti 16G) | ~¥16,641 |
| 5路 13B Q4 流畅,性价比优先 | 推荐配置(RTX 4070 Ti SUPER 16G) | ~¥20,600 |
| 5路 31B Q4,或 70B 单路 | 旗舰配置(RTX 6000 Ada 48G) | ~¥28,444 |
| 企业报销,5路 31B Q4 | 惠普 Z2 G9 RTX 6000 Ada | ¥35,000+ |
| 苹果生态,13B Q4 5路 | Mac mini M4 Pro 64GB | ~¥15,500 |
| 苹果生态,31B Q4 5路 | Mac Studio M4 Max 128GB | ~¥27,700 |
十、配置选择决策树
你需要 5路并发的最大模型是?
13B Q4 → 预算多少?
├── ≤ ¥17,000 → 入门配置(RTX 5060 Ti 16G,~12GB 占用,5路可行)
└── ¥20,000+ → 推荐配置(RTX 4070 Ti SUPER 16G,余量充裕,速度更快)
31B Q4 → 必须至少 48GB 显存
├── 性价比路线 → 双 RTX 4090D(48GB,~¥29,500)
└── 单卡简洁 → 旗舰配置(RTX 6000 Ada 48G,~¥28,400)
70B Q4 → 最低 48GB 显存(单路),5路需 96GB+
├── 单路运行 → 旗舰配置(RTX 6000 Ada 48G,~18 t/s)
└── 5路并发 → 双 RTX 6000 Ada 96GB(~¥55,000+)
评论 (0)