开源大模型本地部署硬件选型深度指南
开源大模型本地部署硬件选型深度指南
开源大模型本地部署硬件选型深度指南
作者:SkySeraph
原始链接:llm_locally
日期:2026-05-17
数据截至 2026-05-17
本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理,价格/供货信息请以官网当日为准。
1. 选型四坐标与容量公式#
绝大多数“该买哪块卡”的纠结,都是因为没把需求拆清楚。真实选型只看四个量:
| 坐标 | 关键指标 | 决定什么 |
|---|---|---|
| 显存/统一内存容量 | GB | 能装下多大模型、多长 KV Cache |
| 显存带宽 | GB/s | 解码阶段 tokens/s 的天花板 |
| 算力(FP8 / FP4 TFLOPS) | T | 首 token 延迟 (TTFT) 与 prefill 吞吐 |
| 互联(NVLink / NVLink Switch / UB / PCIe) | GB/s | 多卡/多机能否线性扩展 |
解码阶段 tok/s 的经验公式(内存带宽受限时成立):
tokens/s ≈ 显存带宽 (GB/s) / 激活参数体积 (GB)
例:Qwen3-32B 权重 BF16 ≈ 64GB,INT4 ≈ 16GB;RTX 5090 带宽 1.79TB/s,理论���限 ≈ 1790/16 ≈ 112 tok/s,vLLM 实测 80–95 tok/s,吻合。公式本身是 roofline 在 memory-bound 阶段的简化,详见 PagedAttention 论文 与 SGLang RadixAttention 论文。
Prefill 阶段由算力决定,tok/s 正比于 TFLOPS / (2 × 激活参数量);长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见 vLLM 文档。
2. 硬件全景深度对比#
2.1 Apple Silicon:Mac Studio 产品线#
Apple Mac Studio 历代 Ultra 芯片内存上限对比:
| 芯片 | 发布 | 最大统一内存 | 内存带宽 | 备注 |
|---|---|---|---|---|
| M2 Ultra | 2023.6 | 192 GB | 800 GB/s | Mac Studio / Mac Pro |
| M3 Ultra | 2025.3 | 192 GB | 800 GB/s | Mac Studio / Mac Pro |
| M4 Ultra | 2025.3 | 192 GB | 546 GB/s | Mac Studio / Mac Pro |
来源:Apple Mac Studio 规格页、Apple M4 Ultra 规格(cpu-monkey)、Wikipedia M3 Ultra
注意:M2 Ultra Mac Studio 支持最高 192 GB,不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息,已更正。
Mac Pro(M2 Ultra) 支持最高 192 GB;如需更大内存跑超大模型,目前 Apple 生态无单机超过 192 GB 的消费级方案。
- M4 Max MacBook Pro:128 GB 上限,546 GB/s,见 Apple MacBook Pro
- 软件栈:MLX、llama.cpp Metal、Ollama、LM Studio
能跑的极限负载(社区实测,192 GB 上限):
- Qwen3-235B-A22B Q4(~120 GB):192GB 机型可装下,约 25–30 tok/s,见 LocalLLaMA 实测线程
- Llama-3.3-70B Q4(~40 GB):约 12–18 tok/s
- DeepSeek-V3/R1 671B Q4_K_M(~380 GB):192 GB 装不下,需要多机或其他方案
M3 Ultra vs M4 Ultra 选择:
- 两者内存上限相同(192 GB),M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s,推理速度 M3 Ultra 更快
- M4 Ultra CPU/Neural Engine 更新,编译/微调任务更快
- 起价均约 US$ 3,999(Apple 官网)
不适合:
- 长上下文 prefill 慢(compute-bound),128K ctx 首 token 几十秒级
- 并发差,单 batch 天然状态,上 vLLM/SGLang 无收益
- 无 CUDA,绝大多数训练/微调工具链走弯路
- 无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型
2.2 NVIDIA 消费级:RTX 4090 / RTX 5090#
| 项 | RTX 4090 | RTX 5090 |
|---|---|---|
| 架构 | Ada (AD102) | Blackwell (GB202) |
| 显存 | 24 GB GDDR6X | 32 GB GDDR7 |
| 带宽 | 1,008 GB/s | 1,792 GB/s |
| FP8 / FP4 TFLOPS | 660 / — | 3,352 / 6,704(含稀疏) |
| TDP | 450 W | 575 W |
| MSRP | US$ 1,599 | US$ 1,999 |
| 国内参考价 | ¥12–18k(二手)/ ¥18–22k(新) | ¥20–25k(AIB 版) |
官方规格:RTX 4090、RTX 5090。国内价格参考中关村在线,因关税/汇率波动请以当日电商报价为准。
整机 TCO 估算(3 年,含电费):
| 配置 | 硬件成本 | 满载功耗 | 3 年电费(¥0.8/kWh,IDC) | 3 年总成本 |
|---|---|---|---|---|
| 1× RTX 5090 + 主机 | ~¥30k | ~700W | ~¥1.5k | ~¥31.5k |
| 2× RTX 5090 + 主机 | ~¥55k | ~1,400W | ~¥3k | ~¥58k |
实测(vLLM / TensorRT-LLM):
- 5090 单卡 Qwen3-32B AWQ-INT4:单流 ~85 tok/s,batch 8 合计 ~340 tok/s(vLLM benchmark 脚本)
- 4090 单卡 Qwen3-14B FP8:~120 tok/s 单流
- 2× 5090 张量并行:Blackwell 消费卡无 NVLink,走 PCIe 5.0 x16,70B Q4 双卡 ~40–55 tok/s
- 不支持 MIG / vGPU,不能切卡做多租户(NVIDIA vGPU 支持矩阵)
坑:
- 575W 对家用电源/散热是硬门槛,2 卡起必须 1600W+ 钛金电源 + 开放式机架
- 消费卡 NVIDIA Driver EULA 禁止数据中心部署(出海 SaaS 要注意)
2.3 NVIDIA 工作站级:RTX PRO 6000 Blackwell#
2026 H1 单机本地部署最甜的卡。
- 96 GB GDDR7 ECC,带宽 1,792 GB/s,AI 算力 4,000 TOPS
- 来源:NVIDIA 官方产品页
- 300W TDP(工作站版主动散热;Server Edition 被动散热,需机箱风道)
- 支持 MIG(4 分区)、vGPU、ECC,规格见 官方产品页
- MSRP US$ 8,999(2025.3 上市,国内含税约 ¥75–90k,以当日电商报价为准)
整机 TCO 估算(3 年,含电费,IDC 电价 ¥0.8/kWh):
| 配置 | 硬件成本(含整机) | 满载功耗 | 3 年电费 | 3 年总成本 |
|---|---|---|---|---|
| 1× PRO 6000 整机 | ~¥22 万 | ~500W | ~¥1.1 万 | ~¥23 万 |
| 2× PRO 6000 整机 | ~¥35 万 | ~800W | ~¥1.7 万 | ~¥37 万 |
单卡可跑:
- Llama-3.3-70B FP8(~70GB) → ~55 tok/s 单流,batch 32 稳态 ~600 tok/s
- Qwen3-72B FP8 单卡放下,~50 tok/s 单流,batch 32 稳态 ~550 tok/s
- DeepSeek-R1-Distill-Llama-70B FP8 单卡
- 128K 长上下文 KV Cache 游刃有余(vLLM 长上下文指南)
并发能力参考(Qwen3-72B FP8,vLLM,TTFT p95 ≤ 500ms):
| 并发用户数 | 稳态 tok/s | 说明 |
|---|---|---|
| 5 | ~250 | 轻松,有大量余量 |
| 20 | ~500 | 舒适区,推荐日常生产 |
| 50 | ~580 | 接近上限,队列开始积压 |
| 100+ | 需 2 卡 | 单卡 KV Cache 不足 |
双卡(2× = 192GB):
- DeepSeek-V3 671B INT4(~335GB)放不下
- Qwen3-235B-A22B INT4(~120GB)可以,TP=2 单流 60–80 tok/s,batch 32 稳态 ~1,200 tok/s,支持 ~100 并发
工作站版与数据中心版(RTX PRO 6000 Blackwell Server Edition,被动散热)区别见 NVIDIA PRO GPU 对比。
2.4 NVIDIA 数据中心:H100 / H200 / B200 / B300#
| 卡 | 显存 | 带宽 | FP8 / FP4 TFLOPS | 单卡价 | 官方链接 |
|---|---|---|---|---|---|
| H100 SXM5 80GB | HBM3 | 3.35 TB/s | 1,979 / — | ~$25k | H100 |
| H100 NVL 94GB | HBM3 | 3.9 TB/s | 1,979 / — | ~$30k | 同上 |
| H200 SXM 141GB | HBM3e | 4.8 TB/s | 1,979 / — | ~$30k | H200 |
| B200 SXM 192GB | HBM3e | 8 TB/s | 4,500 / 9,000 | ~$35–40k | Blackwell 架构 |
| B300 SXM 288GB | HBM3e | ~10 TB/s | ~5,500 / ~11,000 | ~$40–45k | B300 发布 |
GB200 / GB300 NVL72:超节点架构,把 72 颗 Blackwell GPU 通过 NVLink Switch 做成"单机",总显存 13.8TB、总带宽 576TB/s,单柜推理 DeepSeek V3 可达 30× 单节点吞吐,发布资料见 GB200 NVL72。
租 vs 买的边界:8× H100/H200 机柜功耗 10kW 级,机房/冷却/运维都是专业活。个人/小团队 不要自购:
- 短期租:Lambda Cloud、CoreWeave、RunPod
- 长包:Oracle OCI、阿里灵骏 PAI-DSW、腾讯 TI-ONE、AWS p5 / p6
主流云平台 GPU 按需租用价格(2025 年实测,含税前):
| 平台 | 实例 | 按需价 | 预留价(1yr) | 来源 |
|---|---|---|---|---|
| Lambda Cloud | 1× H100 SXM5 80G | $2.49/hr | $1.99/hr | Lambda 定价页 |
| Lambda Cloud | 8× H100 SXM5 80G | $19.92/hr | $15.92/hr | Lambda 定价页 |
| Lambda Cloud | 1× H200 SXM5 141G | $3.29/hr | $2.63/hr | Lambda 定价页 |
| Lambda Cloud | 8× H200 SXM5 141G | $26.32/hr | $21.06/hr | Lambda 定价页 |
| RunPod | 1× H100 SXM 80G | $2.49/hr(社区)/ $3.99/hr(安全) | — | RunPod 定价页 |
| RunPod | 1× H200 SXM 141G | $4.49/hr(社区)/ $5.99/hr(安全) | — | RunPod 定价页 |
| 阿里云 PAI-DSW | 1× H100 80G | ~¥30–50/hr(按量) | ~¥20–35/hr(包月) | 阿里云价格计算器 |
8× H200 节点按需月费:Lambda $26.32×24×30 ≈ $18,950/月(~¥13.7 万);预留价约 $15,200/月(~¥11 万)。自建同等节点 3 年 TCO 约 ¥450–500 万,18–24 个月回本。
8× H200 节点跑 DeepSeek-V3 671B FP8 原生,单节点 1,500–2,500 tok/s 总吞吐(SGLang / vLLM,batch 64+),参考 SGLang DeepSeek V3 benchmark 与 vLLM benchmark 报告。
2.5 NVIDIA DGX Spark(GB10)#
CES 2025 发布、2026 年初开始发货的"个人 AI 工作站"。
- GB10 Grace Blackwell Superchip:20-core Arm CPU + Blackwell GPU
- 128 GB LPDDR5X 统一内存,273 GB/s 带宽(注意不是 HBM)
- 1 PetaFLOP FP4 算力
- 起售价 US$ 3,299(NVIDIA 官方页)
- 双机 ConnectX-7 200GbE 互联可扩展到 256GB
- 官方:DGX Spark、NVIDIA 公告
定位:CUDA 生态的个人工作站,对标 Mac Studio。
- 273 GB/s 带宽是硬伤:Qwen3-32B Q4 解码理论上限 ~17 tok/s,实测 12–15,不如 5090
- 优势是 CUDA 全家桶(TRT-LLM、NeMo、BitsAndBytes、PEFT、Unsloth 一把梭),开发体验比 Mac 强一档
- 双机 256GB 跑 Llama-3.3-70B BF16 可行;70B FP8 单机 128GB 够
一句话:想要 CUDA 生态又不上 PRO 6000 预算,Spark 是唯一解;别拿它做生产推理。
2.6 华为昇腾 910B / 910C#
- Ascend 910B:HBM2e 64GB、带宽 ~1.6 TB/s、BF16 约 320 TFLOPS,规格见 昇腾 910 系列
- Ascend 910C:双 die 封装,~128GB HBM3、FP16 实际推理性能约 H100 的 60–80%(SemiAnalysis 深度拆解)
- Atlas 800I A2:8×910B 整机,国内渠道 ~¥120–140 万(华为 Atlas 800I A2 产品页)
- Atlas 900 A3 SuperPoD:910C × 384 卡超节点(Huawei Connect 2024 发布),对标 GB200 NVL72
软件栈:CANN + MindIE + MindSpore + vLLM-Ascend。
2026.5 适配状态:
- DeepSeek V3/R1、Qwen2.5/Qwen3、GLM-4 官方 MindIE 适配路径齐全,支持 W8A8 量化(见 ModelZoo-PyTorch)
- Llama 系列社区适配但非一等公民
- vLLM-Ascend 已合并 vLLM 主干(实验性),支持 DeepSeek、Qwen3、Llama3
谁该买:信创合规强约束的政企、央国企、银行、运营商、政务。不是这类客户别凑热闹——工具链成熟度距 CUDA 仍有真实差距,调优人力是隐藏成本。
2.7 AMD Instinct MI300X / MI325X / MI350X#
| 卡 | 显存 | 带宽 | FP8 TFLOPS | 官方链接 |
|---|---|---|---|---|
| MI300X | 192 GB HBM3 | 5.3 TB/s | 2,614 | AMD MI300X |
| MI325X | 256 GB HBM3e | 6 TB/s | 2,614 | AMD MI325X |
| MI350X | 288 GB HBM3e | 8 TB/s | ~5,000 | AMD CDNA4 / MI350 |
软件栈:ROCm、vLLM ROCm、SGLang ROCm。
优势:
- MI300X 单卡 192GB 放下 Llama-3.3-70B BF16(~140GB),单机 8 卡能跑 DeepSeek V3 FP8 原生
- 云端价(Azure ND MI300X v5、OCI BM.GPU.MI300X.8)通常比同配置 H100 低 20–30%
- MLPerf Inference v4.1 上 MI300X Llama-2 70B 接近 H100
劣势:ROCm 在 FP8 kernel、FlashAttention-3、FP4 支持上仍落后 CUDA 半个身位;新模型 Day-0 可用性不如 N 卡。
个人/小企业自采可能性极低,均通过云租用体验。
2.8 中国特供 & 本土 GPU#
- NVIDIA H20 96GB:国内特供卡,算力砍到 H100 的 ~15%,但 HBM3 96GB + 4TB/s 带宽 让它在推理场景反而能打,单卡价 ~¥110–130k
- 摩尔线程 MTT S5000:国产全功能 GPU,32GB 显存,对标 RTX 4090,官方页
- 壁仞 BR100:7nm,HBM2e 64GB,受出口管制影响供应不稳,官网
- 寒武纪 MLU370-X8:推理场景,48GB LPDDR5,产品页
这些卡在特定央国企招标中会出现,但软件生态距昇腾还有距离。除非有强行政要求,不建议作为首选。
3. 主流开源大模型 × 硬件匹配矩阵#
单流解码 tok/s 估算(FP8/INT4 量化、短上下文):
| 模型 | 参数/激活 | 精度/体积 | RTX 4090 24G | RTX 5090 32G | PRO 6000 96G | 2×PRO 6000 | Mac M3U 512G | DGX Spark 128G | 8×H200 |
|---|---|---|---|---|---|---|---|---|---|
| Llama-3.3-8B | 8B | FP16 16G | 100+ | 150+ | 200+ | – | 60 | 50 | – |
| Qwen3-14B | 14B | FP8 14G | 70 | 110 | 160 | – | 35 | 35 | – |
| Qwen3-32B | 32B | INT4 16G | 40(紧) | 85 | 130 | – | 22 | 20 | – |
| Llama-3.3-70B | 70B | INT4 35G | – | 双卡 35 | 55 | 90 | 10–12 | 7 | 很快但浪费 |
| Qwen3-72B | 72B | FP8 72G | – | – | 50 | 85 | 10 | – | 很快 |
| Mixtral 8x22B | 141B/39B | INT4 70G | – | – | 70 | 110 | 18 | – | – |
| Qwen3-235B-A22B | 235B/22B | INT4 120G | – | – | – | 60–80 | 25–30 | – | – |
| DeepSeek-V3/R1 | 671B/37B | INT4 ~340G | – | – | – | – | 17–20 | – | FP8 原生 1500+ 总吞 |
| Kimi K2 1T | 1T/32B | Q4 ~500G | – | – | – | – | Q3 勉强 | – | 集群 |
| DeepSeek V4(假设) | – | – | – | – | – | – | 需 Q4 | – | 数据中心级 |
说明:DeepSeek V4 截至 2026-05-10 未有官方发布公告;Kimi K2 1T 实测见 Moonshot AI 技术报告。
4. 30 秒决策树#
C -->|class="hljs-number">1-class="hljs-number">3 人| C1[RTX class="hljs-number">5090 32G]
C -->|class="hljs-number">10-class="hljs-number">50 并发| C2[RTX PRO class="hljs-number">6000 96G × class="hljs-number">1]
D -->|个人/原型| D1[RTX class="hljs-number">5090 或 DGX Spark]
D -->|生产并发| D2[PRO class="hljs-number">6000 96G × class="hljs-number">1 FP8]
E -->|单用户探索| E1[Mac Studio M3 Ultra class="hljs-number">256/512G]
E -->|小团队私有| E2[PRO class="hljs-number">6000 × class="hljs-number">1 FP8 单卡]
E -->|产品级并发| E3[class="hljs-number">2× PRO class="hljs-number">6000 或 class="hljs-number">8× H100 节点]
F -->|个人离线| F1[Mac Studio 512G Q4]
F -->|团队生产| F2[class="hljs-number">2× PRO class="hljs-number">6000 或 class="hljs-number">8× H200 节点]
F -->|高并发产品| F3[多节点 class="hljs-number">8× H200/B200]
G -->|单机极限| G1[Mac Studio 512G Q4 不适合服务]
G -->|生产唯一解| G2[class="hljs-number">8× H200/B200/B300 节点]评论