开源大模型本地部署硬件选型深度指南

作者：SkySeraph
原始链接：llm_locally
日期：2026-05-17
数据截至 2026-05-17
本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理，价格/供货信息请以官网当日为准。

1. 选型四坐标与容量公式#

绝大多数“该买哪块卡”的纠结，都是因为没把需求拆清楚。真实选型只看四个量：

坐标	关键指标	决定什么
显存/统一内存容量	GB	能装下多大模型、多长 KV Cache
显存带宽	GB/s	解码阶段 tokens/s 的天花板
算力（FP8 / FP4 TFLOPS）	T	首 token 延迟 (TTFT) 与 prefill 吞吐
互联（NVLink / NVLink Switch / UB / PCIe）	GB/s	多卡/多机能否线性扩展

解码阶段 tok/s 的经验公式（内存带宽受限时成立）：

tokens/s  ≈  显存带宽 (GB/s) / 激活参数体积 (GB)

例：Qwen3-32B 权重 BF16 ≈ 64GB，INT4 ≈ 16GB；RTX 5090 带宽 1.79TB/s，理论��限 ≈ 1790/16 ≈ 112 tok/s，vLLM 实测 80–95 tok/s，吻合。公式本身是 roofline 在 memory-bound 阶段的简化，详见 PagedAttention 论文与 SGLang RadixAttention 论文。

Prefill 阶段由算力决定，tok/s 正比于 TFLOPS / (2 × 激活参数量)；长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见 vLLM 文档。

2. 硬件全景深度对比#

2.1 Apple Silicon：Mac Studio 产品线#

Apple Mac Studio 历代 Ultra 芯片内存上限对比：

芯片	发布	最大统一内存	内存带宽	备注
M2 Ultra	2023.6	192 GB	800 GB/s	Mac Studio / Mac Pro
M3 Ultra	2025.3	192 GB	800 GB/s	Mac Studio / Mac Pro
M4 Ultra	2025.3	192 GB	546 GB/s	Mac Studio / Mac Pro

来源：Apple Mac Studio 规格页、Apple M4 Ultra 规格（cpu-monkey）、Wikipedia M3 Ultra

注意：M2 Ultra Mac Studio 支持最高 192 GB，不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息，已更正。

Mac Pro（M2 Ultra） 支持最高 192 GB；如需更大内存跑超大模型，目前 Apple 生态无单机超过 192 GB 的消费级方案。

M4 Max MacBook Pro：128 GB 上限，546 GB/s，见 Apple MacBook Pro
软件栈：MLX、llama.cpp Metal、Ollama、LM Studio

能跑的极限负载（社区实测，192 GB 上限）：

Qwen3-235B-A22B Q4（~120 GB）：192GB 机型可装下，约 25–30 tok/s，见 LocalLLaMA 实测线程
Llama-3.3-70B Q4（~40 GB）：约 12–18 tok/s
DeepSeek-V3/R1 671B Q4_K_M（~380 GB）：192 GB 装不下，需要多机或其他方案

M3 Ultra vs M4 Ultra 选择：

两者内存上限相同（192 GB），M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s，推理速度 M3 Ultra 更快
M4 Ultra CPU/Neural Engine 更新，编译/微调任务更快
起价均约 US$ 3,999（Apple 官网）

不适合：

长上下文 prefill 慢（compute-bound），128K ctx 首 token 几十秒级
并发差，单 batch 天然状态，上 vLLM/SGLang 无收益
无 CUDA，绝大多数训练/微调工具链走弯路
无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型

2.2 NVIDIA 消费级：RTX 4090 / RTX 5090#

项	RTX 4090	RTX 5090
架构	Ada (AD102)	Blackwell (GB202)
显存	24 GB GDDR6X	32 GB GDDR7
带宽	1,008 GB/s	1,792 GB/s
FP8 / FP4 TFLOPS	660 / —	3,352 / 6,704（含稀疏）
TDP	450 W	575 W
MSRP	US$ 1,599	US$ 1,999
国内参考价	¥12–18k（二手）/ ¥18–22k（新）	¥20–25k（AIB 版）

官方规格：RTX 4090、RTX 5090。国内价格参考中关村在线，因关税/汇率波动请以当日电商报价为准。

整机 TCO 估算（3 年，含电费）：

配置	硬件成本	满载功耗	3 年电费（¥0.8/kWh，IDC）	3 年总成本
1× RTX 5090 + 主机	~¥30k	~700W	~¥1.5k	~¥31.5k
2× RTX 5090 + 主机	~¥55k	~1,400W	~¥3k	~¥58k

实测（vLLM / TensorRT-LLM）：

5090 单卡 Qwen3-32B AWQ-INT4：单流 ~85 tok/s，batch 8 合计 ~340 tok/s（vLLM benchmark 脚本）
4090 单卡 Qwen3-14B FP8：~120 tok/s 单流
2× 5090 张量并行：Blackwell 消费卡无 NVLink，走 PCIe 5.0 x16，70B Q4 双卡 ~40–55 tok/s
不支持 MIG / vGPU，不能切卡做多租户（NVIDIA vGPU 支持矩阵）

坑：

575W 对家用电源/散热是硬门槛，2 卡起必须 1600W+ 钛金电源 + 开放式机架
消费卡 NVIDIA Driver EULA 禁止数据中心部署（出海 SaaS 要注意）

2.3 NVIDIA 工作站级：RTX PRO 6000 Blackwell#

2026 H1 单机本地部署最甜的卡。

96 GB GDDR7 ECC，带宽 1,792 GB/s，AI 算力 4,000 TOPS
- 来源：NVIDIA 官方产品页
300W TDP（工作站版主动散热；Server Edition 被动散热，需机箱风道）
- 来源：TechPowerUp 规格页
支持 MIG（4 分区）、vGPU、ECC，规格见官方产品页
MSRP US$ 8,999（2025.3 上市，国内含税约 ¥75–90k，以当日电商报价为准）
- 来源：TechPowerUp、Newegg 在售页

整机 TCO 估算（3 年，含电费，IDC 电价 ¥0.8/kWh）：

配置	硬件成本（含整机）	满载功耗	3 年电费	3 年总成本
1× PRO 6000 整机	~¥22 万	~500W	~¥1.1 万	~¥23 万
2× PRO 6000 整机	~¥35 万	~800W	~¥1.7 万	~¥37 万

单卡可跑：

Llama-3.3-70B FP8（~70GB） → ~55 tok/s 单流，batch 32 稳态 ~600 tok/s
Qwen3-72B FP8 单卡放下，~50 tok/s 单流，batch 32 稳态 ~550 tok/s
DeepSeek-R1-Distill-Llama-70B FP8 单卡
128K 长上下文 KV Cache 游刃有余（vLLM 长上下文指南）

并发能力参考（Qwen3-72B FP8，vLLM，TTFT p95 ≤ 500ms）：

并发用户数	稳态 tok/s	说明
5	~250	轻松，有大量余量
20	~500	舒适区，推荐日常生产
50	~580	接近上限，队列开始积压
100+	需 2 卡	单卡 KV Cache 不足

双卡（2× = 192GB）：

DeepSeek-V3 671B INT4（~335GB）放不下
Qwen3-235B-A22B INT4（~120GB）可以，TP=2 单流 60–80 tok/s，batch 32 稳态 ~1,200 tok/s，支持 ~100 并发

工作站版与数据中心版（RTX PRO 6000 Blackwell Server Edition，被动散热）区别见 NVIDIA PRO GPU 对比。

2.4 NVIDIA 数据中心：H100 / H200 / B200 / B300#

卡	显存	带宽	FP8 / FP4 TFLOPS	单卡价	官方链接
H100 SXM5 80GB	HBM3	3.35 TB/s	1,979 / —	~$25k	H100
H100 NVL 94GB	HBM3	3.9 TB/s	1,979 / —	~$30k	同上
H200 SXM 141GB	HBM3e	4.8 TB/s	1,979 / —	~$30k	H200
B200 SXM 192GB	HBM3e	8 TB/s	4,500 / 9,000	~$35–40k	Blackwell 架构
B300 SXM 288GB	HBM3e	~10 TB/s	~5,500 / ~11,000	~$40–45k	B300 发布

GB200 / GB300 NVL72：超节点架构，把 72 颗 Blackwell GPU 通过 NVLink Switch 做成"单机"，总显存 13.8TB、总带宽 576TB/s，单柜推理 DeepSeek V3 可达 30× 单节点吞吐，发布资料见 GB200 NVL72。

租 vs 买的边界：8× H100/H200 机柜功耗 10kW 级，机房/冷却/运维都是专业活。个人/小团队 不要自购：

短期租：Lambda Cloud、CoreWeave、RunPod
长包：Oracle OCI、阿里灵骏 PAI-DSW、腾讯 TI-ONE、AWS p5 / p6

主流云平台 GPU 按需租用价格（2025 年实测，含税前）：

平台	实例	按需价	预留价（1yr）	来源
Lambda Cloud	1× H100 SXM5 80G	$2.49/hr	$1.99/hr	Lambda 定价页
Lambda Cloud	8× H100 SXM5 80G	$19.92/hr	$15.92/hr	Lambda 定价页
Lambda Cloud	1× H200 SXM5 141G	$3.29/hr	$2.63/hr	Lambda 定价页
Lambda Cloud	8× H200 SXM5 141G	$26.32/hr	$21.06/hr	Lambda 定价页
RunPod	1× H100 SXM 80G	$2.49/hr（社区）/ $3.99/hr（安全）	—	RunPod 定价页
RunPod	1× H200 SXM 141G	$4.49/hr（社区）/ $5.99/hr（安全）	—	RunPod 定价页
阿里云 PAI-DSW	1× H100 80G	~¥30–50/hr（按量）	~¥20–35/hr（包月）	阿里云价格计算器

8× H200 节点按需月费：Lambda $26.32×24×30 ≈ $18,950/月（~¥13.7 万）；预留价约 $15,200/月（~¥11 万）。自建同等节点 3 年 TCO 约 ¥450–500 万，18–24 个月回本。

8× H200 节点跑 DeepSeek-V3 671B FP8 原生，单节点 1,500–2,500 tok/s 总吞吐（SGLang / vLLM，batch 64+），参考 SGLang DeepSeek V3 benchmark 与 vLLM benchmark 报告。

2.5 NVIDIA DGX Spark（GB10）#

CES 2025 发布、2026 年初开始发货的"个人 AI 工作站"。

GB10 Grace Blackwell Superchip：20-core Arm CPU + Blackwell GPU
128 GB LPDDR5X 统一内存，273 GB/s 带宽（注意不是 HBM）
1 PetaFLOP FP4 算力
起售价 US$ 3,299（NVIDIA 官方页）
双机 ConnectX-7 200GbE 互联可扩展到 256GB
官方：DGX Spark、NVIDIA 公告

定位：CUDA 生态的个人工作站，对标 Mac Studio。

273 GB/s 带宽是硬伤：Qwen3-32B Q4 解码理论上限 ~17 tok/s，实测 12–15，不如 5090
优势是 CUDA 全家桶（TRT-LLM、NeMo、BitsAndBytes、PEFT、Unsloth 一把梭），开发体验比 Mac 强一档
双机 256GB 跑 Llama-3.3-70B BF16 可行；70B FP8 单机 128GB 够

一句话：想要 CUDA 生态又不上 PRO 6000 预算，Spark 是唯一解；别拿它做生产推理。

2.6 华为昇腾 910B / 910C#

Ascend 910B：HBM2e 64GB、带宽 ~1.6 TB/s、BF16 约 320 TFLOPS，规格见昇腾 910 系列
Ascend 910C：双 die 封装，~128GB HBM3、FP16 实际推理性能约 H100 的 60–80%（SemiAnalysis 深度拆解）
Atlas 800I A2：8×910B 整机，国内渠道 ~¥120–140 万（华为 Atlas 800I A2 产品页）
Atlas 900 A3 SuperPoD：910C × 384 卡超节点（Huawei Connect 2024 发布），对标 GB200 NVL72

软件栈：CANN + MindIE + MindSpore + vLLM-Ascend。

2026.5 适配状态：

DeepSeek V3/R1、Qwen2.5/Qwen3、GLM-4 官方 MindIE 适配路径齐全，支持 W8A8 量化（见 ModelZoo-PyTorch）
Llama 系列社区适配但非一等公民
vLLM-Ascend 已合并 vLLM 主干（实验性），支持 DeepSeek、Qwen3、Llama3

谁该买：信创合规强约束的政企、央国企、银行、运营商、政务。不是这类客户别凑热闹——工具链成熟度距 CUDA 仍有真实差距，调优人力是隐藏成本。

2.7 AMD Instinct MI300X / MI325X / MI350X#

卡	显存	带宽	FP8 TFLOPS	官方链接
MI300X	192 GB HBM3	5.3 TB/s	2,614	AMD MI300X
MI325X	256 GB HBM3e	6 TB/s	2,614	AMD MI325X
MI350X	288 GB HBM3e	8 TB/s	~5,000	AMD CDNA4 / MI350

软件栈：ROCm、vLLM ROCm、SGLang ROCm。

优势：

MI300X 单卡 192GB 放下 Llama-3.3-70B BF16（~140GB），单机 8 卡能跑 DeepSeek V3 FP8 原生
云端价（Azure ND MI300X v5、OCI BM.GPU.MI300X.8）通常比同配置 H100 低 20–30%
MLPerf Inference v4.1 上 MI300X Llama-2 70B 接近 H100

劣势：ROCm 在 FP8 kernel、FlashAttention-3、FP4 支持上仍落后 CUDA 半个身位；新模型 Day-0 可用性不如 N 卡。

个人/小企业自采可能性极低，均通过云租用体验。

2.8 中国特供 & 本土 GPU#

NVIDIA H20 96GB：国内特供卡，算力砍到 H100 的 ~15%，但 HBM3 96GB + 4TB/s 带宽让它在推理场景反而能打，单卡价 ~¥110–130k
摩尔线程 MTT S5000：国产全功能 GPU，32GB 显存，对标 RTX 4090，官方页
壁仞 BR100：7nm，HBM2e 64GB，受出口管制影响供应不稳，官网
寒武纪 MLU370-X8：推理场景，48GB LPDDR5，产品页

这些卡在特定央国企招标中会出现，但软件生态距昇腾还有距离。除非有强行政要求，不建议作为首选。

3. 主流开源大模型 × 硬件匹配矩阵#

单流解码 tok/s 估算（FP8/INT4 量化、短上下文）：

模型	参数/激活	精度/体积	RTX 4090 24G	RTX 5090 32G	PRO 6000 96G	2×PRO 6000	Mac M3U 512G	DGX Spark 128G	8×H200
Llama-3.3-8B	8B	FP16 16G	100+	150+	200+	–	60	50	–
Qwen3-14B	14B	FP8 14G	70	110	160	–	35	35	–
Qwen3-32B	32B	INT4 16G	40(紧)	85	130	–	22	20	–
Llama-3.3-70B	70B	INT4 35G	–	双卡 35	55	90	10–12	7	很快但浪费
Qwen3-72B	72B	FP8 72G	–	–	50	85	10	–	很快
Mixtral 8x22B	141B/39B	INT4 70G	–	–	70	110	18	–	–
Qwen3-235B-A22B	235B/22B	INT4 120G	–	–	–	60–80	25–30	–	–
DeepSeek-V3/R1	671B/37B	INT4 ~340G	–	–	–	–	17–20	–	FP8 原生 1500+ 总吞
Kimi K2 1T	1T/32B	Q4 ~500G	–	–	–	–	Q3 勉强	–	集群
DeepSeek V4（假设）	–	–	–	–	–	–	需 Q4	–	数据中心级

说明：DeepSeek V4 截至 2026-05-10 未有官方发布公告；Kimi K2 1T 实测见 Moonshot AI 技术报告。

4. 30 秒决策树#

flowchart TD A[要部署什么模型?] --> B{模型规模} B -->|≤ 14B| C{用户规模} B -->|32B 级| D{场景} B -->|70B 级| E{场景} B -->|200B+ MoE| F{场景} B -->|600B+ 满血 MoE| G{场景} B -->|信创强约束| H[Atlas 800I A2 起步]

C --&gt;|class="hljs-number">1-class="hljs-number">3 人| C1[RTX class="hljs-number">5090 32G]
C --&gt;|class="hljs-number">10-class="hljs-number">50 并发| C2[RTX PRO class="hljs-number">6000 96G × class="hljs-number">1]

D --&gt;|个人/原型| D1[RTX class="hljs-number">5090 或 DGX Spark]
D --&gt;|生产并发| D2[PRO class="hljs-number">6000 96G × class="hljs-number">1 FP8]

E --&gt;|单用户探索| E1[Mac Studio M3 Ultra class="hljs-number">256/512G]
E --&gt;|小团队私有| E2[PRO class="hljs-number">6000 × class="hljs-number">1 FP8 单卡]
E --&gt;|产品级并发| E3[class="hljs-number">2× PRO class="hljs-number">6000 或 class="hljs-number">8× H100 节点]

F --&gt;|个人离线| F1[Mac Studio 512G Q4]
F --&gt;|团队生产| F2[class="hljs-number">2× PRO class="hljs-number">6000 或 class="hljs-number">8× H200 节点]
F --&gt;|高并发产品| F3[多节点 class="hljs-number">8× H200/B200]

G --&gt;|单机极限| G1[Mac Studio 512G Q4 不适合服务]
G --&gt;|生产唯一解| G2[class="hljs-number">8× H200/B200/B300 节点]

原文链接：https://www.cnblogs.com/skyseraph/p/21109151

AI 编程变更记录：知识加工模块与博客工厂模块的状态重新定义

AI 研发共生架构：别再问 AI 会不会替代程序员啦！