AI2026年7月4日· 约 20 分钟

开源大模型本地部署硬件选型深度指南

#硬件选型#大模型#深度学习#GPU#性能优化
Twitter 微博

开源大模型本地部署硬件选型深度指南

开源大模型本地部署硬件选型深度指南

作者:SkySeraph
原始链接:llm_locally
日期:2026-05-17
数据截至 2026-05-17
本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理,价格/供货信息请以官网当日为准。


1. 选型四坐标与容量公式#

绝大多数“该买哪块卡”的纠结,都是因为没把需求拆清楚。真实选型只看四个量:

坐标 关键指标 决定什么
显存/统一内存容量 GB 能装下多大模型、多长 KV Cache
显存带宽 GB/s 解码阶段 tokens/s 的天花板
算力(FP8 / FP4 TFLOPS) T 首 token 延迟 (TTFT) 与 prefill 吞吐
互联(NVLink / NVLink Switch / UB / PCIe) GB/s 多卡/多机能否线性扩展

解码阶段 tok/s 的经验公式(内存带宽受限时成立):

tokens/s  ≈  显存带宽 (GB/s) / 激活参数体积 (GB)

例:Qwen3-32B 权重 BF16 ≈ 64GB,INT4 ≈ 16GB;RTX 5090 带宽 1.79TB/s,理论���限 ≈ 1790/16 ≈ 112 tok/s,vLLM 实测 80–95 tok/s,吻合。公式本身是 roofline 在 memory-bound 阶段的简化,详见 PagedAttention 论文SGLang RadixAttention 论文

Prefill 阶段由算力决定,tok/s 正比于 TFLOPS / (2 × 激活参数量);长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见 vLLM 文档


2. 硬件全景深度对比#

2.1 Apple Silicon:Mac Studio 产品线#

Apple Mac Studio 历代 Ultra 芯片内存上限对比:

芯片 发布 最大统一内存 内存带宽 备注
M2 Ultra 2023.6 192 GB 800 GB/s Mac Studio / Mac Pro
M3 Ultra 2025.3 192 GB 800 GB/s Mac Studio / Mac Pro
M4 Ultra 2025.3 192 GB 546 GB/s Mac Studio / Mac Pro

来源:Apple Mac Studio 规格页Apple M4 Ultra 规格(cpu-monkey)Wikipedia M3 Ultra

注意:M2 Ultra Mac Studio 支持最高 192 GB,不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息,已更正。

Mac Pro(M2 Ultra) 支持最高 192 GB;如需更大内存跑超大模型,目前 Apple 生态无单机超过 192 GB 的消费级方案。

能跑的极限负载(社区实测,192 GB 上限)

  • Qwen3-235B-A22B Q4(~120 GB):192GB 机型可装下,约 25–30 tok/s,见 LocalLLaMA 实测线程
  • Llama-3.3-70B Q4(~40 GB):约 12–18 tok/s
  • DeepSeek-V3/R1 671B Q4_K_M(~380 GB):192 GB 装不下,需要多机或其他方案

M3 Ultra vs M4 Ultra 选择

  • 两者内存上限相同(192 GB),M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s,推理速度 M3 Ultra 更快
  • M4 Ultra CPU/Neural Engine 更新,编译/微调任务更快
  • 起价均约 US$ 3,999Apple 官网

不适合

  • 长上下文 prefill 慢(compute-bound),128K ctx 首 token 几十秒级
  • 并发差,单 batch 天然状态,上 vLLM/SGLang 无收益
  • 无 CUDA,绝大多数训练/微调工具链走弯路
  • 无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型

2.2 NVIDIA 消费级:RTX 4090 / RTX 5090#

RTX 4090 RTX 5090
架构 Ada (AD102) Blackwell (GB202)
显存 24 GB GDDR6X 32 GB GDDR7
带宽 1,008 GB/s 1,792 GB/s
FP8 / FP4 TFLOPS 660 / — 3,352 / 6,704(含稀疏)
TDP 450 W 575 W
MSRP US$ 1,599 US$ 1,999
国内参考价 ¥12–18k(二手)/ ¥18–22k(新) ¥20–25k(AIB 版)

官方规格:RTX 4090RTX 5090。国内价格参考中关村在线,因关税/汇率波动请以当日电商报价为准。

整机 TCO 估算(3 年,含电费)

配置 硬件成本 满载功耗 3 年电费(¥0.8/kWh,IDC) 3 年总成本
1× RTX 5090 + 主机 ~¥30k ~700W ~¥1.5k ~¥31.5k
2× RTX 5090 + 主机 ~¥55k ~1,400W ~¥3k ~¥58k

实测(vLLM / TensorRT-LLM)

  • 5090 单卡 Qwen3-32B AWQ-INT4:单流 ~85 tok/s,batch 8 合计 ~340 tok/s(vLLM benchmark 脚本
  • 4090 单卡 Qwen3-14B FP8:~120 tok/s 单流
  • 2× 5090 张量并行:Blackwell 消费卡无 NVLink,走 PCIe 5.0 x16,70B Q4 双卡 ~40–55 tok/s
  • 不支持 MIG / vGPU,不能切卡做多租户(NVIDIA vGPU 支持矩阵

  • 575W 对家用电源/散热是硬门槛,2 卡起必须 1600W+ 钛金电源 + 开放式机架
  • 消费卡 NVIDIA Driver EULA 禁止数据中心部署(出海 SaaS 要注意)

2.3 NVIDIA 工作站级:RTX PRO 6000 Blackwell#

2026 H1 单机本地部署最甜的卡

整机 TCO 估算(3 年,含电费,IDC 电价 ¥0.8/kWh)

配置 硬件成本(含整机) 满载功耗 3 年电费 3 年总成本
1× PRO 6000 整机 ~¥22 万 ~500W ~¥1.1 万 ~¥23 万
2× PRO 6000 整机 ~¥35 万 ~800W ~¥1.7 万 ~¥37 万

单卡可跑

  • Llama-3.3-70B FP8(~70GB) → ~55 tok/s 单流,batch 32 稳态 ~600 tok/s
  • Qwen3-72B FP8 单卡放下,~50 tok/s 单流,batch 32 稳态 ~550 tok/s
  • DeepSeek-R1-Distill-Llama-70B FP8 单卡
  • 128K 长上下文 KV Cache 游刃有余(vLLM 长上下文指南

并发能力参考(Qwen3-72B FP8,vLLM,TTFT p95 ≤ 500ms):

并发用户数 稳态 tok/s 说明
5 ~250 轻松,有大量余量
20 ~500 舒适区,推荐日常生产
50 ~580 接近上限,队列开始积压
100+ 需 2 卡 单卡 KV Cache 不足

双卡(2× = 192GB)

  • DeepSeek-V3 671B INT4(~335GB)放不下
  • Qwen3-235B-A22B INT4(~120GB)可以,TP=2 单流 60–80 tok/s,batch 32 稳态 ~1,200 tok/s,支持 ~100 并发

工作站版与数据中心版(RTX PRO 6000 Blackwell Server Edition,被动散热)区别见 NVIDIA PRO GPU 对比


2.4 NVIDIA 数据中心:H100 / H200 / B200 / B300#

显存 带宽 FP8 / FP4 TFLOPS 单卡价 官方链接
H100 SXM5 80GB HBM3 3.35 TB/s 1,979 / — ~$25k H100
H100 NVL 94GB HBM3 3.9 TB/s 1,979 / — ~$30k 同上
H200 SXM 141GB HBM3e 4.8 TB/s 1,979 / — ~$30k H200
B200 SXM 192GB HBM3e 8 TB/s 4,500 / 9,000 ~$35–40k Blackwell 架构
B300 SXM 288GB HBM3e ~10 TB/s ~5,500 / ~11,000 ~$40–45k B300 发布

GB200 / GB300 NVL72:超节点架构,把 72 颗 Blackwell GPU 通过 NVLink Switch 做成"单机",总显存 13.8TB、总带宽 576TB/s,单柜推理 DeepSeek V3 可达 30× 单节点吞吐,发布资料见 GB200 NVL72

租 vs 买的边界:8× H100/H200 机柜功耗 10kW 级,机房/冷却/运维都是专业活。个人/小团队 不要自购

主流云平台 GPU 按需租用价格(2025 年实测,含税前)

平台 实例 按需价 预留价(1yr) 来源
Lambda Cloud 1× H100 SXM5 80G $2.49/hr $1.99/hr Lambda 定价页
Lambda Cloud 8× H100 SXM5 80G $19.92/hr $15.92/hr Lambda 定价页
Lambda Cloud 1× H200 SXM5 141G $3.29/hr $2.63/hr Lambda 定价页
Lambda Cloud 8× H200 SXM5 141G $26.32/hr $21.06/hr Lambda 定价页
RunPod 1× H100 SXM 80G $2.49/hr(社区)/ $3.99/hr(安全) RunPod 定价页
RunPod 1× H200 SXM 141G $4.49/hr(社区)/ $5.99/hr(安全) RunPod 定价页
阿里云 PAI-DSW 1× H100 80G ~¥30–50/hr(按量) ~¥20–35/hr(包月) 阿里云价格计算器

8× H200 节点按需月费:Lambda $26.32×24×30 ≈ $18,950/月(~¥13.7 万);预留价约 $15,200/月(~¥11 万)。自建同等节点 3 年 TCO 约 ¥450–500 万,18–24 个月回本

8× H200 节点跑 DeepSeek-V3 671B FP8 原生,单节点 1,500–2,500 tok/s 总吞吐(SGLang / vLLM,batch 64+),参考 SGLang DeepSeek V3 benchmarkvLLM benchmark 报告


2.5 NVIDIA DGX Spark(GB10)#

CES 2025 发布、2026 年初开始发货的"个人 AI 工作站"。

  • GB10 Grace Blackwell Superchip:20-core Arm CPU + Blackwell GPU
  • 128 GB LPDDR5X 统一内存,273 GB/s 带宽(注意不是 HBM)
  • 1 PetaFLOP FP4 算力
  • 起售价 US$ 3,299NVIDIA 官方页
  • 双机 ConnectX-7 200GbE 互联可扩展到 256GB
  • 官方:DGX SparkNVIDIA 公告

定位:CUDA 生态的个人工作站,对标 Mac Studio。

  • 273 GB/s 带宽是硬伤:Qwen3-32B Q4 解码理论上限 ~17 tok/s,实测 12–15,不如 5090
  • 优势是 CUDA 全家桶(TRT-LLM、NeMo、BitsAndBytes、PEFT、Unsloth 一把梭),开发体验比 Mac 强一档
  • 双机 256GB 跑 Llama-3.3-70B BF16 可行;70B FP8 单机 128GB 够

一句话:想要 CUDA 生态又不上 PRO 6000 预算,Spark 是唯一解;别拿它做生产推理


2.6 华为昇腾 910B / 910C#

软件栈CANN + MindIE + MindSpore + vLLM-Ascend

2026.5 适配状态

  • DeepSeek V3/R1、Qwen2.5/Qwen3、GLM-4 官方 MindIE 适配路径齐全,支持 W8A8 量化(见 ModelZoo-PyTorch
  • Llama 系列社区适配但非一等公民
  • vLLM-Ascend 已合并 vLLM 主干(实验性),支持 DeepSeek、Qwen3、Llama3

谁该买:信创合规强约束的政企、央国企、银行、运营商、政务。不是这类客户别凑热闹——工具链成熟度距 CUDA 仍有真实差距,调优人力是隐藏成本。


2.7 AMD Instinct MI300X / MI325X / MI350X#

显存 带宽 FP8 TFLOPS 官方链接
MI300X 192 GB HBM3 5.3 TB/s 2,614 AMD MI300X
MI325X 256 GB HBM3e 6 TB/s 2,614 AMD MI325X
MI350X 288 GB HBM3e 8 TB/s ~5,000 AMD CDNA4 / MI350

软件栈:ROCmvLLM ROCmSGLang ROCm

优势

  • MI300X 单卡 192GB 放下 Llama-3.3-70B BF16(~140GB),单机 8 卡能跑 DeepSeek V3 FP8 原生
  • 云端价(Azure ND MI300X v5、OCI BM.GPU.MI300X.8)通常比同配置 H100 低 20–30%
  • MLPerf Inference v4.1 上 MI300X Llama-2 70B 接近 H100

劣势:ROCm 在 FP8 kernel、FlashAttention-3、FP4 支持上仍落后 CUDA 半个身位;新模型 Day-0 可用性不如 N 卡。

个人/小企业自采可能性极低,均通过云租用体验。


2.8 中国特供 & 本土 GPU#

  • NVIDIA H20 96GB:国内特供卡,算力砍到 H100 的 ~15%,但 HBM3 96GB + 4TB/s 带宽 让它在推理场景反而能打,单卡价 ~¥110–130k
  • 摩尔线程 MTT S5000:国产全功能 GPU,32GB 显存,对标 RTX 4090,官方页
  • 壁仞 BR100:7nm,HBM2e 64GB,受出口管制影响供应不稳,官网
  • 寒武纪 MLU370-X8:推理场景,48GB LPDDR5,产品页

这些卡在特定央国企招标中会出现,但软件生态距昇腾还有距离。除非有强行政要求,不建议作为首选。


3. 主流开源大模型 × 硬件匹配矩阵#

单流解码 tok/s 估算(FP8/INT4 量化、短上下文):

模型 参数/激活 精度/体积 RTX 4090 24G RTX 5090 32G PRO 6000 96G 2×PRO 6000 Mac M3U 512G DGX Spark 128G 8×H200
Llama-3.3-8B 8B FP16 16G 100+ 150+ 200+ 60 50
Qwen3-14B 14B FP8 14G 70 110 160 35 35
Qwen3-32B 32B INT4 16G 40(紧) 85 130 22 20
Llama-3.3-70B 70B INT4 35G 双卡 35 55 90 10–12 7 很快但浪费
Qwen3-72B 72B FP8 72G 50 85 10 很快
Mixtral 8x22B 141B/39B INT4 70G 70 110 18
Qwen3-235B-A22B 235B/22B INT4 120G 60–80 25–30
DeepSeek-V3/R1 671B/37B INT4 ~340G 17–20 FP8 原生 1500+ 总吞
Kimi K2 1T 1T/32B Q4 ~500G Q3 勉强 集群
DeepSeek V4(假设) 需 Q4 数据中心级

说明:DeepSeek V4 截至 2026-05-10 未有官方发布公告;Kimi K2 1T 实测见 Moonshot AI 技术报告


4. 30 秒决策树#

flowchart TD A[要部署什么模型?] --> B{模型规模} B -->|≤ 14B| C{用户规模} B -->|32B 级| D{场景} B -->|70B 级| E{场景} B -->|200B+ MoE| F{场景} B -->|600B+ 满血 MoE| G{场景} B -->|信创强约束| H[Atlas 800I A2 起步]
C -->|class="hljs-number">1-class="hljs-number">3 人| C1[RTX class="hljs-number">5090 32G]
C -->|class="hljs-number">10-class="hljs-number">50 并发| C2[RTX PRO class="hljs-number">6000 96G × class="hljs-number">1]

D -->|个人/原型| D1[RTX class="hljs-number">5090 或 DGX Spark]
D -->|生产并发| D2[PRO class="hljs-number">6000 96G × class="hljs-number">1 FP8]

E -->|单用户探索| E1[Mac Studio M3 Ultra class="hljs-number">256/512G]
E -->|小团队私有| E2[PRO class="hljs-number">6000 × class="hljs-number">1 FP8 单卡]
E -->|产品级并发| E3[class="hljs-number">2× PRO class="hljs-number">6000 或 class="hljs-number">8× H100 节点]

F -->|个人离线| F1[Mac Studio 512G Q4]
F -->|团队生产| F2[class="hljs-number">2× PRO class="hljs-number">6000 或 class="hljs-number">8× H200 节点]
F -->|高并发产品| F3[多节点 class="hljs-number">8× H200/B200]

G -->|单机极限| G1[Mac Studio 512G Q4 不适合服务]
G -->|生产唯一解| G2[class="hljs-number">8× H200/B200/B300 节点]

原文链接:https://www.cnblogs.com/skyseraph/p/21109151

评论

© 2026 松岛川树