This commit is contained in:
FlintyLemming 2025-02-11 22:03:29 +08:00
parent d8f5e91ef9
commit 55a20f5de3

View File

@ -39,14 +39,7 @@ image = "https://hf-image.mitsea.com:8840/blog/posts/2025/02/Deepseek%20R1%20%E6
| | Pascal | Volta | Turing | Ampere | Ada | Hopper | Blackwell | | | Pascal | Volta | Turing | Ampere | Ada | Hopper | Blackwell |
| --- | --- | --- | --- | --- | --- | --- | --- | | --- | --- | --- | --- | --- | --- | --- | --- |
| 发布时间 | 2016 | 2017 | 2018 | 2020 | 2022 | 2022 | 2024 | | 发布时间 | 2016 | 2017 | 2018 | 2020 | 2022 | 2022 | 2024 |
| 典型显卡 | Tesla P40 | 典型显卡 | Tesla P40、GeForce GTX 1080 | Tesla V100 | Quadro RTX 6000、RTX 2080 | RTX A6000现在 GPU服务器用的、A100、RTX 3090 | RTX 6000 Ada、L40、RTX 4090 | H100、H200 | B200、RTX 5090 |
GeForce GTX 1080 | Tesla V100 | Quadro RTX 6000
RTX 2080 | RTX A6000现在 GPU服务器用的
A100
RTX 3090 | RTX 6000 Ada
L40
RTX 4090 | H100
H200 | B200
RTX 5090 | RTX 5090 |
### Nvidia 显卡接口不同 ### Nvidia 显卡接口不同
@ -61,23 +54,8 @@ RTX 5090 |
| --- | --- | --- | --- | --- | --- | --- | --- | | --- | --- | --- | --- | --- | --- | --- | --- |
| 态度 | 不推荐 | 最推荐 | 最推荐 | 推荐 | 不是很推荐 | 一般推荐 | 不是很推荐 | | 态度 | 不推荐 | 最推荐 | 最推荐 | 推荐 | 不是很推荐 | 一般推荐 | 不是很推荐 |
| 概述 | 自行购买10卡服务器两台再单独购买 20 块 A100甚至感觉都不够 | 能买到的最新最快的 Nvidia 官方平台 | 最适中的方案 | 主流方案之一 | 好处就是全部都是正规渠道完整保修 | 有点灵车,属于是钱足够的话我是不想用,钱不够的话不是不能用 | 只能说有成功跑起来的案例,硅基流动说他们用的华为 | | 概述 | 自行购买10卡服务器两台再单独购买 20 块 A100甚至感觉都不够 | 能买到的最新最快的 Nvidia 官方平台 | 最适中的方案 | 主流方案之一 | 好处就是全部都是正规渠道完整保修 | 有点灵车,属于是钱足够的话我是不想用,钱不够的话不是不能用 | 只能说有成功跑起来的案例,硅基流动说他们用的华为 |
| 优点 | 1. 没有 fp8 计算单元,最近抛货比较多,价格有所降低 | 优点 | 1. 没有 fp8 计算单元最近抛货比较多价格有所降低2. 购买渠道比较灵活方便 | 1. 有原生 fp8 计算单元,比 A100 架构更新推理速度快2. 单机不需要考虑双机互联的带宽瓶颈问题3. Nvidia 整机方案可靠性比较好 | 1. 周边配置可以选低一点,价格会比 DGX H200 便宜2. 单机,不需要考虑双机互联的带宽瓶颈问题 | 1. 有原生 fp8 计算单元,比 A100 架构更新推理速度快2. 购买渠道比较灵活方便 | 1. 未禁售货源可靠有完整保修2. 好购买 | 1. 有还算比较稳定货源2. 有成功跑起来的案例和测试数据3. AMD 官方自己站台了是支持 Deepseek | 想不出来 |
2. 购买渠道比较灵活方便 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快 | 缺点 | 1. Ampere 这代显卡没有 fp8 计算单元,如果跑不量化的版本,只能跑 scale 上去的 bf16模型本身占用的显存就要翻倍大概 1.4T),剩余给上下文和并发的 KV Cache 没多少2. 卡已禁售买到的原则上都是二手只能依靠经销商保修3. A100 架构放现在算比较老的了,两台纯粹是堆显存,就这可能还不太够 | 1. 货少价格不透明可能比较贵2. 显卡使用专有接口连接至主板,非 PCIe 接口不好升级和更换3. 一体化程度比较高,又是走私产品,一旦发生意外硬件损坏感觉会比较难修(得问经销商有没有能力) | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. H40 中国特供卡,而且连 Nvidia 官网都没 Datasheet2. 虽然有 fp8 计算单元,但是性能被砍很多,具体可以看 补充说明 一节 | 1. AMD 的驱动比较草台可能会有一些驱动导致的上游问题2. ROCm 推理 AMD 官方是推荐用 SGLangSGLang 本身还不是非常成熟,活跃更新中,跑 Deepseek 要不可避免使用测试版本 | 1. 资料很少而且华为自己就不怎么喜欢对外提供资料2. 910B 和 C 都不支持 fp8显存占用也是很大 |
2. 单机,不需要考虑双机互联的带宽瓶颈问题
3. Nvidia 整机方案可靠性比较好 | 1. 周边配置可以选低一点,价格会比 DGX H200 便宜
2. 单机,不需要考虑双机互联的带宽瓶颈问题 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快
2. 购买渠道比较灵活方便 | 1. 未禁售,货源可靠,有完整保修
2. 好购买 | 1. 有还算比较稳定货源
2. 有成功跑起来的案例和测试数据
3. AMD 官方自己站台了是支持 Deepseek | 想不出来 |
| 缺点 | 1. Ampere 这代显卡没有 fp8 计算单元,如果跑不量化的版本,只能跑 scale 上去的 bf16模型本身占用的显存就要翻倍大概 1.4T),剩余给上下文和并发的 KV Cache 没多少
2. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修
3. A100 架构放现在算比较老的了,两台纯粹是堆显存,就这可能还不太够 | 1. 货少,价格不透明,可能比较贵
2. 显卡使用专有接口连接至主板,非 PCIe 接口,不好升级和更换
3. 一体化程度比较高,又是走私产品,一旦发生意外硬件损坏感觉会比较难修(得问经销商有没有能力) | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. H40 中国特供卡,而且连 Nvidia 官网都没 Datasheet
2. 虽然有 fp8 计算单元,但是性能被砍很多,具体可以看 补充说明 一节 | 1. AMD 的驱动比较草台,可能会有一些驱动导致的上游问题
2. ROCm 推理 AMD 官方是推荐用 SGLangSGLang 本身还不是非常成熟,活跃更新中,跑 Deepseek 要不可避免使用测试版本 | 1. 资料很少,而且华为自己就不怎么喜欢对外提供资料
2. 910B 和 C 都不支持 fp8显存占用也是很大 |
| 总显存 | 80G x 20 = 1600GB | 141G x 8 = 1128GB | 141G x 8 = 1128GB | 80G x 16 = 1280GB | 96G x 16 = 1536GB | 192G x 8 = 1536GB | - | | 总显存 | 80G x 20 = 1600GB | 141G x 8 = 1128GB | 141G x 8 = 1128GB | 80G x 16 = 1280GB | 96G x 16 = 1536GB | 192G x 8 = 1536GB | - |
| 电源 | 约 10 kW | 约 8 kW | 约 8 kW | 约 10 kW | - | - | - | | 电源 | 约 10 kW | 约 8 kW | 约 8 kW | 约 10 kW | - | - | - |
| 官方链接 | - | [Link](https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html) | - | - | - | - | - | | 官方链接 | - | [Link](https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html) | - | - | - | - | - |