fix post
This commit is contained in:
parent
d8f5e91ef9
commit
55a20f5de3
@ -39,14 +39,7 @@ image = "https://hf-image.mitsea.com:8840/blog/posts/2025/02/Deepseek%20R1%20%E6
|
||||
| | Pascal | Volta | Turing | Ampere | Ada | Hopper | Blackwell |
|
||||
| --- | --- | --- | --- | --- | --- | --- | --- |
|
||||
| 发布时间 | 2016 | 2017 | 2018 | 2020 | 2022 | 2022 | 2024 |
|
||||
| 典型显卡 | Tesla P40
|
||||
GeForce GTX 1080 | Tesla V100 | Quadro RTX 6000
|
||||
RTX 2080 | RTX A6000(现在 GPU)服务器用的
|
||||
A100
|
||||
RTX 3090 | RTX 6000 Ada
|
||||
L40
|
||||
RTX 4090 | H100
|
||||
H200 | B200
|
||||
| 典型显卡 | Tesla P40、GeForce GTX 1080 | Tesla V100 | Quadro RTX 6000、RTX 2080 | RTX A6000(现在 GPU)服务器用的、A100、RTX 3090 | RTX 6000 Ada、L40、RTX 4090 | H100、H200 | B200、RTX 5090 |
|
||||
RTX 5090 |
|
||||
|
||||
### Nvidia 显卡接口不同
|
||||
@ -61,23 +54,8 @@ RTX 5090 |
|
||||
| --- | --- | --- | --- | --- | --- | --- | --- |
|
||||
| 态度 | 不推荐 | 最推荐 | 最推荐 | 推荐 | 不是很推荐 | 一般推荐 | 不是很推荐 |
|
||||
| 概述 | 自行购买10卡服务器两台,再单独购买 20 块 A100(甚至感觉都不够) | 能买到的最新最快的 Nvidia 官方平台 | 最适中的方案 | 主流方案之一 | 好处就是全部都是正规渠道完整保修 | 有点灵车,属于是钱足够的话我是不想用,钱不够的话不是不能用 | 只能说有成功跑起来的案例,硅基流动说他们用的华为 |
|
||||
| 优点 | 1. 没有 fp8 计算单元,最近抛货比较多,价格有所降低
|
||||
2. 购买渠道比较灵活方便 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快
|
||||
2. 单机,不需要考虑双机互联的带宽瓶颈问题
|
||||
3. Nvidia 整机方案可靠性比较好 | 1. 周边配置可以选低一点,价格会比 DGX H200 便宜
|
||||
2. 单机,不需要考虑双机互联的带宽瓶颈问题 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快
|
||||
2. 购买渠道比较灵活方便 | 1. 未禁售,货源可靠,有完整保修
|
||||
2. 好购买 | 1. 有还算比较稳定货源
|
||||
2. 有成功跑起来的案例和测试数据
|
||||
3. AMD 官方自己站台了是支持 Deepseek | 想不出来 |
|
||||
| 缺点 | 1. Ampere 这代显卡没有 fp8 计算单元,如果跑不量化的版本,只能跑 scale 上去的 bf16,模型本身占用的显存就要翻倍(大概 1.4T),剩余给上下文和并发的 KV Cache 没多少
|
||||
2. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修
|
||||
3. A100 架构放现在算比较老的了,两台纯粹是堆显存,就这可能还不太够 | 1. 货少,价格不透明,可能比较贵
|
||||
2. 显卡使用专有接口连接至主板,非 PCIe 接口,不好升级和更换
|
||||
3. 一体化程度比较高,又是走私产品,一旦发生意外硬件损坏感觉会比较难修(得问经销商有没有能力) | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. H40 中国特供卡,而且连 Nvidia 官网都没 Datasheet
|
||||
2. 虽然有 fp8 计算单元,但是性能被砍很多,具体可以看 补充说明 一节 | 1. AMD 的驱动比较草台,可能会有一些驱动导致的上游问题
|
||||
2. ROCm 推理 AMD 官方是推荐用 SGLang,SGLang 本身还不是非常成熟,活跃更新中,跑 Deepseek 要不可避免使用测试版本 | 1. 资料很少,而且华为自己就不怎么喜欢对外提供资料
|
||||
2. 910B 和 C 都不支持 fp8,显存占用也是很大 |
|
||||
| 优点 | 1. 没有 fp8 计算单元,最近抛货比较多,价格有所降低;2. 购买渠道比较灵活方便 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快;2. 单机,不需要考虑双机互联的带宽瓶颈问题;3. Nvidia 整机方案可靠性比较好 | 1. 周边配置可以选低一点,价格会比 DGX H200 便宜;2. 单机,不需要考虑双机互联的带宽瓶颈问题 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快;2. 购买渠道比较灵活方便 | 1. 未禁售,货源可靠,有完整保修;2. 好购买 | 1. 有还算比较稳定货源;2. 有成功跑起来的案例和测试数据;3. AMD 官方自己站台了是支持 Deepseek | 想不出来 |
|
||||
| 缺点 | 1. Ampere 这代显卡没有 fp8 计算单元,如果跑不量化的版本,只能跑 scale 上去的 bf16,模型本身占用的显存就要翻倍(大概 1.4T),剩余给上下文和并发的 KV Cache 没多少;2. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修;3. A100 架构放现在算比较老的了,两台纯粹是堆显存,就这可能还不太够 | 1. 货少,价格不透明,可能比较贵;2. 显卡使用专有接口连接至主板,非 PCIe 接口,不好升级和更换;3. 一体化程度比较高,又是走私产品,一旦发生意外硬件损坏感觉会比较难修(得问经销商有没有能力) | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. H40 中国特供卡,而且连 Nvidia 官网都没 Datasheet;2. 虽然有 fp8 计算单元,但是性能被砍很多,具体可以看 补充说明 一节 | 1. AMD 的驱动比较草台,可能会有一些驱动导致的上游问题;2. ROCm 推理 AMD 官方是推荐用 SGLang,SGLang 本身还不是非常成熟,活跃更新中,跑 Deepseek 要不可避免使用测试版本 | 1. 资料很少,而且华为自己就不怎么喜欢对外提供资料;2. 910B 和 C 都不支持 fp8,显存占用也是很大 |
|
||||
| 总显存 | 80G x 20 = 1600GB | 141G x 8 = 1128GB | 141G x 8 = 1128GB | 80G x 16 = 1280GB | 96G x 16 = 1536GB | 192G x 8 = 1536GB | - |
|
||||
| 电源 | 约 10 kW | 约 8 kW | 约 8 kW | 约 10 kW | - | - | - |
|
||||
| 官方链接 | - | [Link](https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html) | - | - | - | - | - |
|
||||
|
Loading…
x
Reference in New Issue
Block a user