fix post

2025-02-11 22:03:29 +08:00
parent d8f5e91ef9
commit 55a20f5de3
1 changed files with 3 additions and 25 deletions
@@ -39,14 +39,7 @@ image = "https://hf-image.mitsea.com:8840/blog/posts/2025/02/Deepseek%20R1%20%E6
 |  | Pascal | Volta | Turing | Ampere | Ada | Hopper | Blackwell |
 | --- | --- | --- | --- | --- | --- | --- | --- |
 | 发布时间 | 2016 | 2017 | 2018 | 2020 | 2022 | 2022 | 2024 |
-| 典型显卡 | Tesla P40
+| 典型显卡 | Tesla P40、GeForce GTX 1080 | Tesla V100 | Quadro RTX 6000、RTX 2080 | RTX A6000（现在 GPU）服务器用的、A100、RTX 3090 | RTX 6000 Ada、L40、RTX 4090 | H100、H200 | B200、RTX 5090 |
 GeForce GTX 1080 | Tesla V100 | Quadro RTX 6000
 RTX 2080 | RTX A6000（现在 GPU）服务器用的
 A100
 RTX 3090 | RTX 6000 Ada
 L40
 RTX 4090 | H100
 H200 | B200
 RTX 5090 |
 ### Nvidia 显卡接口不同
@@ -61,23 +54,8 @@ RTX 5090 |
 | --- | --- | --- | --- | --- | --- | --- | --- |
 | 态度 | 不推荐 | 最推荐 | 最推荐 | 推荐 | 不是很推荐 | 一般推荐 | 不是很推荐 |
 | 概述 | 自行购买10卡服务器两台，再单独购买 20 块 A100（甚至感觉都不够） | 能买到的最新最快的 Nvidia 官方平台 | 最适中的方案 | 主流方案之一 | 好处就是全部都是正规渠道完整保修 | 有点灵车，属于是钱足够的话我是不想用，钱不够的话不是不能用 | 只能说有成功跑起来的案例，硅基流动说他们用的华为 |
-| 优点 | 1. 没有 fp8 计算单元，最近抛货比较多，价格有所降低
+| 优点 | 1. 没有 fp8 计算单元，最近抛货比较多，价格有所降低；2. 购买渠道比较灵活方便 | 1. 有原生 fp8 计算单元，比 A100 架构更新，推理速度快；2. 单机，不需要考虑双机互联的带宽瓶颈问题；3. Nvidia 整机方案可靠性比较好 | 1. 周边配置可以选低一点，价格会比 DGX H200 便宜；2. 单机，不需要考虑双机互联的带宽瓶颈问题 | 1. 有原生 fp8 计算单元，比 A100 架构更新，推理速度快；2. 购买渠道比较灵活方便 | 1. 未禁售，货源可靠，有完整保修；2. 好购买 | 1. 有还算比较稳定货源；2. 有成功跑起来的案例和测试数据；3. AMD 官方自己站台了是支持 Deepseek | 想不出来 |
-2. 购买渠道比较灵活方便 | 1. 有原生 fp8 计算单元，比 A100 架构更新，推理速度快
+| 缺点 | 1. Ampere 这代显卡没有 fp8 计算单元，如果跑不量化的版本，只能跑 scale 上去的 bf16，模型本身占用的显存就要翻倍（大概 1.4T），剩余给上下文和并发的 KV Cache 没多少；2. 卡已禁售，买到的原则上都是二手，只能依靠经销商保修；3. A100 架构放现在算比较老的了，两台纯粹是堆显存，就这可能还不太够 | 1. 货少，价格不透明，可能比较贵；2. 显卡使用专有接口连接至主板，非 PCIe 接口，不好升级和更换；3. 一体化程度比较高，又是走私产品，一旦发生意外硬件损坏感觉会比较难修（得问经销商有没有能力） | 1. 卡已禁售，买到的原则上都是二手，只能依靠经销商保修 | 1. 卡已禁售，买到的原则上都是二手，只能依靠经销商保修 | 1. H40 中国特供卡，而且连 Nvidia 官网都没 Datasheet；2. 虽然有 fp8 计算单元，但是性能被砍很多，具体可以看 补充说明 一节 | 1. AMD 的驱动比较草台，可能会有一些驱动导致的上游问题；2. ROCm 推理 AMD 官方是推荐用 SGLang，SGLang 本身还不是非常成熟，活跃更新中，跑 Deepseek 要不可避免使用测试版本 | 1. 资料很少，而且华为自己就不怎么喜欢对外提供资料；2. 910B 和 C 都不支持 fp8，显存占用也是很大 |
 2. 单机，不需要考虑双机互联的带宽瓶颈问题
 3. Nvidia 整机方案可靠性比较好 | 1. 周边配置可以选低一点，价格会比 DGX H200 便宜
 2. 单机，不需要考虑双机互联的带宽瓶颈问题 | 1. 有原生 fp8 计算单元，比 A100 架构更新，推理速度快
 2. 购买渠道比较灵活方便 | 1. 未禁售，货源可靠，有完整保修
 2. 好购买 | 1. 有还算比较稳定货源
 2. 有成功跑起来的案例和测试数据
 3. AMD 官方自己站台了是支持 Deepseek | 想不出来 |
 | 缺点 | 1. Ampere 这代显卡没有 fp8 计算单元，如果跑不量化的版本，只能跑 scale 上去的 bf16，模型本身占用的显存就要翻倍（大概 1.4T），剩余给上下文和并发的 KV Cache 没多少
 2. 卡已禁售，买到的原则上都是二手，只能依靠经销商保修
 3. A100 架构放现在算比较老的了，两台纯粹是堆显存，就这可能还不太够 | 1. 货少，价格不透明，可能比较贵
 2. 显卡使用专有接口连接至主板，非 PCIe 接口，不好升级和更换
 3. 一体化程度比较高，又是走私产品，一旦发生意外硬件损坏感觉会比较难修（得问经销商有没有能力） | 1. 卡已禁售，买到的原则上都是二手，只能依靠经销商保修 | 1. 卡已禁售，买到的原则上都是二手，只能依靠经销商保修 | 1. H40 中国特供卡，而且连 Nvidia 官网都没 Datasheet
 2. 虽然有 fp8 计算单元，但是性能被砍很多，具体可以看 补充说明 一节 | 1. AMD 的驱动比较草台，可能会有一些驱动导致的上游问题
 2. ROCm 推理 AMD 官方是推荐用 SGLang，SGLang 本身还不是非常成熟，活跃更新中，跑 Deepseek 要不可避免使用测试版本 | 1. 资料很少，而且华为自己就不怎么喜欢对外提供资料
 2. 910B 和 C 都不支持 fp8，显存占用也是很大 |
 | 总显存 | 80G x 20 = 1600GB | 141G x 8 = 1128GB | 141G x 8 = 1128GB | 80G x 16 = 1280GB | 96G x 16 = 1536GB | 192G x 8 = 1536GB | - |
 | 电源 | 约 10 kW | 约 8 kW | 约 8 kW | 约 10 kW | - | - | - |
 | 官方链接 | - | [Link](https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html) | - | - | - | - | - |