From 55a20f5de3f54e0c2e125a24ad88d55b91bca71f Mon Sep 17 00:00:00 2001 From: FlintyLemming Date: Tue, 11 Feb 2025 22:03:29 +0800 Subject: [PATCH] fix post --- .../index.zh-cn.md | 28 ++----------------- 1 file changed, 3 insertions(+), 25 deletions(-) diff --git a/content/post/1977bda595c58157b48bf45cc8239758/index.zh-cn.md b/content/post/1977bda595c58157b48bf45cc8239758/index.zh-cn.md index b133dfe..f0f6761 100644 --- a/content/post/1977bda595c58157b48bf45cc8239758/index.zh-cn.md +++ b/content/post/1977bda595c58157b48bf45cc8239758/index.zh-cn.md @@ -39,14 +39,7 @@ image = "https://hf-image.mitsea.com:8840/blog/posts/2025/02/Deepseek%20R1%20%E6 | | Pascal | Volta | Turing | Ampere | Ada | Hopper | Blackwell | | --- | --- | --- | --- | --- | --- | --- | --- | | 发布时间 | 2016 | 2017 | 2018 | 2020 | 2022 | 2022 | 2024 | -| 典型显卡 | Tesla P40 -GeForce GTX 1080 | Tesla V100 | Quadro RTX 6000 -RTX 2080 | RTX A6000(现在 GPU)服务器用的 -A100 -RTX 3090 | RTX 6000 Ada -L40 -RTX 4090 | H100 -H200 | B200 +| 典型显卡 | Tesla P40、GeForce GTX 1080 | Tesla V100 | Quadro RTX 6000、RTX 2080 | RTX A6000(现在 GPU)服务器用的、A100、RTX 3090 | RTX 6000 Ada、L40、RTX 4090 | H100、H200 | B200、RTX 5090 | RTX 5090 | ### Nvidia 显卡接口不同 @@ -61,23 +54,8 @@ RTX 5090 | | --- | --- | --- | --- | --- | --- | --- | --- | | 态度 | 不推荐 | 最推荐 | 最推荐 | 推荐 | 不是很推荐 | 一般推荐 | 不是很推荐 | | 概述 | 自行购买10卡服务器两台,再单独购买 20 块 A100(甚至感觉都不够) | 能买到的最新最快的 Nvidia 官方平台 | 最适中的方案 | 主流方案之一 | 好处就是全部都是正规渠道完整保修 | 有点灵车,属于是钱足够的话我是不想用,钱不够的话不是不能用 | 只能说有成功跑起来的案例,硅基流动说他们用的华为 | -| 优点 | 1. 没有 fp8 计算单元,最近抛货比较多,价格有所降低 -2. 购买渠道比较灵活方便 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快 -2. 单机,不需要考虑双机互联的带宽瓶颈问题 -3. Nvidia 整机方案可靠性比较好 | 1. 周边配置可以选低一点,价格会比 DGX H200 便宜 -2. 单机,不需要考虑双机互联的带宽瓶颈问题 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快 -2. 购买渠道比较灵活方便 | 1. 未禁售,货源可靠,有完整保修 -2. 好购买 | 1. 有还算比较稳定货源 -2. 有成功跑起来的案例和测试数据 -3. AMD 官方自己站台了是支持 Deepseek | 想不出来 | -| 缺点 | 1. Ampere 这代显卡没有 fp8 计算单元,如果跑不量化的版本,只能跑 scale 上去的 bf16,模型本身占用的显存就要翻倍(大概 1.4T),剩余给上下文和并发的 KV Cache 没多少 -2. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 -3. A100 架构放现在算比较老的了,两台纯粹是堆显存,就这可能还不太够 | 1. 货少,价格不透明,可能比较贵 -2. 显卡使用专有接口连接至主板,非 PCIe 接口,不好升级和更换 -3. 一体化程度比较高,又是走私产品,一旦发生意外硬件损坏感觉会比较难修(得问经销商有没有能力) | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. H40 中国特供卡,而且连 Nvidia 官网都没 Datasheet -2. 虽然有 fp8 计算单元,但是性能被砍很多,具体可以看 补充说明 一节 | 1. AMD 的驱动比较草台,可能会有一些驱动导致的上游问题 -2. ROCm 推理 AMD 官方是推荐用 SGLang,SGLang 本身还不是非常成熟,活跃更新中,跑 Deepseek 要不可避免使用测试版本 | 1. 资料很少,而且华为自己就不怎么喜欢对外提供资料 -2. 910B 和 C 都不支持 fp8,显存占用也是很大 | +| 优点 | 1. 没有 fp8 计算单元,最近抛货比较多,价格有所降低;2. 购买渠道比较灵活方便 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快;2. 单机,不需要考虑双机互联的带宽瓶颈问题;3. Nvidia 整机方案可靠性比较好 | 1. 周边配置可以选低一点,价格会比 DGX H200 便宜;2. 单机,不需要考虑双机互联的带宽瓶颈问题 | 1. 有原生 fp8 计算单元,比 A100 架构更新,推理速度快;2. 购买渠道比较灵活方便 | 1. 未禁售,货源可靠,有完整保修;2. 好购买 | 1. 有还算比较稳定货源;2. 有成功跑起来的案例和测试数据;3. AMD 官方自己站台了是支持 Deepseek | 想不出来 | +| 缺点 | 1. Ampere 这代显卡没有 fp8 计算单元,如果跑不量化的版本,只能跑 scale 上去的 bf16,模型本身占用的显存就要翻倍(大概 1.4T),剩余给上下文和并发的 KV Cache 没多少;2. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修;3. A100 架构放现在算比较老的了,两台纯粹是堆显存,就这可能还不太够 | 1. 货少,价格不透明,可能比较贵;2. 显卡使用专有接口连接至主板,非 PCIe 接口,不好升级和更换;3. 一体化程度比较高,又是走私产品,一旦发生意外硬件损坏感觉会比较难修(得问经销商有没有能力) | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. 卡已禁售,买到的原则上都是二手,只能依靠经销商保修 | 1. H40 中国特供卡,而且连 Nvidia 官网都没 Datasheet;2. 虽然有 fp8 计算单元,但是性能被砍很多,具体可以看 补充说明 一节 | 1. AMD 的驱动比较草台,可能会有一些驱动导致的上游问题;2. ROCm 推理 AMD 官方是推荐用 SGLang,SGLang 本身还不是非常成熟,活跃更新中,跑 Deepseek 要不可避免使用测试版本 | 1. 资料很少,而且华为自己就不怎么喜欢对外提供资料;2. 910B 和 C 都不支持 fp8,显存占用也是很大 | | 总显存 | 80G x 20 = 1600GB | 141G x 8 = 1128GB | 141G x 8 = 1128GB | 80G x 16 = 1280GB | 96G x 16 = 1536GB | 192G x 8 = 1536GB | - | | 电源 | 约 10 kW | 约 8 kW | 约 8 kW | 约 10 kW | - | - | - | | 官方链接 | - | [Link](https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html) | - | - | - | - | - |