This commit is contained in:
FlintyLemming
2026-04-25 15:31:49 +08:00
parent 14184b12ef
commit e5a32a4398
@@ -117,7 +117,7 @@ services:
## 瓶颈深度分析
测试发现核心瓶颈并非显存容量限制,而是 **vLLM 调度器的 Chunked Prefill 准入控制机制** 导致的逻辑冲突。
测试发现目前核心瓶颈并非显存容量限制,而是 **vLLM 调度器的 Chunked Prefill 准入控制机制** 导致的逻辑冲突。不过剩余显存太少没有充足的 KV Cache 总体上来说仍然是最关键因素。
### 抢占与死循环问题