电子行业“AI的裂变时刻”系列报告3：为什么H20的推理性价比高？

2024-03-18 14:10:04 和讯广发证券王亮/耿正/任思儒

核心观点：
根据推算，H20 推理性能超过H100，L20 推理性能比肩L40S。NVIDIA H20 和L20 是NVIDIA 为中国市场定制的算力芯片产品，为满足美国出口管制条例要求，两款产品的核心算力参数均大幅阉割；如H20 的FP16、INT8 等主要算力参数仅为A100 的不足1/2，更是仅为H100 的约1/7；L20 的主要算力参数相较于L40、L40S分别下降约1/3、2/3。较低的算力参数使得市场对两款产品的性能表现、性价比持悲观或怀疑态度。但是我们根据理论推算，在多数推理场景下，H20 的推理速度明显优于A100、甚至优于H100；取三组测试场景（单GPU, Llama2-13B，BS=16，FP16，ISL/OSL 分别为128/3968、512/3584、2048/2048）平均值，H20 推理性能是A100 的1.8 倍、是H100 的1.1 倍。而L20 在三组测试场景（单GPU, Llama2-7B，BS=16，FP16，ISL/OSL 分别为128/3968、512/3584、2048/2048）中，推理性能也基本与L40S 和L40 持平。
Prefill 是算力密集场景，H20 受算力制约性能表现较弱。Prefill 阶段算力负载体现在对用户所有输入Tokens 进行一次并行计算；显存带宽负载主要体现在参数量从HBM 向算力芯片的传输。在大多数推理场景下（如输入Tokens 较长、或Batch Size 较大），Prefill 阶段计算耗时高于显存传输的耗时，因此该环节的耗时（也被称为First token latency）通常是由算力芯片的算力能力决定，属于算力密集场景。由于H20 的算力较弱，Prefill 环节耗时明显高于其他三款芯片。
Decode 是显存带宽密集场景，H20 性能表现优异。在Decode 过程中回答Tokens 逐个生成，且每个Token生成过程中，都需要重复一次参数、KV Cache 从HBM 向算力芯片的传输，使得Decode 阶段通常显存传输耗时明显高于计算耗时，属于显存带宽密集场景；更高速显存带宽对加速Decode 至关重要。H20 凭借较高的显存带宽，在Decode 阶段Tokens 生成速率高于A100 和H100，这也使得H20 在整个推理过程具有较高的推理速度。
H20 在多数推理场景中性能优异、性价比高，但也存在特殊情况。多数推理场景下，站在H20 用户角度，从输入问题到等待第一个回答文字所需时间会较长（相较于使用A100/H100/200），但负面影响相对有限；在回答过程中，H20 用户会体验到更快的回答速度（相较于使用A100/H100）；综合来看H20 用户体验较优。站在H20持有人角度，由于H20 在推理全程平均Throughput（Tokens/s）高，使得每Token 平摊的系统硬件成本下降；H20 是持有人的高性价比选择。但是在提问问题较长/回答文字较短的特殊场景下，H20 的低算力劣势会放大，无论是H20 的用户体验、还是持有性价比，都会出现明显下降。
风险提示。理论计算结果与实际测试存在误差，大语言模型技术变化，大模型开发或AI 应用进展不及预期。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

电子行业“AI的裂变时刻”系列报告3：为什么H20的推理性价比高？

最新评论

相关推荐

热门阅读

和讯特稿

电子行业“AI的裂变时刻”系列报告3：为什么H20的推理性价比高？

最新评论

相关推荐

热门阅读

和讯特稿

推荐阅读