mirror of
https://github.com/QwenLM/Qwen.git
synced 2026-05-21 00:45:48 +08:00
Update README_JA.md
This commit is contained in:
@@ -259,8 +259,8 @@ BF16 の精度と Int4 の量子化レベルの下で、それぞれ 2048 個と
|
|||||||
|
|
||||||
また、BF16またはInt4の量子化レベルで、それぞれ2048トークンをコンテキストとしてエンコードした場合(および単一のトークンを生成した場合)と、8192トークンを生成した場合(単一のトークンをコンテキストとして生成した場合)のGPUメモリ使用量のピーク値をプロファイリングしました。その結果を以下に示します。
|
また、BF16またはInt4の量子化レベルで、それぞれ2048トークンをコンテキストとしてエンコードした場合(および単一のトークンを生成した場合)と、8192トークンを生成した場合(単一のトークンをコンテキストとして生成した場合)のGPUメモリ使用量のピーク値をプロファイリングしました。その結果を以下に示します。
|
||||||
|
|
||||||
| Quantization | Peak Usage for Encoding 2048 Tokens | Peak Usage for Generating 8192 Tokens |
|
| Quantization Level | Peak Usage for Encoding 2048 Tokens | Peak Usage for Generating 8192 Tokens |
|
||||||
| -------------- | :-----------------------------------: | :-------------------------------------: |
|
| ------------------ | :---------------------------------: | :-----------------------------------: |
|
||||||
| BF16 | 17.66GB | 22.58GB |
|
| BF16 | 17.66GB | 22.58GB |
|
||||||
| Int4 | 8.21GB | 13.62GB |
|
| Int4 | 8.21GB | 13.62GB |
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user