mirror of
https://github.com/QwenLM/Qwen.git
synced 2026-05-20 16:35:47 +08:00
Update README_JA.md
This commit is contained in:
@@ -248,10 +248,10 @@ response, history = model.chat(tokenizer, "Hi", history=None, generation_config=
|
|||||||
|
|
||||||
BF16 の精度と Int4 の量子化レベルの下で、それぞれ 2048 個と 8192 個のトークンを生成する平均推論速度(tokens/s)を測定しました。
|
BF16 の精度と Int4 の量子化レベルの下で、それぞれ 2048 個と 8192 個のトークンを生成する平均推論速度(tokens/s)を測定しました。
|
||||||
|
|
||||||
| Quantization | Speed (2048 tokens) | Speed (8192 tokens) |
|
| Quantization | Speed (2048 tokens) | Speed (8192 tokens) |
|
||||||
| -------------- | :-------------------: | :-------------------: |
|
| ------------- | :------------------:| :------------------:|
|
||||||
| BF16 | 30.34 | 29.32 |
|
| BF16 | 30.34 | 29.32 |
|
||||||
| Int4 | 43.56 | 33.92 |
|
| Int4 | 43.56 | 33.92 |
|
||||||
|
|
||||||
詳細には、プロファイリングの設定は、1 コンテクストトークンで 8192 個の新しいトークンを生成しています。プロファイリングは、PyTorch 2.0.1 と CUDA 11.4 を搭載したシングル A100-SXM4-80G GPU で実行されました。推論速度は生成された 8192 個のトークンの平均値となります。
|
詳細には、プロファイリングの設定は、1 コンテクストトークンで 8192 個の新しいトークンを生成しています。プロファイリングは、PyTorch 2.0.1 と CUDA 11.4 を搭載したシングル A100-SXM4-80G GPU で実行されました。推論速度は生成された 8192 個のトークンの平均値となります。
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user