mirror of
https://github.com/QwenLM/Qwen.git
synced 2026-05-21 00:45:48 +08:00
Update README_JA.md
This commit is contained in:
11
README_JA.md
11
README_JA.md
@@ -782,17 +782,12 @@ Qwen-72B については、2 つの方法で実験します。1) 4 つの A100-S
|
|||||||
### vLLM
|
### vLLM
|
||||||
デプロイメントと高速推論のためには、vLLMを使用することをお勧めします。
|
デプロイメントと高速推論のためには、vLLMを使用することをお勧めします。
|
||||||
|
|
||||||
cuda 12.1 および pytorch 2.1 を使用している場合は、次のコマンドを直接使用して vLLM をインストールできます。
|
**CUDA 12.1** および **PyTorch 2.1** を使用している場合は、次のコマンドを直接使用して vLLM をインストールできます。
|
||||||
```bash
|
```bash
|
||||||
# pip install vllm # この行はより速いですが、量子化モデルをサポートしていません。
|
pip install vllm
|
||||||
|
|
||||||
# 以下のはINT4の量子化をサポートします(INT8はまもなくサポートされます)。 インストールは遅くなります(〜10分)。
|
|
||||||
git clone https://github.com/QwenLM/vllm-gptq
|
|
||||||
cd vllm-gptq
|
|
||||||
pip install -e .
|
|
||||||
```
|
```
|
||||||
|
|
||||||
それ以外の場合は、公式 vLLM [インストール手順](https://docs.vllm.ai/en/latest/getting_started/installation.html) 、または[GPTQの量子化 vLLM レポ](https://github.com/QwenLM/vllm-gptq)を参照してください。
|
それ以外の場合は、公式 vLLM [インストール手順](https://docs.vllm.ai/en/latest/getting_started/installation.html) を参照してください。
|
||||||
|
|
||||||
#### vLLM + Transformer Wrapper
|
#### vLLM + Transformer Wrapper
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user