update readme

2026-05-20 16:35:47 +08:00 · 2023-10-07 11:04:26 +08:00
parent b5fad3d561
commit 83eac494b2
3 changed files with 20 additions and 5 deletions
--- a/README_JA.md
+++ b/README_JA.md
@@ -37,6 +37,7 @@ Qwen-7B**と**Qwen-14B**の**Qwen**シリーズと、**Qwen-7B-Chat**と**Qwen-1
 * 量子化モデルの詳細（使用量、メモリ、推論速度など）。比較のために、BF16モデルの統計も提供します。
 * フルパラメーターチューニング、LoRA、Q-LoRAを含む、微調整に関するチュートリアル。
 * WebUI、CLIデモなど、デモの構築に関する説明。
+* あなたのモデルのためのOpenAIスタイルのAPIを構築する手順。
 * ツール使用、エージェント、コードインタプリタの Qwen の詳細。
 * ロングコンテクスト理解評価の統計
 * ライセンス契約
@@ -391,7 +392,11 @@ sh finetune/finetune_lora_single_gpu.sh
 sh finetune/finetune_lora_ds.sh
 ```

-LoRA ([論文](https://arxiv.org/abs/2106.09685)) は、フルパラメーターによるファインチューニングと比較して、adapterのパラメーターを更新するだけで、元の大きな言語モデル層は凍結されたままである。そのため、メモリコストが大幅に削減でき、計算コストも削減できる。しかし、それでもメモリ不足に悩む場合は、Q-LoRA（[論文](https://arxiv.org/abs/2305.14314)）を検討することができます。これは、量子化されたラージ言語モデルと、ページド・アテンションなどの他のテクニックを使用し、さらに少ないメモリコストで実行することができます。Q-LoRAを実行するには、以下のスクリプトを直接実行してください：
+LoRA ([論文](https://arxiv.org/abs/2106.09685)) は、フルパラメーターによるファインチューニングと比較して、adapterのパラメーターを更新するだけで、元の大きな言語モデル層は凍結されたままである。そのため、メモリコストが大幅に削減でき、計算コストも削減できる。しかし、それでもメモリ不足に悩む場合は、Q-LoRA（[論文](https://arxiv.org/abs/2305.14314)）を検討することができます。これは、量子化されたラージ言語モデルと、ページド・アテンションなどの他のテクニックを使用し、さらに少ないメモリコストで実行することができます。
+
+注：シングル GPU Q-LoRA トレーニングを実行するには、`pip` または `conda` を使って `mpi4py` をインストールする必要があるかもしれない。
+
+Q-LoRAを実行するには、以下のスクリプトを直接実行してください：

 ```bash
 # シングルGPUトレーニング