update deployment in readme and cli_demo

2026-05-20 16:35:47 +08:00 · 2023-08-29 16:46:15 +08:00
parent 910700571d
commit f1402ce523
7 changed files with 138 additions and 12 deletions
--- a/README_JA.md
+++ b/README_JA.md
@@ -30,12 +30,15 @@ Qwen-7Bは、アリババクラウドが提唱する大規模言語モデルシ
 5. **プラグインのサポート**。Qwen-7B-Chat は、プラグイン関連のアライメントデータでトレーニングされているため、API、モデル、データベースなどのツールを使用することができ、エージェントとしてプレイすることができる。

 以下のセクションには、参考になる情報が記載されています。特に、issueを立ち上げる前にFAQセクションをお読みになることをお勧めします。
+<br>

 ## ニュース

 * 2023.8.21 Qwen-7B-Chat 用 Int4 量子化モデル(**Qwen-7B-Chat-Int4**)をリリースしました。メモリコストは低いが、推論速度は向上している。また、ベンチマーク評価において大きな性能劣化はありません。
 * 2023.8.3 Qwen-7B と Qwen-7B-Chat を ModelScope と Hugging Face で公開。また、トレーニングの詳細やモデルの性能など、モデルの詳細についてはテクニカルメモを提供しています。

+<br>
+
 ## パフォーマンス

 一般的に、Qwen-7B は、MMLU、C-Eval、GSM8K、HumanEval、WMT22、CMMLU などの自然言語理解、数学的問題解決、コーディングなどに関するモデルの能力を評価する一連のベンチマークデータセットにおいて、同程度のモデルサイズのベースラインモデルを凌駕し、さらには 13B 程度のパラメータを持つより大規模なモデルをも凌駕している。以下の結果をご覧ください。
@@ -62,12 +65,16 @@ Qwen-7Bは、アリババクラウドが提唱する大規模言語モデルシ

 より詳細な実験結果（より多くのベンチマークデータセットでの詳細なモデル性能）や詳細については、[こちら](tech_memo.md)をクリックして技術メモを参照してください。

+<br>
+
 ## 必要条件

 * python 3.8 以上
 * pytorch 1.12 以上、2.0 以上を推奨
 * CUDA 11.4 以上を推奨（GPU ユーザー、フラッシュアテンションユーザー向けなど）

+<br>
+
 ## クイックスタート

 以下では、Qwen-7B と 🤖 ModelScope と 🤗 Transformers の簡単な使用例を示します。
@@ -194,10 +201,14 @@ response, history = results['response'], results['history']
 print(f'Response: {response}')
 ```

+<br>
+
 ## トークナイザー

 tiktoken に基づくトークナイザーは、他のトークナイザー、例えばセンテンスピーストークナイザーとは異なります。特にファインチューニングの際には、特殊なトークンに注意を払う必要があります。トークナイザに関する詳細な情報や、ファインチューニングにおける使用方法については、[ドキュメント](tokenization_note.md)を参照してください。

+<br>
+
 ## 量子化

 ### 使用方法
@@ -257,6 +268,8 @@ BF16の精度とInt4の量子化レベルの下で、それぞれ2048個と8192

 上記のスピードとメモリーのプロファイリングは、[このスクリプト](https://qianwen-res.oss-cn-beijing.aliyuncs.com/profile.py)を使用しています。

+<br>
+
 ## デモ

 ### ウェブ UI
@@ -344,6 +357,25 @@ print(response.choices[0].message.content)
    <br>
 <p>

+## Deployment
+
+CPU上でモデルを実行するのは簡単で、以下のようにデバイスを指定する必要がある：
+
+```python
+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="cpu", trust_remote_code=True).eval()
+```
+
+```
+メモリ不足に悩まされ、複数のGPUにモデルをデプロイしたい場合は、``utils.py`で提供されているスクリプトを使うことができます：
+
+```python
+from utils import load_model_on_gpus
+model = load_model_on_gpus('Qwen/Qwen-7B-Chat', num_gpus=2)
+```
+
+7Bチャットモデルの推論を2GPUで実行できます。
+<br>
+
 ## ツールの使用

 Qwen-7B-Chat は、API、データベース、モデルなど、ツールの利用に特化して最適化されており、ユーザは独自の Qwen-7B ベースの LangChain、エージェント、コードインタプリタを構築することができます。ツール利用能力を評価するための評価[ベンチマーク](eval/EVALUATION.md)では、Qwen-7B は安定した性能に達しています。
@@ -366,6 +398,8 @@ ReAct プロンプトの書き方や使い方については、[ReAct の例](ex
 |StarCoder-15.5B |      87.04      |    87.96    |   68.89   |
 | **Qwen-7B**    |      90.74      |    92.59    |   74.07   |

+<br>
+
 ## 長い文脈の理解

 コンテキストの長さを拡張し、訓練シーケンスの長さのボトルネックを解消するために、NTK を考慮した補間、ウィンドウアテンション、LogN アテンションスケーリングなどの技術を導入し、コンテキストの長さを 8K トークン以上に拡張する。arXiv データセットを用いて PPL 評価による言語モデリング実験を行い、Qwen-7B が長いコンテキストのシナリオにおいて卓越した性能を達成できることを見出した。以下に結果を示します:
@@ -391,18 +425,26 @@ ReAct プロンプトの書き方や使い方については、[ReAct の例](ex
    </tr>
 </table>

+<br>
+
 ## 再現

 ベンチマークデータセットでのモデル性能の再現のために、結果を再現するスクリプトを提供しています。詳しくは [eval/EVALUATION.md](eval/EVALUATION.md) を確認してください。なお、再現の結果、我々の報告結果と若干異なる場合がある。

+<br>
+
 ## FAQ

 問題が発生した場合は、[FAQ](FAQ.md)やissueを参照し、新しいissueを立ち上げる前に解決策を探してください。

+<br>
+
 ## ライセンス契約

 Qwen-7B と Qwen-7B-Chat のコードとモデルウェイトは、研究者や開発者が自由に使用することができます。また、商用利用も可能です。詳しくは [LICENSE](LICENSE) をご覧ください。商用利用を希望される方は、[リクエストフォーム](https://dashscope.console.aliyun.com/openModelApply/qianwen)に必要事項をご記入の上、お申し込みください。

+<br>
+
 ## お問い合わせ

 研究チームまたは製品チームへのメッセージは、qianwen_opensource@alibabacloud.com までお気軽にお送りください。