mirror of
https://github.com/QwenLM/Qwen.git
synced 2026-05-20 08:25:47 +08:00
add openai version requirement (openai<1.0)
This commit is contained in:
12
README_FR.md
12
README_FR.md
@@ -647,7 +647,7 @@ Le finetuning de tous les paramètres nécessite la mise à jour de tous les par
|
||||
|
||||
```bash
|
||||
# Distributed training. We do not provide single-GPU training script as the insufficient GPU memory will break down the training.
|
||||
sh finetune/finetune_ds.sh
|
||||
bash finetune/finetune_ds.sh
|
||||
```
|
||||
|
||||
N'oubliez pas de spécifier le nom ou le chemin d'accès au modèle, le chemin d'accès aux données, ainsi que le répertoire de sortie dans les scripts shell. Une autre chose à noter est que nous utilisons DeepSpeed ZeRO 3 dans ce script. Si vous voulez faire des changements, il suffit de supprimer l'argument `--deepspeed` ou de faire des changements dans le fichier json de configuration de DeepSpeed en fonction de vos besoins. De plus, ce script supporte l'entraînement en précision mixte, et donc vous pouvez utiliser `--bf16 True` ou `--fp16 True`. N'oubliez pas d'utiliser DeepSpeed lorsque vous utilisez fp16 en raison de l'entraînement de précision mixte. Empiriquement, nous vous conseillons d'utiliser bf16 pour rendre votre apprentissage cohérent avec notre pré-entraînement et notre alignement si votre machine supporte bf16, et nous l'utilisons donc par défaut.
|
||||
@@ -656,9 +656,9 @@ Pour exécuter LoRA, utilisez un autre script à exécuter comme indiqué ci-des
|
||||
|
||||
```bash
|
||||
# Single GPU training
|
||||
sh finetune/finetune_lora_single_gpu.sh
|
||||
bash finetune/finetune_lora_single_gpu.sh
|
||||
# Distributed training
|
||||
sh finetune/finetune_lora_ds.sh
|
||||
bash finetune/finetune_lora_ds.sh
|
||||
```
|
||||
|
||||
Par rapport au finetuning de tous les paramètres, LoRA ([paper](https://arxiv.org/abs/2106.09685)) ne met à jour que les paramètres des couches d'adaptateurs, tout en gelant les couches originales du grand modèle de langage. Cela permet de réduire considérablement les coûts de mémoire et donc les coûts de calcul.
|
||||
@@ -673,9 +673,9 @@ Pour lancer Q-LoRA, exécutez directement le script suivant :
|
||||
|
||||
```bash
|
||||
# Single GPU training
|
||||
sh finetune/finetune_qlora_single_gpu.sh
|
||||
bash finetune/finetune_qlora_single_gpu.sh
|
||||
# Distributed training
|
||||
sh finetune/finetune_qlora_ds.sh
|
||||
bash finetune/finetune_qlora_ds.sh
|
||||
```
|
||||
|
||||
Pour Q-LoRA, nous vous conseillons de charger le modèle quantifié que nous fournissons, par exemple Qwen-7B-Chat-Int4. Vous **NE DEVRIEZ PAS** utiliser les modèles bf16. Contrairement au finetuning de tous les paramètres et à la LoRA, seul le modèle fp16 est pris en charge pour la Q-LoRA. Pour l'entraînement sur un seul GPU, nous devons utiliser DeepSpeed pour l'entraînement en précision mixte en raison de notre observation des erreurs causées par torch amp. En outre, pour Q-LoRA, les problèmes avec les jetons spéciaux dans LoRA existent toujours. Cependant, comme nous ne fournissons que les modèles Int4 pour les modèles de chat, ce qui signifie que le modèle de langage a appris les tokens spéciaux du format ChatML, vous n'avez pas à vous soucier des couches. Notez que les couches du modèle Int4 ne doivent pas être entraînables, et donc si vous introduisez des tokens spéciaux dans votre entraînement, Q-LoRA risque de ne pas fonctionner.
|
||||
@@ -851,7 +851,7 @@ python cli_demo.py
|
||||
Nous fournissons des méthodes pour déployer une API locale basée sur l'API OpenAI (merci à @hanpenggit). Avant de commencer, installez les paquets nécessaires:
|
||||
|
||||
```bash
|
||||
pip install fastapi uvicorn openai "pydantic>=2.3.0" sse_starlette
|
||||
pip install fastapi uvicorn "openai<1.0" pydantic sse_starlette
|
||||
```
|
||||
|
||||
Exécutez ensuite la commande pour déployer votre API:
|
||||
|
||||
Reference in New Issue
Block a user