update README

This commit is contained in:
yangapku
2024-01-09 19:28:24 +08:00
parent 9a73f820cd
commit 29fea23f87
5 changed files with 5 additions and 7 deletions

View File

@@ -448,7 +448,7 @@ response, history = model.chat(tokenizer, "Hi", history=None)
### KV cache量化
> 注意由于Hugging Face的内部实现本功能的支持文件`cache_autogptq_cuda_356.cpp`与`cache_autogptq_cuda_kernel_245.cu`可能没被下载。如需开启使用,请手动从相关位置下载,并放置到相应文件中。
> 注意由于Hugging Face的内部实现本功能的支持文件`cache_autogptq_cuda_256.cpp`与`cache_autogptq_cuda_kernel_256.cu`可能没被下载。如需开启使用,请手动从相关位置下载,并放置到相应文件中。
在模型推理时我们可以将中间结果key以及value的值量化后压缩存储这样便可以在相同的卡上存储更多的key以及value增加样本吞吐。