|
--- |
|
license: cc-by-nc-4.0 |
|
language: |
|
- zh |
|
- en |
|
datasets: |
|
- yuyijiong/LongPaper_multitask |
|
- yuyijiong/Long-Instruction-Chinese |
|
- yuyijiong/LongData-Corpus |
|
pipeline_tag: text-generation |
|
--- |
|
* 2023.12.14更新:发布微调后的Qwen-14b的权重,微调后的模型能适应32k长度(约4万汉字)的中英问答,在多文档问答任务上提升显著。 |
|
|
|
# LongBench测试结果 |
|
### LongBench的passage_retrieval_zh的评测结果 |
|
| 模型 | 得分 (acc) | |
|
|---------------------------------------------|----------| |
|
| Qwen-14b-chat | 0.525 | |
|
| CausalLM-14b | 0.086 | |
|
| LongAlpaca-7b-32k-chinese-v2 | 0.12 | |
|
| **Qwen-14b-chat-yarn-32k** |**0.94**| |
|
|
|
|
|
|
|
|
|
# Usage |
|
* 将Qwen模型的NTK插值方法替换为Yarn,同时适当缩小位置插值的缩放因子,实现了模型在更长文本长度(大于16k)下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。 |
|
* 目前仅提供 modeling_qwen.py 代码,用此py文件替换原Qwen模型的modeling_qwen.py即可,其它使用方法不变。模型权重与原Qwen模型相同。 |
|
* 未来可能会发布微调的权重。 |
|
* 使用此模型时会自动设置 config.use_logn_attn=False、config.use_dynamic_ntk=True。 |
|
```python |
|
config=AutoConfig.from_pretrained("Qwen/Qwen-14B-Chat", trust_remote_code=True,use_dynamic_ntk=True,use_logn_attn=False,torch_dtype=torch.bfloat16) |
|
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-14B-Chat", device_map="auto", trust_remote_code=True,config=config) |
|
``` |