jiangchengchengNLP commited on
Commit
3f77c87
·
verified ·
1 Parent(s): 2e40c96

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +71 -3
README.md CHANGED
@@ -1,3 +1,71 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # qwen2.5-law-summary
2
+
3
+ ## 模型概述
4
+ 模型名称:qwen2.5-law-summary
5
+ 模型类型:指令微调版本
6
+ 基础模型:qwen2.5系列,参数量为0.5B
7
+ 训练数据:3400余条法律判决书数据
8
+ 数据来源:法研杯2020年法律文书摘要大赛
9
+
10
+ ## 训练细节
11
+ - **训练任务**:采用最大似然估计与对比排序学习的多任务算法。
12
+ - **损失函数**:
13
+ - `loss_likelihood`与`loss_contrast`的比例基本保持在9:1至8:2之间。
14
+ - **排序对比数据**:从原训练集中采样。
15
+ - **生成样本对数据集以进行排序**:使用双底座模型qwen-plus及ENIRE-128K生成。
16
+ - **排序评估**:使用传统的ROUGE-F,计算`ROUGE_1`、`ROUGE_2`、`ROUGE_L`的平均值进行排序。
17
+
18
+ ## 训练硬件配置
19
+ - **硬件环境**:H20-96G
20
+ - **训练轮次**:共训练4轮
21
+ - **补充说明**:
22
+ - 采用flash-attention与deepspeed以适应长序列数据和对比损失带来的额外显存需求。
23
+
24
+ ## 模型性能
25
+ 模型训练完成后的回答风格与原模型存在明显差异,更偏好业内人员书写风格。使用方法与原模型相同,但提示词需稍作修改以与训练指令对齐。
26
+ ```python
27
+ from transformers import AutoModelForCausalLM, AutoTokenizer
28
+ model_name = "jiangchengchengNLP/qwen_0.5B_instruct_law_summarize"
29
+ model = AutoModelForCausalLM.from_pretrained(
30
+ model_name,
31
+ torch_dtype="auto",
32
+ device_map="auto",
33
+ )
34
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
35
+ with open("河北宁晋农村商业银行股份有限公司小刘村支行与杨保会、杨立田等借款合同纠纷一审民事判决书.txt", "r", encoding="utf-8") as f:
36
+ prompt = f.read()
37
+ messages = [
38
+ {"role": "system", "content": "你是法律小助手,你的任务是将用户输入的内容整理成一份摘要"},
39
+ {"role": "user", "content": prompt}
40
+ ]
41
+ text = tokenizer.apply_chat_template(
42
+ messages,
43
+ tokenize=False,
44
+ add_generation_prompt=True
45
+ )
46
+ model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
47
+ generated_ids =model.generate(
48
+ **model_inputs,
49
+ max_new_tokens=512
50
+ )
51
+ generated_ids = [
52
+ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
53
+ ]
54
+ response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
55
+ print(response)
56
+
57
+
58
+ 原被告系借款合同关系。原告提出诉求:1、请求法院依法判令被告偿还借款本金2000元及利息4912.6元;2、本案诉讼费用由被告承担。经审理查明,双方签订的借款合同和保证担保借款合同合法有效,被告未按约定偿还原告借款本息,应负违约责任。依据《中华人民共和国合同法》第八条、第六十条、第二百零五条、第二百零六条、二百零七条,《中华人民共和国担保法》第十八条、第二十一条以及《中华人民共和国民事诉讼法》第一百四十四条之规定,判决:1、被告偿还借款本息24912.6元;2、被告承担连带清偿责任。
59
+
60
+ ```
61
+
62
+ ## 测试效果
63
+ 在200条测试数据集上的ROUGE评分如下:
64
+ - `ROUGE_1`:0.5703008654122925
65
+ - `ROUGE_2`:0.4040075748793321
66
+ - `ROUGE_L`:0.4040075748793321
67
+
68
+
69
+
70
+ ## 总结
71
+ qwen2.5-law-summary模型针对法律文本的摘要生成进行了优化训练,适用于法律领域的研究与应用。通过高效的训练策略与强大的硬件支持,模型在性能上有了显著提升。