jiangchengchengNLP commited on
Commit
6e79895
·
verified ·
1 Parent(s): 3f77c87

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +80 -70
README.md CHANGED
@@ -1,71 +1,81 @@
1
- # qwen2.5-law-summary
2
-
3
- ## 模型概述
4
- 模型名称:qwen2.5-law-summary
5
- 模型类型:指令微调版本
6
- 基础模型:qwen2.5系列,参数量为0.5B
7
- 训练数据:3400余条法律判决书数据
8
- 数据来源:法研杯2020年法律文书摘要大赛
9
-
10
- ## 训练细节
11
- - **训练任务**:采用最大似然估计与对比排序学习的多任务算法。
12
- - **损失函数**:
13
- - `loss_likelihood`与`loss_contrast`的比例基本保持在9:1至8:2之间。
14
- - **排序对比数据**:从原训练集中采样。
15
- - **生成样本对数据集以进行排序**:使用双底座模型qwen-plus及ENIRE-128K生成。
16
- - **排序评估**:使用传统的ROUGE-F,计算`ROUGE_1`、`ROUGE_2`、`ROUGE_L`的平均值进行排序。
17
-
18
- ## 训练硬件配置
19
- - **硬件环境**:H20-96G
20
- - **训练轮次**:共训练4轮
21
- - **补充说明**:
22
- - 采用flash-attention与deepspeed以适应长序列数据和对比损失带来的额外显存需求。
23
-
24
- ## 模型性能
25
- 模型训练完成后的回答风格与原模型存在明显差异,更偏好业内人员书写风格。使用方法与原模型相同,但提示词需稍作修改以与训练指令对齐。
26
- ```python
27
- from transformers import AutoModelForCausalLM, AutoTokenizer
28
- model_name = "jiangchengchengNLP/qwen_0.5B_instruct_law_summarize"
29
- model = AutoModelForCausalLM.from_pretrained(
30
- model_name,
31
- torch_dtype="auto",
32
- device_map="auto",
33
- )
34
- tokenizer = AutoTokenizer.from_pretrained(model_name)
35
- with open("河北宁晋农村商业银行股份有限公司小刘村支行与杨保会、杨立田等借款合同纠纷一审民事判决书.txt", "r", encoding="utf-8") as f:
36
- prompt = f.read()
37
- messages = [
38
- {"role": "system", "content": "你是法律小助手,你的任务是将用户输入的内容整理成一份摘要"},
39
- {"role": "user", "content": prompt}
40
- ]
41
- text = tokenizer.apply_chat_template(
42
- messages,
43
- tokenize=False,
44
- add_generation_prompt=True
45
- )
46
- model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
47
- generated_ids =model.generate(
48
- **model_inputs,
49
- max_new_tokens=512
50
- )
51
- generated_ids = [
52
- output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
53
- ]
54
- response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
55
- print(response)
56
-
57
-
58
- 原被告系借款合同关系。原告提出诉求:1、请求法院依法判令被告偿还借款本金2000元及利息4912.6元;2、本案诉讼费用由被告承担。经审理查明,双方签订的借款合同和保证担保借款合同合法有效,被告未按约定偿还原告借款本息,应负违约责任。依据《中华人民共和国合同法》第八条、第六十条、第二百零五条、第二百零六条、二百零七条,《中华人民共和国担保法》第十八条、第二十一条以及《中华人民共和国民事诉讼法》第一百四十四条之规定,判决:1、被告偿还借款本息24912.6元;2、被告承担连带清偿责任。
59
-
60
- ```
61
-
62
- ## 测试效果
63
- 在200条测试数据集上的ROUGE评分如下:
64
- - `ROUGE_1`:0.5703008654122925
65
- - `ROUGE_2`:0.4040075748793321
66
- - `ROUGE_L`:0.4040075748793321
67
-
68
-
69
-
70
- ## 总结
 
 
 
 
 
 
 
 
 
 
71
  qwen2.5-law-summary模型针对法律文本的摘要生成进行了优化训练,适用于法律领域的研究与应用。通过高效的训练策略与强大的硬件支持,模型在性能上有了显著提升。
 
1
+ ---
2
+ license: apache-2.0
3
+ metrics:
4
+ - rouge
5
+ base_model:
6
+ - Qwen/Qwen2.5-0.5B
7
+ pipeline_tag: text2text-generation
8
+ tags:
9
+ - law
10
+ ---
11
+ # qwen2.5-law-summary
12
+
13
+ ## 模型概述
14
+ 模型名称:qwen2.5-law-summary
15
+ 模型类型:指令微调版本
16
+ 基础模型:qwen2.5系列,参数量为0.5B
17
+ 训练数据:3400余条法律判决书数据
18
+ 数据来源:法研杯2020年法律文书摘要大赛
19
+
20
+ ## 训练细节
21
+ - **训练任务**:采用最大似然估计与对比排序学习的多任务算法。
22
+ - **损失函数**:
23
+ - `loss_likelihood`与`loss_contrast`的比例基本保持在9:1至8:2之间。
24
+ - **排序对比数据**:从原训练集中采样。
25
+ - **生成样本对数据集以进行排序**:使用双底座模型qwen-plus及ENIRE-128K生成。
26
+ - **排序评估**:使用传统的ROUGE-F,计算`ROUGE_1`、`ROUGE_2`、`ROUGE_L`的平均值进行排序。
27
+
28
+ ## 训练硬件配置
29
+ - **硬件环境**:H20-96G
30
+ - **训练轮次**:共训练4轮
31
+ - **补充说明**:
32
+ - 采用flash-attention与deepspeed以适应长序列数据和对比损失带来的额外显存需求。
33
+
34
+ ## 模型性能
35
+ 模型训练完成后的回答风格与原模型存在明显差异,更偏好业内人员书写风格。使用方法与原模型相同,但提示词需稍作修改以与训练指令对齐。
36
+ ```python
37
+ from transformers import AutoModelForCausalLM, AutoTokenizer
38
+ model_name = "jiangchengchengNLP/qwen_0.5B_instruct_law_summarize"
39
+ model = AutoModelForCausalLM.from_pretrained(
40
+ model_name,
41
+ torch_dtype="auto",
42
+ device_map="auto",
43
+ )
44
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
45
+ with open("河北宁晋农村商业银行股份有限公司小刘村支行与杨保会、杨立田等借款合同��纷一审民事判决书.txt", "r", encoding="utf-8") as f:
46
+ prompt = f.read()
47
+ messages = [
48
+ {"role": "system", "content": "你是法律小助手,你的任务是将用户输入的内容整理成一份摘要"},
49
+ {"role": "user", "content": prompt}
50
+ ]
51
+ text = tokenizer.apply_chat_template(
52
+ messages,
53
+ tokenize=False,
54
+ add_generation_prompt=True
55
+ )
56
+ model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
57
+ generated_ids =model.generate(
58
+ **model_inputs,
59
+ max_new_tokens=512
60
+ )
61
+ generated_ids = [
62
+ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
63
+ ]
64
+ response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
65
+ print(response)
66
+
67
+
68
+ 原被告系借款合同关系。原告提出诉求:1、请求法院依法判令被告偿还借款本金2000元及利息4912.6元;2、本案诉讼费用由被告承担。经审理查明,双方签订的借款合同和保证担保借款合同合法有效,被告未按约定偿还原告借款本息,应负违约责任。依据《中华人民共和国合同法》第八条、第六十条、第二百零五条、第二百零六条、二百零七条,《中华人民共和国担保法》第十八条、第二十一条以及《中华人民共和国民事诉讼法》第一百四十四条之规定,判决:1、被告偿还借款本息24912.6元;2、被告承担连带清偿责任。
69
+
70
+ ```
71
+
72
+ ## 测试效果
73
+ 在200条测试数据集上的ROUGE评分如下:
74
+ - `ROUGE_1`:0.5703008654122925
75
+ - `ROUGE_2`:0.4040075748793321
76
+ - `ROUGE_L`:0.4040075748793321
77
+
78
+
79
+
80
+ ## 总结
81
  qwen2.5-law-summary模型针对法律文本的摘要生成进行了优化训练,适用于法律领域的研究与应用。通过高效的训练策略与强大的硬件支持,模型在性能上有了显著提升。