File size: 3,924 Bytes
e2dccf7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
# -*- coding: utf-8 -*-

"""
Created by Shengbo.Zhang on 2021/10/12
"""

# 定义正文的各段落之间的分隔符
SEGMENT_SYMBOL = '\n'

# 定义表格之间的分隔符(无需添加换行符'\n')
TABLE_SYMBOL = '-----表格-----'

# 定义表格中单元格之间的分隔符
TABLE_CELL_SYMBOL = '\t'

# 定义临时生成的Docx文件的命名后缀
TEMP_DOCX_SUFFIX = 'TEMP_DOCX'

# 筛选可处理的公告文件标题特点
ANNOUNCEMENT_TITLE_FEATURE = [['公告', -2],
                              ['通知', -2],
                              ['说明', -2],
                              ['意见', -2],
                              ['预告', -2],
                              ['快报', -2],
                              ['摘要', -2],
                              ['意见函', -3],
                              ['回复函', -3],
                              ['意见书', -3]]
def _check_ann_title_processable(title, exp=0):
    if exp == 0:
        for item in ANNOUNCEMENT_TITLE_FEATURE:
            if title[item[1]:] == item[0]:
                return True
    elif exp == 1:
        for item in ANNOUNCEMENT_TITLE_FEATURE:
            if title[item[1]-1:] == item[0]+'\n':
                return True
    elif exp == 2:
        for item in ANNOUNCEMENT_TITLE_FEATURE:
            if title[-2+item[1]:-2] == item[0]:
                return True
    return False

# 一级专用名词语料库
FIRST_PROPER_CORPUS = ['被担保人名称:', '本次担保金额及累计为其担保金额:', '本次是否有反担保:', '对外担保逾期的累计数量:',
                       '企业名称:', '注册资本:', '经营范围:', '法定代表人:', '注册地址:', '财务状况(以下数据未经审计):',
                       '担保方式:', '担保期限:', '担保金额:', '担保额度:',
                       '主体要求:', '成立年限要求:', '客户类型要求:', '商业信用要求:', '反担保要求:', '资金安全性要求:',
                       '住所:', '成立日期:', '统一社会信用代码:', '甲方:', '乙方:', '甲方承诺:', '乙方承诺:', '理由:',
                       '本次会议是否有否决议案:', '审议结果:',
                       '律师事务所:', '律师:', '结论意见:',
                       '股东大会召开日期:', '网络投票系统:', '股东大会类型和届次', '股东大会类型和届次:', '股东大会召集人:',
                       '投票方式:', '召开的日期时间:', '召开地点:', '召开日期:', '起止时间:',
                       '各议案已披露的时间和披露媒体:', '特别决议议案:', '对中小投资者单独计票的议案:', '涉及关联股东回避表决的议案:',
                       '应回避表决的关联股东名称:', '涉及优先股股东参与表决的议案:', '登记地点:', '登记时间:',
                       '联系人:', '联系电话:', '传真:', '地址:', '邮编:',
                       '案件所属的诉讼阶段:', '上市公司子公司所处的当事人地位:', '涉案的金额:', '是否会对上市公司损益产生负面影响:',
                       '原告:', '被告:', '住所地:', '诉讼机构名称:', '上市公司控股子公司所处的当事人地位:',
                       '归属于上市公司股东的净利润:', '归属于上市公司股东的扣除非经常性损益的净利润:', '每股收益:'] + \
                      [f"甲方{i}:" for i in '一二三四五六七八九十'] + [f"乙方{i}:" for i in '一二三四五六七八九十']

# 二级专用名词语料库(指出现在一级专用名词所在段落中的名词,不应单独成段落)
SECOND_PROPER_CORPUS = ['许可经营项目:', '一般经营项目:']