Application / config.py
FrankWu's picture
Upload 5 files
e2dccf7 verified
raw
history blame contribute delete
No virus
3.92 kB
# -*- coding: utf-8 -*-
"""
Created by Shengbo.Zhang on 2021/10/12
"""
# 定义正文的各段落之间的分隔符
SEGMENT_SYMBOL = '\n'
# 定义表格之间的分隔符(无需添加换行符'\n')
TABLE_SYMBOL = '-----表格-----'
# 定义表格中单元格之间的分隔符
TABLE_CELL_SYMBOL = '\t'
# 定义临时生成的Docx文件的命名后缀
TEMP_DOCX_SUFFIX = 'TEMP_DOCX'
# 筛选可处理的公告文件标题特点
ANNOUNCEMENT_TITLE_FEATURE = [['公告', -2],
['通知', -2],
['说明', -2],
['意见', -2],
['预告', -2],
['快报', -2],
['摘要', -2],
['意见函', -3],
['回复函', -3],
['意见书', -3]]
def _check_ann_title_processable(title, exp=0):
if exp == 0:
for item in ANNOUNCEMENT_TITLE_FEATURE:
if title[item[1]:] == item[0]:
return True
elif exp == 1:
for item in ANNOUNCEMENT_TITLE_FEATURE:
if title[item[1]-1:] == item[0]+'\n':
return True
elif exp == 2:
for item in ANNOUNCEMENT_TITLE_FEATURE:
if title[-2+item[1]:-2] == item[0]:
return True
return False
# 一级专用名词语料库
FIRST_PROPER_CORPUS = ['被担保人名称:', '本次担保金额及累计为其担保金额:', '本次是否有反担保:', '对外担保逾期的累计数量:',
'企业名称:', '注册资本:', '经营范围:', '法定代表人:', '注册地址:', '财务状况(以下数据未经审计):',
'担保方式:', '担保期限:', '担保金额:', '担保额度:',
'主体要求:', '成立年限要求:', '客户类型要求:', '商业信用要求:', '反担保要求:', '资金安全性要求:',
'住所:', '成立日期:', '统一社会信用代码:', '甲方:', '乙方:', '甲方承诺:', '乙方承诺:', '理由:',
'本次会议是否有否决议案:', '审议结果:',
'律师事务所:', '律师:', '结论意见:',
'股东大会召开日期:', '网络投票系统:', '股东大会类型和届次', '股东大会类型和届次:', '股东大会召集人:',
'投票方式:', '召开的日期时间:', '召开地点:', '召开日期:', '起止时间:',
'各议案已披露的时间和披露媒体:', '特别决议议案:', '对中小投资者单独计票的议案:', '涉及关联股东回避表决的议案:',
'应回避表决的关联股东名称:', '涉及优先股股东参与表决的议案:', '登记地点:', '登记时间:',
'联系人:', '联系电话:', '传真:', '地址:', '邮编:',
'案件所属的诉讼阶段:', '上市公司子公司所处的当事人地位:', '涉案的金额:', '是否会对上市公司损益产生负面影响:',
'原告:', '被告:', '住所地:', '诉讼机构名称:', '上市公司控股子公司所处的当事人地位:',
'归属于上市公司股东的净利润:', '归属于上市公司股东的扣除非经常性损益的净利润:', '每股收益:'] + \
[f"甲方{i}:" for i in '一二三四五六七八九十'] + [f"乙方{i}:" for i in '一二三四五六七八九十']
# 二级专用名词语料库(指出现在一级专用名词所在段落中的名词,不应单独成段落)
SECOND_PROPER_CORPUS = ['许可经营项目:', '一般经营项目:']