Upload 4 files

6260c2d verified 6 months ago

20.4 kB

	from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
	import torch
	from modules.file import ExcelFileWriter
	import os

	from abc import ABC, abstractmethod
	from typing import List
	import re

	class FilterPipeline():
	def __init__(self, filter_list):
	self._filter_list:List[Filter] = filter_list

	def append(self, filter):
	self._filter_list.append(filter)

	def batch_encoder(self, inputs):
	for filter in self._filter_list:
	inputs = filter.encoder(inputs)
	return inputs

	def batch_decoder(self, inputs):
	for filter in reversed(self._filter_list):
	inputs = filter.decoder(inputs)
	return inputs

	class Filter(ABC):
	def __init__(self):
	self.name = 'filter'
	self.code = []
	@abstractmethod
	def encoder(self, inputs):
	pass

	@abstractmethod
	def decoder(self, inputs):
	pass

	class SpecialTokenFilter(Filter):
	def __init__(self):
	self.name = 'special token filter'
	self.code = []
	self.special_tokens = ['!', '！', '-']

	def encoder(self, inputs):
	filtered_inputs = []
	self.code = []
	for i, input_str in enumerate(inputs):
	if not all(char in self.special_tokens for char in input_str):
	filtered_inputs.append(input_str)
	else:
	self.code.append([i, input_str])
	return filtered_inputs

	def decoder(self, inputs):
	original_inputs = inputs.copy()
	for removed_indice in self.code:
	original_inputs.insert(removed_indice[0], removed_indice[1])
	return original_inputs

	class SperSignFilter(Filter):
	def __init__(self):
	self.name = 's percentage sign filter'
	self.code = []

	def encoder(self, inputs):
	encoded_inputs = []
	self.code = [] # 清空 self.code
	for i, input_str in enumerate(inputs):
	if '%s' in input_str:
	encoded_str = input_str.replace('%s', '*')
	self.code.append(i) # 将包含 '%s' 的字符串的索引存储到 self.code 中
	else:
	encoded_str = input_str
	encoded_inputs.append(encoded_str)
	return encoded_inputs

	def decoder(self, inputs):
	decoded_inputs = inputs.copy()
	for i in self.code:
	decoded_inputs[i] = decoded_inputs[i].replace('*', '%s') # 使用 self.code 中的索引还原原始字符串
	return decoded_inputs

	class ParenSParenFilter(Filter):
	def __init__(self):
	self.name = 'Paren s paren filter'
	self.code = []

	def encoder(self, inputs):
	encoded_inputs = []
	self.code = [] # 清空 self.code
	for i, input_str in enumerate(inputs):
	if '(s)' in input_str:
	encoded_str = input_str.replace('(s)', '$')
	self.code.append(i) # 将包含 '(s)' 的字符串的索引存储到 self.code 中
	else:
	encoded_str = input_str
	encoded_inputs.append(encoded_str)
	return encoded_inputs

	def decoder(self, inputs):
	decoded_inputs = inputs.copy()
	for i in self.code:
	decoded_inputs[i] = decoded_inputs[i].replace('$', '(s)') # 使用 self.code 中的索引还原原始字符串
	return decoded_inputs

	class ChevronsFilter(Filter):
	def __init__(self):
	self.name = 'chevrons filter'
	self.code = []

	def encoder(self, inputs):
	encoded_inputs = []
	self.code = [] # 清空 self.code
	pattern = re.compile(r'<.*?>')
	for i, input_str in enumerate(inputs):
	if pattern.search(input_str):
	matches = pattern.findall(input_str)
	encoded_str = pattern.sub('#', input_str)
	self.code.append((i, matches)) # 将包含匹配模式的字符串的索引和匹配列表存储到 self.code 中
	else:
	encoded_str = input_str
	encoded_inputs.append(encoded_str)
	return encoded_inputs

	def decoder(self, inputs):
	decoded_inputs = inputs.copy()
	for i, matches in self.code:
	for match in matches:
	decoded_inputs[i] = decoded_inputs[i].replace('#', match, 1) # 使用 self.code 中的匹配列表依次还原原始字符串
	return decoded_inputs

	class SimilarFilter(Filter):
	def __init__(self):
	self.name = 'similar filter'
	self.code = []

	def is_similar(self, str1, str2):
	# 判断两个字符串是否相似（只有数字上有区别）
	pattern = re.compile(r'\d+')
	return pattern.sub('', str1) == pattern.sub('', str2)

	def encoder(self, inputs):
	encoded_inputs = []
	self.code = [] # 清空 self.code
	i = 0
	while i < len(inputs):
	encoded_inputs.append(inputs[i])
	similar_strs = [inputs[i]]
	j = i + 1
	while j < len(inputs) and self.is_similar(inputs[i], inputs[j]):
	similar_strs.append(inputs[j])
	j += 1
	if len(similar_strs) > 1:
	self.code.append((i, similar_strs)) # 将相似字符串的起始索引和实际字符串列表存储到 self.code 中
	i = j
	return encoded_inputs

	def decoder(self, inputs:List):
	decoded_inputs = inputs
	for i, similar_strs in self.code:
	pattern = re.compile(r'\d+')
	for j in range(len(similar_strs)):
	if pattern.search(similar_strs[j]):
	number = re.findall(r'\d+', similar_strs[j])[0] # 获取相似字符串的数字部分
	new_str = pattern.sub(number, inputs[i]) # 将新字符串的数字部分替换为相似字符串的数字部分
	else:
	new_str = inputs[i] # 如果相似字符串不含数字，直接使用新字符串
	if j > 0:
	decoded_inputs.insert(i+j, new_str)
	return decoded_inputs

	class ChineseFilter:
	def __init__(self, pinyin_lib_file='pinyin.txt'):
	self.name = 'chinese filter'
	self.code = []
	self.pinyin_lib = self.load_pinyin_lib(pinyin_lib_file)

	def load_pinyin_lib(self, file_path):
	with open(os.path.join(script_dir,file_path), 'r', encoding='utf-8') as f:
	return set(line.strip().lower() for line in f)

	def is_valid_chinese(self, word):
	# 判断一个单词是否符合要求:只有一个单词构成,并且首字母大写
	if len(word.split()) == 1 and word[0].isupper():
	# 使用pinyin_or_word函数判断是否是合法的拼音
	return self.is_pinyin(word.lower())
	return False

	def encoder(self, inputs):
	encoded_inputs = []
	self.code = [] # 清空 self.code
	for i, word in enumerate(inputs):
	if self.is_valid_chinese(word):
	self.code.append((i, word)) # 将需要过滤的中文单词的索引和拼音存储到 self.code 中
	else:
	encoded_inputs.append(word)
	return encoded_inputs

	def decoder(self, inputs):
	decoded_inputs = inputs.copy()
	for i, word in self.code:
	decoded_inputs.insert(i, word) # 根据索引将过滤的中文单词还原到原位置
	return decoded_inputs

	def is_pinyin(self, string):
	'''
	judge a string is a pinyin or a english word.
	pinyin_Lib comes from a txt file.
	'''
	string = string.lower()
	stringlen = len(string)
	max_len = 6
	result = []
	n = 0
	while n < stringlen:
	matched = 0
	temp_result = []
	for i in range(max_len, 0, -1):
	s = string[0:i]
	if s in self.pinyin_lib:
	temp_result.append(string[:i])
	matched = i
	break
	if i == 1 and len(temp_result) == 0:
	return False
	result.extend(temp_result)
	string = string[matched:]
	n += matched
	return True

	script_dir = os.path.dirname(os.path.abspath(__file__))
	parent_dir = os.path.dirname(os.path.dirname(os.path.dirname(script_dir)))

	class Model():
	def __init__(self, modelname, selected_lora_model, selected_gpu):
	def get_gpu_index(gpu_info, target_gpu_name):
	"""
	从 GPU 信息中获取目标 GPU 的索引
	Args:
	gpu_info (list): 包含 GPU 名称的列表
	target_gpu_name (str): 目标 GPU 的名称

	Returns:
	int: 目标 GPU 的索引，如果未找到则返回 -1
	"""
	for i, name in enumerate(gpu_info):
	if target_gpu_name.lower() in name.lower():
	return i
	return -1
	if selected_gpu != "cpu":
	gpu_count = torch.cuda.device_count()
	gpu_info = [torch.cuda.get_device_name(i) for i in range(gpu_count)]
	selected_gpu_index = get_gpu_index(gpu_info, selected_gpu)
	self.device_name = f"cuda:{selected_gpu_index}"
	else:
	self.device_name = "cpu"
	print("device_name", self.device_name)
	self.model = AutoModelForSeq2SeqLM.from_pretrained(modelname).to(self.device_name)
	self.tokenizer = AutoTokenizer.from_pretrained(modelname)
	# self.translator = pipeline('translation', model=self.original_model, tokenizer=self.tokenizer, src_lang=original_language, tgt_lang=target_language, device=device)

	def generate(self, inputs, original_language, target_languages, max_batch_size):
	filter_list = [SpecialTokenFilter(), SperSignFilter(), ParenSParenFilter(), ChevronsFilter(), SimilarFilter(), ChineseFilter()]
	filter_pipeline = FilterPipeline(filter_list)
	def language_mapping(original_language):
	d = {
	"Achinese (Arabic script)": "ace_Arab",
	"Achinese (Latin script)": "ace_Latn",
	"Mesopotamian Arabic": "acm_Arab",
	"Ta'izzi-Adeni Arabic": "acq_Arab",
	"Tunisian Arabic": "aeb_Arab",
	"Afrikaans": "afr_Latn",
	"South Levantine Arabic": "ajp_Arab",
	"Akan": "aka_Latn",
	"Amharic": "amh_Ethi",
	"North Levantine Arabic": "apc_Arab",
	"Standard Arabic": "arb_Arab",
	"Najdi Arabic": "ars_Arab",
	"Moroccan Arabic": "ary_Arab",
	"Egyptian Arabic": "arz_Arab",
	"Assamese": "asm_Beng",
	"Asturian": "ast_Latn",
	"Awadhi": "awa_Deva",
	"Central Aymara": "ayr_Latn",
	"South Azerbaijani": "azb_Arab",
	"North Azerbaijani": "azj_Latn",
	"Bashkir": "bak_Cyrl",
	"Bambara": "bam_Latn",
	"Balinese": "ban_Latn",
	"Belarusian": "bel_Cyrl",
	"Bemba": "bem_Latn",
	"Bengali": "ben_Beng",
	"Bhojpuri": "bho_Deva",
	"Banjar (Arabic script)": "bjn_Arab",
	"Banjar (Latin script)": "bjn_Latn",
	"Tibetan": "bod_Tibt",
	"Bosnian": "bos_Latn",
	"Buginese": "bug_Latn",
	"Bulgarian": "bul_Cyrl",
	"Catalan": "cat_Latn",
	"Cebuano": "ceb_Latn",
	"Czech": "ces_Latn",
	"Chokwe": "cjk_Latn",
	"Central Kurdish": "ckb_Arab",
	"Crimean Tatar": "crh_Latn",
	"Welsh": "cym_Latn",
	"Danish": "dan_Latn",
	"German": "deu_Latn",
	"Dinka": "dik_Latn",
	"Jula": "dyu_Latn",
	"Dzongkha": "dzo_Tibt",
	"Greek": "ell_Grek",
	"English": "eng_Latn",
	"Esperanto": "epo_Latn",
	"Estonian": "est_Latn",
	"Basque": "eus_Latn",
	"Ewe": "ewe_Latn",
	"Faroese": "fao_Latn",
	"Persian": "pes_Arab",
	"Fijian": "fij_Latn",
	"Finnish": "fin_Latn",
	"Fon": "fon_Latn",
	"French": "fra_Latn",
	"Friulian": "fur_Latn",
	"Nigerian Fulfulde": "fuv_Latn",
	"Scottish Gaelic": "gla_Latn",
	"Irish": "gle_Latn",
	"Galician": "glg_Latn",
	"Guarani": "grn_Latn",
	"Gujarati": "guj_Gujr",
	"Haitian Creole": "hat_Latn",
	"Hausa": "hau_Latn",
	"Hebrew": "heb_Hebr",
	"Hindi": "hin_Deva",
	"Chhattisgarhi": "hne_Deva",
	"Croatian": "hrv_Latn",
	"Hungarian": "hun_Latn",
	"Armenian": "hye_Armn",
	"Igbo": "ibo_Latn",
	"Iloko": "ilo_Latn",
	"Indonesian": "ind_Latn",
	"Icelandic": "isl_Latn",
	"Italian": "ita_Latn",
	"Javanese": "jav_Latn",
	"Japanese": "jpn_Jpan",
	"Kabyle": "kab_Latn",
	"Kachin": "kac_Latn",
	"Arabic": "ar_AR",
	"Chinese": "zho_Hans",
	"Spanish": "spa_Latn",
	"Dutch": "nld_Latn",
	"Kazakh": "kaz_Cyrl",
	"Korean": "kor_Hang",
	"Lithuanian": "lit_Latn",
	"Malayalam": "mal_Mlym",
	"Marathi": "mar_Deva",
	"Nepali": "ne_NP",
	"Polish": "pol_Latn",
	"Portuguese": "por_Latn",
	"Russian": "rus_Cyrl",
	"Sinhala": "sin_Sinh",
	"Tamil": "tam_Taml",
	"Turkish": "tur_Latn",
	"Ukrainian": "ukr_Cyrl",
	"Urdu": "urd_Arab",
	"Vietnamese": "vie_Latn",
	"Thai":"tha_Thai",
	"Khmer":"khm_Khmr"
	}
	return d[original_language]
	def process_gpu_translate_result(temp_outputs):
	outputs = []
	for temp_output in temp_outputs:
	length = len(temp_output[0]["generated_translation"])
	for i in range(length):
	temp = []
	for trans in temp_output:
	temp.append({
	"target_language": trans["target_language"],
	"generated_translation": trans['generated_translation'][i],
	})
	outputs.append(temp)
	excel_writer = ExcelFileWriter()
	excel_writer.write_text(os.path.join(parent_dir,r"temp/empty.xlsx"), outputs, 'A', 1, len(outputs))
	self.tokenizer.src_lang = language_mapping(original_language)
	if self.device_name == "cpu":
	# Tokenize input
	input_ids = self.tokenizer(inputs, return_tensors="pt", padding=True, max_length=128).to(self.device_name)
	output = []
	for target_language in target_languages:
	# Get language code for the target language
	target_lang_code = self.tokenizer.lang_code_to_id[language_mapping(target_language)]
	# Generate translation
	generated_tokens = self.model.generate(
	**input_ids,
	forced_bos_token_id=target_lang_code,
	max_length=128
	)
	generated_translation = self.tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
	# Append result to output
	output.append({
	"target_language": target_language,
	"generated_translation": generated_translation,
	})
	outputs = []
	length = len(output[0]["generated_translation"])
	for i in range(length):
	temp = []
	for trans in output:
	temp.append({
	"target_language": trans["target_language"],
	"generated_translation": trans['generated_translation'][i],
	})
	outputs.append(temp)
	return outputs
	else:
	# 最大批量大小 = 可用 GPU 内存字节数 / 4 / （张量大小 + 可训练参数）
	# max_batch_size = 10
	# Ensure batch size is within model limits:
	print("length of inputs: ",len(inputs))
	batch_size = min(len(inputs), int(max_batch_size))
	batches = [inputs[i:i + batch_size] for i in range(0, len(inputs), batch_size)]
	print("length of batches size: ", len(batches))
	temp_outputs = []
	processed_num = 0
	for index, batch in enumerate(batches):
	# Tokenize input
	print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>")
	print(len(batch))
	print(batch)
	batch = filter_pipeline.batch_encoder(batch)
	print(batch)
	temp = []
	if len(batch) > 0:
	input_ids = self.tokenizer(batch, return_tensors="pt", padding=True).to(self.device_name)
	for target_language in target_languages:
	target_lang_code = self.tokenizer.lang_code_to_id[language_mapping(target_language)]
	generated_tokens = self.model.generate(
	**input_ids,
	forced_bos_token_id=target_lang_code,
	)
	generated_translation = self.tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

	print(generated_translation)
	generated_translation = filter_pipeline.batch_decoder(generated_translation)
	print(generated_translation)
	print(len(generated_translation))
	# Append result to output
	temp.append({
	"target_language": target_language,
	"generated_translation": generated_translation,
	})
	input_ids.to('cpu')
	del input_ids
	else:
	for target_language in target_languages:
	generated_translation = filter_pipeline.batch_decoder(batch)
	print(generated_translation)
	print(len(generated_translation))
	# Append result to output
	temp.append({
	"target_language": target_language,
	"generated_translation": generated_translation,
	})
	temp_outputs.append(temp)
	processed_num += len(batch)
	if (index + 1) * max_batch_size // 1000 - index * max_batch_size // 1000 == 1:
	print("Already processed number: ", len(temp_outputs))
	process_gpu_translate_result(temp_outputs)
	outputs = []
	for temp_output in temp_outputs:
	length = len(temp_output[0]["generated_translation"])
	for i in range(length):
	temp = []
	for trans in temp_output:
	temp.append({
	"target_language": trans["target_language"],
	"generated_translation": trans['generated_translation'][i],
	})
	outputs.append(temp)
	return outputs
	for filter in self._filter_list:
	inputs = filter.encoder(inputs)
	return inputs

	def batch_decoder(self, inputs):
	for filter in reversed(self._filter_list):
	inputs = filter.decoder(inputs)
	return inputs