inoryQwQ

Update cpp bins, python scripts, add English readme

798e40d about 1 month ago

9.43 kB

	import axengine as axe
	import numpy as np
	import librosa
	import os
	from typing import Union, List
	import json
	from dataclasses import dataclass, field
	import zhconv
	import base64


	@dataclass
	class WhisperConfig:
	n_mels: int = 0
	sample_rate: int = 0
	n_fft: int = 0
	hop_length: int = 0

	sot: int = 0
	eot: int = 0
	blank_id: int = 0
	no_timestamps: int = 0
	no_speech: int = 0
	translate: int = 0
	transcribe: int = 0
	n_vocab: int = 0
	n_text_ctx: int = 0
	n_text_state: int = 0

	sot_sequence: np.ndarray = field(
	default_factory=lambda: np.array([0, 0, 0, 0], dtype=np.int32)
	)


	class Whisper:
	def __init__(self, model_type: str, model_path: str, language: str, task: str):
	self.language = language
	self.task = task
	self.encoder, self.decoder, model_config = self.load_model(
	model_type, model_path, language, task
	)
	self.config = self.load_config(model_config)

	def load_model(self, model_type, model_path, language, task):
	encoder_path = f"{model_type}/{model_type}-encoder.axmodel"
	decoder_path = f"{model_type}/{model_type}-decoder.axmodel"
	model_config_file = f"{model_type}/{model_type}_config.json"
	token_file = f"{model_type}/{model_type}-tokens.txt"

	required_files = [
	os.path.join(model_path, i)
	for i in (encoder_path, decoder_path, model_config_file, token_file)
	]
	# Check file existence
	for i, file_path in enumerate(required_files):
	assert os.path.exists(file_path), f"{file_path} NOT exist"

	# Load encoder
	encoder = axe.InferenceSession(
	required_files[0], providers=["AxEngineExecutionProvider"]
	)
	# Load decoder main
	decoder = axe.InferenceSession(
	required_files[1], providers=["AxEngineExecutionProvider"]
	)
	# Load tokens
	model_config = json.load(open(required_files[2], "r"))
	model_config["all_language_tokens"] = [
	int(i) for i in model_config["all_language_tokens"].split(",")
	]
	model_config["all_language_codes"] = [
	i for i in model_config["all_language_codes"].split(",")
	]

	self.id2token = self.load_tokens(required_files[3])
	self.lang2token = {
	k: v
	for k, v in zip(
	model_config["all_language_codes"], model_config["all_language_tokens"]
	)
	}
	self.task2token = {
	"transcribe": model_config["transcribe"],
	"translate": model_config["translate"],
	}

	return encoder, decoder, model_config

	def load_config(self, model_config):
	config = WhisperConfig
	config.n_mels = model_config["n_mels"]
	config.sample_rate = 16000
	config.n_fft = 480
	config.hop_length = 160

	config.sot = model_config["sot"]
	config.eot = model_config["eot"]
	config.blank_id = model_config["blank_id"]
	config.no_timestamps = model_config["no_timestamps"]
	config.no_speech = model_config["no_speech"]
	config.translate = model_config["translate"]
	config.transcribe = model_config["transcribe"]
	config.n_vocab = model_config["n_vocab"]
	config.n_text_ctx = model_config["n_text_ctx"]
	config.n_text_state = model_config["n_text_state"]
	config.n_text_layer = model_config["n_text_layer"]

	lang_token = model_config["all_language_tokens"][
	model_config["all_language_codes"].index(self.language)
	]
	task_token = (
	config.transcribe if self.task == "transcribe" else config.translate
	)

	config.sot_sequence = np.array(
	[config.sot, lang_token, task_token, config.no_timestamps], dtype=np.int32
	)

	return config

	def load_tokens(self, filename):
	tokens = dict()
	with open(filename, "r") as f:
	for line in f:
	t, i = line.split()
	tokens[int(i)] = t
	return tokens

	def load_audio(self, audio: str):
	samples, sample_rate = librosa.load(audio, sr=self.config.sample_rate)
	if sample_rate != self.config.sample_rate:
	samples = librosa.resample(
	samples, orig_sr=sample_rate, target_sr=self.config.sample_rate
	)

	samples = np.ascontiguousarray(samples)
	return samples, self.config.sample_rate

	def compute_feature(self, audio: np.ndarray):
	mel = librosa.feature.melspectrogram(
	y=audio,
	sr=self.config.sample_rate,
	n_fft=self.config.n_fft,
	hop_length=self.config.hop_length,
	window="hann",
	center=True,
	pad_mode="reflect",
	power=2.0,
	n_mels=self.config.n_mels,
	)

	log_spec = np.log10(np.maximum(mel, 1e-10))
	log_spec = np.maximum(log_spec, log_spec.max() - 8.0)
	mel = (log_spec + 4.0) / 4.0

	target = 3000
	if mel.shape[1] > target:
	# -50 so that there are some zero tail paddings.
	mel = mel[:, :target]
	mel[:, -50:] = 0

	# We don't need to pad it to 30 seconds now!
	if mel.shape[1] < target:
	mel = np.concatenate(
	(
	mel,
	np.zeros(
	(self.config.n_mels, target - mel.shape[1]), dtype=np.float32
	),
	),
	axis=-1,
	)

	return mel[np.newaxis, ...]

	def run_encoder(
	self,
	mel: np.ndarray,
	) -> List[np.ndarray]:
	cross_kv = self.encoder.run(
	None,
	{
	self.encoder.get_inputs()[0].name: mel,
	},
	)
	return cross_kv

	def run_decoder(self, inputs: List[np.ndarray]) -> List[np.ndarray]:
	feed = {
	self.decoder.get_inputs()[i].name: inputs[i] for i in range(len(inputs))
	}

	out = self.decoder.run(
	None,
	feed,
	)
	return out

	def get_self_cache(self) -> List[np.ndarray]:
	batch_size = 1

	self_k = np.zeros(
	(
	self.config.n_text_layer,
	batch_size,
	self.config.n_text_ctx,
	self.config.n_text_state,
	),
	dtype=np.float32,
	)
	self_v = np.zeros(
	(
	self.config.n_text_layer,
	batch_size,
	self.config.n_text_ctx,
	self.config.n_text_state,
	),
	dtype=np.float32,
	)
	return self_k, self_v

	def causal_mask_1d(self, n: int, L: int):
	"""
	Returns a 1-D int mask of shape (L,) with:
	0 -> allowed
	1 -> masked (will be converted to -inf later)
	"""
	mask = np.ones((L,), dtype=np.int32)
	if n > 0:
	mask[:n] = 0
	return mask

	def run_mel(self, mel):
	cross_k, cross_v = self.run_encoder(mel)

	self_k, self_v = self.get_self_cache()

	offset = np.array([0], dtype=np.int32)
	for t in self.config.sot_sequence:
	token = np.array([[t]], dtype=np.int32) # sot
	mask = self.causal_mask_1d(offset.item(), self.config.n_text_ctx)

	logits, this_self_k, this_self_v = self.run_decoder(
	[token] + [self_k, self_v] + [cross_k, cross_v] + [offset, mask]
	)

	self_k[:, :, offset.item() : offset.item() + 1, :] = this_self_k
	self_v[:, :, offset.item() : offset.item() + 1, :] = this_self_v

	offset += 1

	idx = logits[0, 0].argmax()

	eot = self.config.eot

	ans = []

	while idx != eot and offset.item() < self.config.n_text_ctx:
	ans.append(idx)
	token = np.array([[idx]], dtype=np.int32)

	mask = self.causal_mask_1d(offset.item(), self.config.n_text_ctx)

	logits, this_self_k, this_self_v = self.run_decoder(
	[token] + [self_k, self_v] + [cross_k, cross_v] + [offset, mask]
	)

	self_k[:, :, offset.item() : offset.item() + 1, :] = this_self_k
	self_v[:, :, offset.item() : offset.item() + 1, :] = this_self_v

	offset += 1
	idx = logits[0, 0].argmax()

	# print(ans)

	s = b""
	for i in ans:
	if i in self.id2token:
	s += base64.b64decode(self.id2token[i])

	text = s.decode().strip()

	if self.language == "zh":
	try:
	sim_zh = zhconv.convert(text, "zh-hans")
	return sim_zh
	except:
	return text

	return text

	def run(
	self, audio: Union[str, np.ndarray], language: str = None, task: str = None
	) -> str:
	if isinstance(audio, str):
	audio, sample_rate = self.load_audio(audio)

	mel = self.compute_feature(audio)

	if language is not None and self.language != language:
	self.config.sot_sequence[1] = self.lang2token(language)

	if task is not None and self.task != task:
	self.config.sot_sequence[2] = self.task2token(task)

	return self.run_mel(mel)