martymukherjee
/

ControlLyapunovTransformer

Text Generation

text2text-generation

Model card Files Files and versions

ControlLyapunovTransformer / tokenizer.py

martymukherjee's picture

Rename LyapunovTokenizer.py to tokenizer.py

0fe93f6 verified about 1 year ago

history blame contribute delete

2.81 kB

	from collections import OrderedDict
	import sympy as sp
	from transformers import PreTrainedTokenizer
	import json
	import os
	from huggingface_hub import upload_folder

	SPECIAL_WORDS = ["<s>", "</s>", "<pad>", "(", ")"]
	SPECIAL_WORDS = SPECIAL_WORDS + [f"<SPECIAL_{i}>" for i in range(10)]

	class LyapunovTokenizer(PreTrainedTokenizer):
	def __init__(self):
	self.SYMPY_OPERATORS = {
	sp.Add: "+",
	sp.Mul: "*",
	sp.Pow: "^",
	sp.exp: "exp",
	sp.log: "ln",
	sp.Abs: "Abs",
	sp.sin: "sin",
	sp.cos: "cos",
	sp.tan: "tan",
	sp.asin: "asin",
	sp.acos: "acos",
	sp.atan: "atan",
	sp.DiracDelta: "delta0",
	}

	self.trig_ops = ["sin", "cos", "tan"]
	self.arctrig_ops = ["asin", "acos", "atan"]
	self.exp_ops = ["exp", "ln"]
	self.other_ops = ["sqrt"]

	op_set = {
	"+": 2,
	"-": 2,
	"*": 2,
	"/": 2,
	"^": 2,
	"sqrt": 1,
	"exp": 1,
	"ln": 1,
	"sin": 1,
	"cos": 1,
	"tan": 1,
	"asin": 1,
	"acos": 1,
	"atan": 1,
	"Abs": 1,
	}

	self.int_base = 1000
	self.max_degree = 6

	self.operators_lyap = op_set
	self.operators = self.operators_lyap

	self.variables = OrderedDict({f"x{i}": sp.Symbol(f"x{i}") for i in range(2 * self.max_degree)})
	self.constants = ["pi", "E"]
	self.symbols = ["I", "INT+", "INT-", "FLOAT+", "FLOAT-", ".", "10^"]
	self.elements = [str(i) for i in range(max(10, self.int_base))]
	self.mask_symbol = ["<mask>"]

	self.words = SPECIAL_WORDS + self.constants + list(self.variables.keys()) + list(self.operators.keys()) + self.symbols + self.elements + self.mask_symbol

	self.vocab = {s: i for i, s in enumerate(self.words)}
	self.inv_vocab = {v: k for k, v in self.vocab.items()}
	super().__init__(
	model_max_length=2048, bos_token="<s>", eos_token="</s>", unk_token="<unk>", mask_token="<mask>"
	)

	def _tokenize(self, text):
	return text.split()

	def _convert_token_to_id(self, token):
	return self.vocab.get(token, self.unk_token_id)

	def _convert_id_to_token(self, index):
	return self.inv_vocab.get(index, self.unk_token)

	def get_vocab(self):
	return self.vocab

	@property
	def vocab_size(self):
	return len(self.vocab)

	def save_vocabulary(self, save_directory, filename_prefix=None):
	vocab_file = os.path.join(save_directory, "vocab.json")
	with open(vocab_file, "w") as f:
	json.dump(self.vocab, f)
	return (vocab_file,)