Spaces:

meng2003
/

myTest01

Runtime error

App Files Files Community

myTest01 / models /transformer.py

meng2003

Upload 85 files

bc32eea about 2 years ago

raw

history blame contribute delete

15.2 kB

	import sys
	import os
	THIS_DIR = os.path.dirname(os.path.abspath(__file__))
	ROOT_DIR = os.path.abspath(os.path.join(THIS_DIR, os.pardir))
	sys.path.append(ROOT_DIR)
	sys.path.append(THIS_DIR)
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import uuid
	import numpy as np

	from functools import partial

	from torch.nn import TransformerEncoder, TransformerEncoderLayer, Transformer
	#from models.x_transformers import ContinuousTransformerWrapper, Decoder, Encoder, AutoregressiveWrapper
	from x_transformers import ContinuousTransformerWrapper, Decoder, Encoder, AutoregressiveWrapper

	def pick_and_pop(keys, d):
	values = list(map(lambda key: d.pop(key), keys))
	return dict(zip(keys, values))

	def groupby_prefix_and_trim(prefix, d):
	kwargs_with_prefix, kwargs = group_dict_by_key(partial(string_begins_with, prefix), d)
	kwargs_without_prefix = dict(map(lambda x: (x[0][len(prefix):], x[1]), tuple(kwargs_with_prefix.items())))
	return kwargs_without_prefix, kwargs

	def group_dict_by_key(cond, d):
	return_val = [dict(),dict()]
	for key in d.keys():
	match = bool(cond(key))
	ind = int(not match)
	return_val[ind][key] = d[key]
	return (*return_val,)

	def string_begins_with(prefix, str):
	return str.startswith(prefix)

	class PositionalEncoding(nn.Module):

	def __init__(self, d_model, dropout=0.1, max_len=5000, device=None):
	super(PositionalEncoding, self).__init__()
	self.device = device
	self.dropout = nn.Dropout(p=dropout)
	self.lpe = nn.Embedding(max_len+1, d_model)
	# self.weight = None
	self.indices = torch.arange(max_len).unsqueeze(1) + 1
	if device is not None:
	self.indices = self.indices.to(self.device)

	def init_weights(self):
	initrange = 0.1
	self.lpe.weight.data.uniform_(-initrange, initrange)

	def forward(self, x, indices = None):
	np.save(str(uuid.uuid4())+".np",self.lpe.weight.data.cpu().numpy())
	if indices is None:
	indices = self.indices[:x.size(0),:]
	indices = self.dropout(indices)
	x = x + self.lpe(indices)
	return self.dropout(x)


	class LearnedPositionalEncoding(nn.Module): # emm this isn't learned lol
	def __init__(self, d_model, input_length, dropout=0.1, device=None):
	super(LearnedPositionalEncoding, self).__init__()
	self.dropout = nn.Dropout(p=dropout)
	pe = nn.Parameter((torch.zeros(input_length, 1, d_model)))
	self.register_buffer('pe', pe)

	def forward(self, x):
	# print(x.shape)
	x = x + self.pe
	return self.dropout(x)


	class BasicTransformerModel(nn.Module):
	def __init__(self, dout, dinp, nhead, dhid, nlayers, dropout=0.5, ntokens=0, device=None, use_pos_emb=False, use_rel_pos_emb=False, input_length=0,use_x_transformers=False, opt=None, discrete_inputs=False):
	super(BasicTransformerModel, self).__init__()
	self.device = device
	self.model_type = 'Transformer'
	self.use_x_transformers = use_x_transformers
	self.discrete_inputs = discrete_inputs
	if not use_x_transformers:
	if discrete_inputs:
	assert ntokens != 0 #ntoken needs to be set if we are to use an embedding layer (discrete inputs)
	self.encoder = nn.Embedding(ntokens, dinp)
	self.encoder1 = nn.Linear(dinp, dhid)
	if use_pos_emb:
	self.pos_encoder = LearnedPositionalEncoding(dhid, input_length, dropout)
	encoder_layers = TransformerEncoderLayer(dhid, nhead, dhid, dropout)
	self.transformer_encoder = TransformerEncoder(encoder_layers, nlayers)
	self.dinp = dinp
	self.dhid = dhid
	self.decoder = nn.Linear(dhid, dout)
	self.use_pos_emb = use_pos_emb
	self.use_rel_pos_emb = use_rel_pos_emb
	self.input_length = input_length
	if use_rel_pos_emb and input_length > 1:
	#assert input_length > 0
	self.pos_emb = nn.Parameter((torch.zeros(input_length, input_length)))
	# self.pos_emb = nn.Parameter((torch.eye(input_length, input_length)))
	# self.pos_emb = nn.Parameter((torch.randn(input_length, input_length))/np.sqrt(dinp))

	self.init_weights()
	#self.pos_encoder.init_weights()
	else:
	if discrete_inputs:
	assert ntoken is not None #ntoken needs to be set if we are to use an embedding layer (discrete inputs)
	self.encoder = nn.Embedding(ntoken, dinp)
	self.model = ContinuousTransformerWrapper(
	dim_in = dinp,
	dim_out = dout,
	max_seq_len = 1024,
	use_pos_emb = use_pos_emb,
	attn_layers = Encoder(
	dim = dhid,
	depth = nlayers,
	heads = nhead,
	rotary_pos_emb = opt.use_rotary_pos_emb,
	#rel_pos_bias = True
	)
	)

	def generate_square_subsequent_mask(self, sz, prefix_length = 1):
	mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)
	mask[:,:prefix_length] = 1
	mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
	return mask

	def init_weights(self):
	initrange = 0.1
	# self.encoder.weight.data.uniform_(-initrange, initrange)
	self.decoder.bias.data.zero_()
	self.decoder.weight.data.uniform_(-initrange, initrange)

	def forward(self, src, src_mask=None):
	#print(src.shape)
	if self.discrete_inputs:
	src = self.encoder(src.squeeze(0))
	if not self.use_x_transformers:
	src = self.encoder1(src)
	# import pdb;pdb.set_trace()
	#src *= math.sqrt(self.dhid)
	if self.use_pos_emb:
	src = self.pos_encoder(src)
	#src /= math.sqrt(self.dhid)
	# print(src)
	# print(torch.mm(src[:,0,:],src[:,0,:].T))
	if self.use_rel_pos_emb and self.input_length > 1:
	#print(self.pos_emb)
	#src_mask += self.pos_emb
	if src_mask is not None:
	output = self.transformer_encoder(src, src_mask + self.pos_emb)
	else:
	output = self.transformer_encoder(src, self.pos_emb)
	#output = self.transformer_encoder(src, self.pos_emb)
	else:
	if src_mask is not None:
	output = self.transformer_encoder(src, src_mask)
	else:
	output = self.transformer_encoder(src)
	#output = self.transformer_encoder(src)
	output = self.decoder(output)
	#print(output.shape)
	if self.discrete_inputs:
	#return output.unsqueeze(0)
	return output.permute(1,0,2)
	else:
	return output
	else:
	assert src_mask == None
	src = src.permute(1,0,2)
	mask = torch.ones(src.shape[0], src.shape[1]).bool().cuda()
	output = self.model(src, mask = mask)
	# output = self.model(src.permute(1,0,2))
	return output.permute(1,0,2)

	class BasicTransformerModelCausal(nn.Module):
	def __init__(self, dout, dinp, nhead, dhid, nlayers, dropout=0.5, ntokens=0, device=None, use_pos_emb=False, use_rel_pos_emb=False, input_length=0,use_x_transformers=False, opt=None, discrete_inputs=False):
	self.model = BasicTransformerModel(self, dout, dinp, nhead, dhid, nlayers, dropout=0.5, ntokens=0, device=None, use_pos_emb=False, use_rel_pos_emb=False, input_length=0,use_x_transformers=False, opt=None, discrete_inputs=False)
	self.mask = self.model.generate_square_subsequent_mask(input_length)
	def init_weights(self):
	self.model.init_weights()
	def generate_square_subsequent_mask(self, sz, prefix_length = 1):
	self.model.generate_square_subsequent_mask(sz,prefix_length)
	def forward(self, src, src_mask=None):
	return self.model(src,src_mask=self.mask)


	class EncDecTransformerModel(nn.Module):

	def __init__(self, dout, src_d, tgt_d, nhead, dhid, nlayers, dropout=0.5,device=None,use_pos_emb=False,src_length=0,tgt_length=0,use_x_transformers=False,opt=None):
	super(EncDecTransformerModel, self).__init__()
	self.device = device
	self.model_type = 'Transformer'
	self.use_x_transformers = use_x_transformers
	self.encoder1 = nn.Linear(src_d, dhid)
	self.encoder2 = nn.Linear(tgt_d, dhid)
	if not use_x_transformers:
	self.transformer = Transformer(d_model=dhid, nhead=nhead, num_encoder_layers=nlayers, num_decoder_layers=nlayers, dropout=0, activation="relu")
	#enc_layer = TransformerEncoderLayer(d_model=dhid, nhead=nhead, dropout=0, activation="relu")
	#self.transformerEnc = TransformerEncoder(enc_layer, nlayers)
	else:
	self.transformer = EncDecXTransformer(enc_dim_in=src_d, enc_dim_out=tgt_d, dec_din_in=tgt_d, edec_dim_out=dout, enc_dim=dhid, dec_dim=dhid, nc_heads=nhead, dec_heads=nhead, enc_depth=nlayers, dec_depth=nlayers, enc_dropout=dropout, dec_dropout=dropout, enc_max_seq_len=1024, dec_max_seq_len=1024)

	#xdecoder = Decoder(dim=dhid, depth=nlayers, heads=nhead, cross_attend=True)
	#self.transformer = Transformer(d_model=dhid, nhead=nhead, num_encoder_layers=nlayers, num_decoder_layers=nlayers, dropout=dropout, activation="gelu", custom_decoder=xdecoder)
	#self.transformer = Transformer(d_model=dhid, nhead=nhead, num_encoder_layers=nlayers, num_decoder_layers=nlayers)
	# self.encoder = nn.Embedding(ntoken, dinp)
	self.src_d = src_d
	self.tgt_d = tgt_d
	self.dhid = dhid
	self.decoder = nn.Linear(dhid, dout)
	self.use_pos_emb = use_pos_emb
	if use_pos_emb:
	assert src_length > 0
	assert tgt_length > 0
	self.src_pos_emb = nn.Parameter((torch.zeros(src_length, src_length)))
	self.tgt_pos_emb = nn.Parameter((torch.zeros(tgt_length, tgt_length)))

	if not use_x_transformers:
	tgt_mask = self.generate_square_subsequent_mask(tgt_length)
	else:
	tgt_mask = self.generate_square_subsequent_mask_bool(tgt_length)
	self.register_buffer("tgt_mask", tgt_mask)
	#a = torch.randn(32,3,512)
	#b = torch.randn(32,3,512)
	#self.register_buffer('a', a)
	#self.register_buffer('b', b)


	self.init_weights()

	def generate_square_subsequent_mask(self, sz):
	mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)
	mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
	return mask

	def generate_square_subsequent_mask_bool(self, sz):
	mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1).bool()
	return mask

	def init_weights(self):
	initrange = 0.1
	# self.encoder.weight.data.uniform_(-initrange, initrange)
	self.decoder.bias.data.zero_()
	self.decoder.weight.data.uniform_(-initrange, initrange)

	def forward(self, src, tgt):
	if not self.use_x_transformers:
	# import pdb;pdb.set_trace()
	src = self.encoder1(src)
	tgt = self.encoder2(tgt)
	tgt_mask = self.tgt_mask[:tgt.shape[0], :tgt.shape[0]]
	if self.use_pos_emb:
	tgt_pos_emb = self.tgt_pos_emb[:tgt.shape[0], :tgt.shape[0]]
	# import pdb;pdb.set_trace()
	output = self.transformer(src=src, tgt=tgt, src_mask=self.src_pos_emb, tgt_mask=tgt_pos_emb+tgt_mask)
	#output = self.transformer(src=src, tgt=tgt)
	else:
	output = self.transformer(src=src, tgt=tgt, tgt_mask=tgt_mask)
	#output = self.transformer(src=self.a, tgt=self.b)
	#output = self.transformerEnc(src=self.a)
	output = self.decoder(output)
	return output
	else:
	src = self.encoder1(src)
	tgt = self.encoder2(tgt)
	#tgt_mask = self.tgt_mask[:tgt.shape[0], :tgt.shape[0]]
	# if self.use_pos_emb:
	# tgt_pos_emb = self.tgt_pos_emb[:tgt.shape[0], :tgt.shape[0]]
	# # import pdb;pdb.set_trace()
	# output = self.transformer(src=src.permute(1,2,0), tgt=tgt.permute(1,2,0), src_mask=self.src_pos_emb, tgt_mask=tgt_pos_emb+tgt_mask)
	# #output = self.transformer(src=src, tgt=tgt)
	# else:
	# output = self.transformer(src=src.permute(1,0,2), tgt=tgt.permute(1,0,2), tgt_mask=tgt_mask)
	# output = self.transformer(src=src, tgt=tgt, tgt_mask=tgt_mask)
	output = self.transformer(src=src, tgt=tgt)
	#output = self.transformer(src=self.a, tgt=self.b)
	#output = self.transformer(src=tgt, tgt=tgt) #hmm thats an interesting way of residual attention
	output = self.decoder(output)
	return output
	#return


	class EncDecXTransformer(nn.Module):
	def __init__(
	self,
	*,
	# dim,
	tie_token_emb = False,
	**kwargs
	):
	super().__init__()
	enc_kwargs, kwargs = groupby_prefix_and_trim('enc_', kwargs)
	dec_kwargs, kwargs = groupby_prefix_and_trim('dec_', kwargs)

	# import pdb;pdb.set_trace()
	# assert 'dim' not in enc_kwargs and 'dim' not in dec_kwargs, 'dimension of either encoder or decoder must be set with `dim` keyword'
	# enc_transformer_kwargs = pick_and_pop(['num_tokens', 'max_seq_len'], enc_kwargs)
	enc_transformer_kwargs = pick_and_pop(['max_seq_len'], enc_kwargs)
	# enc_transformer_kwargs['num_memory_tokens'] = enc_kwargs.pop('num_memory_tokens', None)

	# dec_transformer_kwargs = pick_and_pop(['num_tokens', 'max_seq_len'], dec_kwargs)
	dec_transformer_kwargs = pick_and_pop(['max_seq_len'], dec_kwargs)

	self.encoder = ContinuousTransformerWrapper(
	**enc_transformer_kwargs,
	attn_layers = Encoder(**enc_kwargs)
	)

	self.decoder = ContinuousTransformerWrapper(
	**dec_transformer_kwargs,
	attn_layers = Decoder(cross_attend = True, **dec_kwargs)
	)

	if tie_token_emb:
	self.decoder.token_emb = self.encoder.token_emb

	# self.decoder = AutoregressiveWrapper(self.decoder)

	@torch.no_grad()
	def generate(self, seq_in, seq_out_start, seq_len, src_mask = None):
	encodings = self.encoder(seq_in, return_embeddings = True, mask = src_mask)
	return self.decoder.generate(seq_out_start, seq_len, context = encodings, context_mask = src_mask)

	def forward(self, src, tgt, src_mask = None, tgt_mask = None):
	enc = self.encoder(src, mask = src_mask, return_embeddings = True)
	#out = self.decoder(tgt, context = enc, mask = tgt_mask, context_mask = src_mask)
	out = self.decoder(tgt, context = enc)
	return out