Spaces:

sleiyer
/

restricted_item_detector

Sleeping

restricted_item_detector / genai_SDK /Utilities.py

Sheng Lei

Add application file

28de1fd 5 months ago

20.2 kB

	#!/usr/bin/env python
	# coding: utf-8
	import pandas as pd
	from torch.utils.data import Dataset

	class LanguageDataset(Dataset):
	def __init__(self, df, tokenizer):
	# Make sure data is compatible
	if len(df.columns) !=2:
	raise Exception("Dataset can only have two columns!")

	self.data = df.to_dict(orient='records')
	self.tokenizer = tokenizer

	# set the length of smallest square needed
	self.max_length = smallest_square_length(df)
	self.labels = df.columns

	def __len__(self):
	return len(self.data)
	def __getitem__(self, i):
	X = self.data[i][self.labels[0]]
	Y = self.data[i][self.labels[1]]
	if str(type(self.tokenizer)) == "<class 'transformers.models.gpt2.tokenization_gpt2.GPT2Tokenizer'>":
	return self.tokenizer.encode_plus(X + ' \| ' + Y,
	return_tensors='pt',
	max_length = self.max_length,
	padding='max_length',
	truncation=True)
	elif str(type(self.tokenizer)) == "<class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>":
	input_tokens = self.tokenizer.encode_plus(
	X,
	max_length=self.max_length,
	padding='max_length',
	truncation=True,
	return_tensors='pt'
	)
	target_tokens = self.tokenizer.encode_plus(
	Y,
	max_length=self.max_length,
	padding='max_length',
	truncation=True,
	return_tensors='pt'
	)
	return {
	'input_ids': input_tokens['input_ids'].squeeze(),
	# 'attention_mask': input_tokens['attention_mask'].squeeze(),
	'labels': target_tokens['input_ids'].squeeze()
	}



	def smallest_square_length(df):
	col1 = df[df.columns[0]].astype(str).apply(lambda x: len(x)).max()
	col2 = df[df.columns[1]].astype(str).apply(lambda x: len(x)).max()

	max_length = max(col1, col2)

	x = 2
	while x < max_length:
	x = x * 2

	return x

	def levenshtein_distance(str1, str2):
	"""
	Computes the Levenshtein distance between two strings.
	Parameters:
	str1 (str): The first string.
	str2 (str): The second string.
	Returns:
	int: The Levenshtein distance between the two strings.
	"""
	m, n = len(str1), len(str2)
	dp = [[0] * (n + 1) for _ in range(m + 1)]

	for i in range(m + 1):
	dp[i][0] = i

	for j in range(n + 1):
	dp[0][j] = j

	for i in range(1, m + 1):
	for j in range(1, n + 1):
	if str1[i - 1] == str2[j - 1]:
	dp[i][j] = dp[i - 1][j - 1]
	else:
	dp[i][j] = 1 + min(dp[i - 1][j], dp[i][j - 1], dp[i - 1][j - 1])

	return dp[m][n]

	def grid_search(model, tokenizer, input_str, topK_values, topP_values, temperature_values, repetition_penalty_values, expected_output):
	"""
	Conducts a grid search over specified hyperparameters to find the best text generation settings (GPT series).
	Parameters:
	- model: The pre-trained model used for text generation.
	- tokenizer: The tokenizer associated with the model.
	- input_str: The input string to the model for text generation.
	- topK_values: A list of integer values for the topK sampling hyperparameter.
	- topP_values: A list of float values for the topP (nucleus) sampling hyperparameter.
	- temperature_values: A list of float values for the temperature setting of the model.
	- repetition_penalty_values: A list of float values for penalizing repetitions in the generated text.
	- expected_output: The expected output string against which generated texts are evaluated using the Levenshtein distance.
	Returns:
	- results: A pandas DataFrame containing the combination of hyperparameters, the generated output for each combination, and its Levenshtein distance from the expected output.
	Notes:
	- The function prints out the best hyperparameters found during the search, based on the smallest Levenshtein distance.
	- Levenshtein distance measures the number of edits required to transform one string into another.
	"""
	results = pd.DataFrame(columns=['topK', 'topP', 'temperature', 'repetition_penalty', 'generated_output', 'levenshtein_distance'])
	min_distance = 9999999
	for topK in topK_values:
	for topP in topP_values:
	for temperature in temperature_values:
	for repetition_penalty in repetition_penalty_values:
	# try:
	generated_output = model.generate_text(input_str, topK, topP, temperature, repetition_penalty)
	# print(generated_output)
	distance = levenshtein_distance(generated_output, expected_output)
	if distance < min_distance:
	print(f'topK={topK}, topP={topP}, temperature={temperature}, repetition_penalty={repetition_penalty}, levenshtein_distance={distance}')
	min_distance = distance

	new_row = {'topK': topK,
	'topP': topP,
	'temperature': temperature,
	'repetition_penalty': repetition_penalty,
	'generated_output': generated_output,
	'levenshtein_distance': distance
	}
	results.loc[len(results)] = new_row

	return results.sort_values(by='levenshtein_distance', ascending=True)


	def to_coreml(gpt_model, path=''):
	import torch

	device = torch.device('mps')

	if torch.cuda.is_available():
	device = torch.device('cuda')
	else:
	try:
	device = torch.device('mps') # Apple Silicon
	except Exception:
	device = torch.device('cpu')
	if path != '': lm_head_model = torch.load(path, map_location=device)
	else: lm_head_model = gpt_model.model

	"""
	Recreate the Core ML model from scratch using
	coremltools' neural_network.NeuralNetworkBuilder
	"""
	import coremltools
	import coremltools.models.datatypes as datatypes
	from coremltools.models import neural_network as neural_network
	from coremltools.models.utils import save_spec
	import numpy as np
	import torch
	model_name = 'model'

	model = lm_head_model.transformer

	wte = model.wte.weight.data.cpu().numpy().transpose() # shape (768, 50257) /!\ i hate this
	wpe = model.wpe.weight.data.cpu().numpy().transpose() # shape (768, 1024)

	sequence_length = 128
	steps = model.config.n_layer

	# build model
	input_features = [
	('input_ids', datatypes.Array(sequence_length)),
	('position_ids', datatypes.Array(sequence_length)),
	]
	output_features = [('output_logits', None)]

	builder = neural_network.NeuralNetworkBuilder(
	input_features,
	output_features,
	mode=None,
	disable_rank5_shape_mapping=True,
	)
	builder.add_expand_dims(
	name='input_ids_expanded_to_rank5',
	input_name='input_ids',
	output_name='input_ids_expanded_to_rank5',
	axes=(1, 2, 3, 4)
	)
	builder.add_expand_dims(
	name='position_ids_expanded_to_rank5',
	input_name='position_ids',
	output_name='position_ids_expanded_to_rank5',
	axes=(1, 2, 3, 4)
	)
	builder.add_embedding(
	name='token_embeddings',
	input_name='input_ids_expanded_to_rank5',
	output_name='token_embeddings',
	W=wte,
	b=None,
	input_dim=50257,
	output_channels=768,
	has_bias=False,
	)
	builder.add_embedding(
	name='positional_embeddings',
	input_name='position_ids_expanded_to_rank5',
	output_name='positional_embeddings',
	W=wpe,
	b=None,
	input_dim=1024,
	output_channels=768,
	has_bias=False,
	)

	# Input:, Output: (seq, 1, 768, 1, 1)
	builder.add_add_broadcastable(
	name='embeddings_addition',
	input_names=['token_embeddings', 'positional_embeddings'],
	output_name=f'{0}_previous_block'
	)

	for i in range(steps):
	print(i)
	ln_weight = model.h[i].ln_1.weight.data.cpu().numpy().reshape((1, 1, 768, 1, 1))
	ln_bias = model.h[i].ln_1.bias.data.cpu().numpy().reshape((1, 1, 768, 1, 1))
	ln_epsilon = model.h[i].ln_1.eps

	builder.add_mvn(
	name=f"{i}_block_ln_1",
	input_name=f"{i}_previous_block",
	# output_name=f"{i}_block_ln_1_output",
	output_name=f"{i}_block_ln_1",
	across_channels=True,
	normalize_variance=True,
	epsilon=ln_epsilon
	)

	builder.add_scale(
	name=f"{i}_block_ln_1_scaled",
	input_name=f"{i}_block_ln_1",
	output_name=f"{i}_block_ln_1_scaled",
	W=ln_weight,
	b=ln_bias,
	has_bias=True,
	shape_scale=[768],
	shape_bias=[768]
	)

	builder.add_transpose(
	name=f"{i}_block_ln_1_reshape",
	input_name=f"{i}_block_ln_1_scaled",
	output_name=f"{i}_block_ln_1_scaled_transposed",
	axes=(1, 0, 2, 3, 4)
	)


	conv_1D_bias = model.h[i].attn.c_attn.bias.data.cpu().numpy().reshape((1, 1, 2304, 1, 1))
	conv_1D_weights = model.h[i].attn.c_attn.weight.cpu().data.numpy().transpose().reshape((1, 768, 2304, 1, 1))

	builder.add_inner_product(
	name=f"{i}_block_attn_conv",
	input_name=f"{i}_block_ln_1_scaled_transposed",
	output_name=f"{i}_block_attn_conv",
	input_channels=768,
	output_channels=2304,
	W=conv_1D_weights,
	b=conv_1D_bias,
	has_bias=True
	)

	builder.add_split(
	name=f"{i}_block_attn_qkv_split",
	input_name=f"{i}_block_attn_conv",
	output_names=[f"{i}_block_attn_q", f"{i}_block_attn_k", f"{i}_block_attn_v"]
	)

	builder.add_rank_preserving_reshape(
	name=f"{i}_block_attn_q_reshape",
	input_name=f"{i}_block_attn_q",
	output_name=f"{i}_block_attn_q_reshape",
	output_shape=(1, 1, sequence_length, 12, 64)
	)

	builder.add_transpose(
	name=f"{i}_block_attn_q_reshape_permuted",
	input_name=f"{i}_block_attn_q_reshape",
	output_name=f"{i}_block_attn_q_reshape_permuted",
	axes=(0, 1, 3, 2, 4)
	)

	builder.add_rank_preserving_reshape(
	name=f"{i}_block_attn_k_reshape",
	input_name=f"{i}_block_attn_k",
	output_name=f"{i}_block_attn_k_reshape",
	output_shape=(1, 1, sequence_length, 12, 64)
	)

	builder.add_transpose(
	name=f"{i}_block_attn_k_reshape_permuted",
	input_name=f"{i}_block_attn_k_reshape",
	output_name=f"{i}_block_attn_k_reshape_permuted",
	axes=(0, 1, 3, 4, 2)
	)

	builder.add_rank_preserving_reshape(
	name=f"{i}_block_attn_v_reshape",
	input_name=f"{i}_block_attn_v",
	output_name=f"{i}_block_attn_v_reshape",
	output_shape=(1, 1, sequence_length, 12, 64)
	)

	builder.add_transpose(
	name=f"{i}_block_attn_v_reshape_permuted",
	input_name=f"{i}_block_attn_v_reshape",
	output_name=f"{i}_block_attn_v_reshape_permuted",
	axes=(0, 1, 3, 2, 4)
	)

	builder.add_batched_mat_mul(
	name=f"{i}_block_attn_qv_matmul",
	input_names=[f"{i}_block_attn_q_reshape_permuted", f"{i}_block_attn_k_reshape_permuted"],
	output_name=f"{i}_block_attn_qv_matmul"
	)

	builder.add_scale(
	name=f"{i}_block_attn_qv_matmul_scaled",
	input_name=f"{i}_block_attn_qv_matmul",
	output_name=f"{i}_block_attn_qv_matmul_scaled",
	W=np.array(1/8),
	b=0,
	has_bias=False
	)

	bias_0 = model.h[i].attn.bias
	nd = ns = sequence_length
	b = (model.h[i].attn.bias[:, :, ns-nd:ns, :ns]).unsqueeze(0)

	builder.add_scale(
	name=f"{i}_block_attn_bias",
	input_name=f"{i}_block_attn_qv_matmul_scaled",
	output_name=f"{i}_block_attn_bias",
	W=b,
	b=None,
	has_bias=False,
	shape_scale=[1, sequence_length, sequence_length]
	)

	bias_constant_0 = -1e4 * torch.logical_not(b)

	builder.add_bias(
	name=f"{i}_block_attn_afterbias",
	input_name=f"{i}_block_attn_bias",
	output_name=f"{i}_block_attn_afterbias",
	# output_name=f"output_logits",
	b=bias_constant_0,
	shape_bias=[1, sequence_length, sequence_length],
	)

	builder.add_squeeze(
	name=f"{i}_squeezit",
	input_name=f"{i}_block_attn_afterbias",
	output_name=f"{i}_squeezit",
	axes=[0, 1]
	)

	builder.add_softmax(
	name=f"{i}_block_attn_softmax",
	input_name=f"{i}_squeezit",
	output_name=f"{i}_block_attn_softmax",
	)

	builder.add_expand_dims(
	name=f"{i}_expandit",
	input_name=f"{i}_block_attn_softmax",
	output_name=f"{i}_expandit",
	axes=[0, 1]
	)

	builder.add_batched_mat_mul(
	name=f"{i}_block_full_attention",
	input_names=[f"{i}_expandit", f"{i}_block_attn_v_reshape_permuted"],
	output_name=f"{i}_block_full_attention"
	)

	builder.add_transpose(
	name=f"{i}_block_full_attention_merged_t",
	input_name=f"{i}_block_full_attention",
	output_name=f"{i}_block_full_attention_merged_t",
	axes=[0, 1, 3, 2, 4]
	)

	builder.add_rank_preserving_reshape(
	name=f"{i}_block_full_attention_merged",
	input_name=f"{i}_block_full_attention_merged_t",
	output_name=f"{i}_block_full_attention_merged",
	output_shape=[1, 1, 1, sequence_length, 768]
	)

	builder.add_transpose(
	name=f"{i}_block_attn_conv_proj_t",
	input_name=f"{i}_block_full_attention_merged",
	output_name=f"{i}_block_attn_conv_proj_t",
	axes=[0, 3, 4, 1, 2]
	)

	conv_1D_proj_bias = model.h[i].attn.c_proj.bias.data.cpu().numpy().reshape((1, 1, 768, 1, 1))
	conv_1D_proj_weights = model.h[i].attn.c_proj.weight.data.cpu().numpy().transpose().reshape((1, 768, 768, 1, 1))

	# Input:, Output: (1, 3, 768, 1, 1)
	builder.add_inner_product(
	name=f"{i}_block_attn_conv_proj",
	input_name=f"{i}_block_attn_conv_proj_t",
	output_name=f"{i}_block_attn_conv_proj",
	input_channels=768,
	output_channels=768,
	W=conv_1D_proj_weights,
	b=conv_1D_proj_bias,
	has_bias=True
	)

	# Input: (seq, 1, 768, 1, 1), Output: (1, seq, 768, 1, 1)
	builder.add_transpose(
	name=f"{i}_previous_block_t",
	input_name=f'{i}_previous_block',
	output_name=f"{i}_previous_block_t",
	axes=[1, 0, 2, 3, 4]
	)

	# Input: [(1, seq, 768, 1, 1), (1, seq, 768, 1, 1)], Output: (1, seq, 768, 1, 1)
	builder.add_add_broadcastable(
	name=f"{i}_block_xa_sum",
	input_names=[f"{i}_previous_block_t", f"{i}_block_attn_conv_proj"],
	output_name=f"{i}_block_xa_sum",
	# output_name=f"output_logits"
	)

	ln_2_weight = model.h[i].ln_2.weight.data.cpu().numpy().reshape((1, 1, 768, 1, 1))
	ln_2_bias = model.h[i].ln_2.bias.data.cpu().numpy().reshape((1, 1, 768, 1, 1))
	ln_2_epsilon = model.h[i].ln_2.eps

	# Input: (1, seq, 768, 1, 1), Output:
	builder.add_mvn(
	name=f"{i}_block_ln_2",
	input_name=f"{i}_block_xa_sum",
	output_name=f"{i}_block_ln_2",
	across_channels=True,
	normalize_variance=True,
	epsilon=ln_2_epsilon
	)

	builder.add_scale(
	name=f"{i}_block_ln_2_scaled",
	input_name=f"{i}_block_ln_2",
	# output_name=f"output_logits",
	output_name=f"{i}_block_ln_2_scaled",
	W=ln_2_weight,
	b=ln_2_bias,
	has_bias=True,
	shape_scale=[768],
	shape_bias=[768]
	)

	mlp_conv_1D_fc_bias = model.h[i].mlp.c_fc.bias.data.cpu().numpy().reshape((1, 1, 3072, 1, 1))
	mlp_conv_1D_fc_weights = model.h[i].mlp.c_fc.weight.data.cpu().numpy().transpose().reshape((1, 768, 3072, 1, 1))

	# Input:, Output: (1, 3, 3072, 1, 1)
	builder.add_inner_product(
	name=f"{i}_block_mlp_conv_fc",
	input_name=f"{i}_block_ln_2_scaled",
	output_name=f"{i}_block_mlp_conv_fc",
	# output_name=f"output_logits",
	input_channels=768,
	output_channels=3072,
	W=mlp_conv_1D_fc_weights,
	b=mlp_conv_1D_fc_bias,
	has_bias=True
	)

	builder.add_gelu(
	name=f"{i}_block_mlp_gelu",
	input_name=f"{i}_block_mlp_conv_fc",
	output_name=f"{i}_block_mlp_gelu",
	# output_name=f"output_logits",
	mode='TANH_APPROXIMATION'
	)

	mlp_conv_1D_proj_bias = model.h[i].mlp.c_proj.bias.data.cpu().numpy().reshape((1, 1, 768, 1, 1))
	mlp_conv_1D_proj_weights = model.h[i].mlp.c_proj.weight.data.cpu().numpy().transpose().reshape((1, 3072, 768, 1, 1))

	# Input:, Output: (1, 3, 3072, 1, 1)
	builder.add_inner_product(
	name=f"{i}_block_mlp_conv_proj",
	input_name=f"{i}_block_mlp_gelu",
	output_name=f"{i}_block_mlp_conv_proj",
	# output_name=f"output_logits",
	input_channels=3072,
	output_channels=768,
	W=mlp_conv_1D_proj_weights,
	b=mlp_conv_1D_proj_bias,
	has_bias=True
	)

	builder.add_add_broadcastable(
	name=f"{i}_block_xm_sum",
	input_names=[f"{i}_block_xa_sum", f"{i}_block_mlp_conv_proj"],
	# output_name=f"output_logits"
	output_name=f"{i + 1}_previous_block_final"
	)

	builder.add_transpose(
	name=f"{i}_block_xm_sum_t",
	input_name=f"{i + 1}_previous_block_final",
	output_name=f"{i + 1}_previous_block",
	axes=[1, 0, 2, 3, 4]
	)


	ln_f_weight = model.ln_f.weight.data.cpu().numpy().reshape((1, 1, 768, 1, 1))
	ln_f_bias = model.ln_f.bias.data.cpu().numpy().reshape((1, 1, 768, 1, 1))
	ln_f_epsilon = model.ln_f.eps

	# Input: (1, seq, 768, 1, 1), Output:
	builder.add_mvn(
	name=f"ln_f",
	input_name=f"{steps}_previous_block_final",
	output_name=f"ln_f",
	# output_name=f"output_logits",
	across_channels=True,
	normalize_variance=True,
	epsilon=ln_f_epsilon
	)

	builder.add_scale(
	name=f"ln_f_scaled",
	input_name=f"ln_f",
	output_name=f"ln_f_scaled",
	# output_name=f"output_logits",
	W=ln_f_weight,
	b=ln_f_bias,
	has_bias=True,
	shape_scale=[768],
	shape_bias=[768]
	)

	lm_head_weights = lm_head_model.lm_head.weight.data.cpu().numpy().reshape((1, 50257, 768, 1, 1))

	builder.add_inner_product(
	name="lm_head",
	input_name="ln_f_scaled",
	output_name="output_logits",
	input_channels=768,
	output_channels=50257,
	W=lm_head_weights,
	b=None,
	has_bias=False
	)

	# compile spec to model
	mlmodel = coremltools.models.MLModel(builder.spec)

	save_spec(builder.spec, f'{model_name}-{sequence_length}-{steps}.mlmodel')