Spaces:

teachyourselfcoding
/

chatlawv1

Runtime error

App Files Files Community

chatlawv1 / tools /gptq.py

teachyourselfcoding

Upload 245 files

fa6856c 11 months ago

raw

history blame

No virus

8.03 kB

	import math
	import time

	import torch
	import torch.nn as nn
	import transformers
	import quant
	from texttable import Texttable

	torch.backends.cuda.matmul.allow_tf32 = False
	torch.backends.cudnn.allow_tf32 = False

	def torch_snr_error(y_pred: torch.Tensor, y_real: torch.Tensor, reduction: str = 'mean') -> torch.Tensor:
	"""
	Compute SNR between y_pred(tensor) and y_real(tensor)

	SNR can be calcualted as following equation:

	SNR(pred, real) = (pred - real) ^ 2 / (real) ^ 2

	if x and y are matrixs, SNR error over matrix should be the mean value of SNR error over all elements.

	SNR(pred, real) = mean((pred - real) ^ 2 / (real) ^ 2)
	Args:
	y_pred (torch.Tensor): _description_
	y_real (torch.Tensor): _description_
	reduction (str, optional): _description_. Defaults to 'mean'.
	Raises:
	ValueError: _description_
	ValueError: _description_
	Returns:
	torch.Tensor: _description_
	"""
	y_pred = y_pred.type(torch.float32)
	y_real = y_real.type(torch.float32)

	if y_pred.shape != y_real.shape:
	raise ValueError(f'Can not compute snr loss for tensors with different shape. '
	f'({y_pred.shape} and {y_real.shape})')
	reduction = str(reduction).lower()

	if y_pred.ndim == 1:
	y_pred = y_pred.unsqueeze(0)
	y_real = y_real.unsqueeze(0)

	y_pred = y_pred.flatten(start_dim=1)
	y_real = y_real.flatten(start_dim=1)

	noise_power = torch.pow(y_pred - y_real, 2).sum(dim=-1)
	signal_power = torch.pow(y_real, 2).sum(dim=-1)
	snr = (noise_power) / (signal_power + 1e-7)

	if reduction == 'mean':
	return torch.mean(snr)
	elif reduction == 'sum':
	return torch.sum(snr)
	elif reduction == 'none':
	return snr
	else:
	raise ValueError(f'Unsupported reduction method.')


	class GPTQ:

	def __init__(self, layer, observe=False):
	self.layer = layer
	self.dev = self.layer.weight.device
	W = layer.weight.data.clone()
	if isinstance(self.layer, nn.Conv2d):
	W = W.flatten(1)
	if isinstance(self.layer, transformers.Conv1D):
	W = W.t()
	self.rows = W.shape[0]
	self.columns = W.shape[1]
	self.H = torch.zeros((self.columns, self.columns), device=self.dev)
	self.nsamples = 0
	self.quantizer = quant.Quantizer()
	self.observe = observe

	def add_batch(self, inp, out):
	# Hessian H = 2 X XT + λ I
	if self.observe:
	self.inp1 = inp
	self.out1 = out
	else:
	self.inp1 = None
	self.out1 = None

	if len(inp.shape) == 2:
	inp = inp.unsqueeze(0)
	tmp = inp.shape[0]
	if isinstance(self.layer, nn.Linear) or isinstance(self.layer, transformers.Conv1D):
	if len(inp.shape) == 3:
	inp = inp.reshape((-1, inp.shape[-1]))
	inp = inp.t()
	if isinstance(self.layer, nn.Conv2d):
	unfold = nn.Unfold(self.layer.kernel_size, dilation=self.layer.dilation, padding=self.layer.padding, stride=self.layer.stride)
	inp = unfold(inp)
	inp = inp.permute([1, 0, 2])
	inp = inp.flatten(1)
	self.H *= self.nsamples / (self.nsamples + tmp)
	self.nsamples += tmp
	# inp = inp.float()
	inp = math.sqrt(2 / self.nsamples) * inp.float()
	# self.H += 2 / self.nsamples * inp.matmul(inp.t())
	self.H += inp.matmul(inp.t())

	def print_loss(self, name, q_weight, weight_error, timecost):
	table = Texttable()
	name += ' ' * (16 - len(name))

	table.header(['name', 'weight_error', 'fp_inp_SNR', 'q_inp_SNR', 'time'])

	# assign weight
	self.layer.weight.data = q_weight.reshape(self.layer.weight.shape).to(self.layer.weight.data.dtype)

	if self.inp1 is not None:
	# quantize input to int8
	quantizer = quant.Quantizer()
	quantizer.configure(8, perchannel=False, sym=True, mse=False)
	quantizer.find_params(self.inp1)
	q_in = quantizer.quantize(self.inp1).type(torch.float16)
	q_out = self.layer(q_in)

	# get kinds of SNR
	q_SNR = torch_snr_error(q_out, self.out1).item()
	fp_SNR = torch_snr_error(self.layer(self.inp1), self.out1).item()
	else:
	q_SNR = '-'
	fp_SNR = '-'

	table.add_row([name, weight_error, fp_SNR, q_SNR, timecost])
	print(table.draw().split('\n')[-2])

	def fasterquant(self, blocksize=128, percdamp=.01, groupsize=-1, actorder=False, name=''):
	self.layer.to(self.dev)

	W = self.layer.weight.data.clone()
	if isinstance(self.layer, nn.Conv2d):
	W = W.flatten(1)
	if isinstance(self.layer, transformers.Conv1D):
	W = W.t()
	W = W.float()

	tick = time.time()

	if not self.quantizer.ready():
	self.quantizer.find_params(W, weight=True)

	H = self.H
	if not self.observe:
	del self.H
	dead = torch.diag(H) == 0
	H[dead, dead] = 1
	W[:, dead] = 0

	if actorder:
	perm = torch.argsort(torch.diag(H), descending=True)
	W = W[:, perm]
	H = H[perm][:, perm]

	Losses = torch.zeros_like(W)
	Q = torch.zeros_like(W)

	damp = percdamp * torch.mean(torch.diag(H))
	diag = torch.arange(self.columns, device=self.dev)
	H[diag, diag] += damp
	H = torch.linalg.cholesky(H)
	H = torch.cholesky_inverse(H)
	H = torch.linalg.cholesky(H, upper=True)
	Hinv = H

	g_idx = []
	scale = []
	zero = []
	now_idx = 1

	for i1 in range(0, self.columns, blocksize):
	i2 = min(i1 + blocksize, self.columns)
	count = i2 - i1

	W1 = W[:, i1:i2].clone()
	Q1 = torch.zeros_like(W1)
	Err1 = torch.zeros_like(W1)
	Losses1 = torch.zeros_like(W1)
	Hinv1 = Hinv[i1:i2, i1:i2]

	for i in range(count):
	w = W1[:, i]
	d = Hinv1[i, i]

	if groupsize != -1:
	if (i1 + i) % groupsize == 0:
	self.quantizer.find_params(W[:, (i1 + i):(i1 + i + groupsize)], weight=True)

	if ((i1 + i) // groupsize) - now_idx == -1:
	scale.append(self.quantizer.scale)
	zero.append(self.quantizer.zero)
	now_idx += 1

	q = self.quantizer.quantize(w.unsqueeze(1)).flatten()
	Q1[:, i] = q
	Losses1[:, i] = (w - q)2 / d2

	err1 = (w - q) / d
	W1[:, i:] -= err1.unsqueeze(1).matmul(Hinv1[i, i:].unsqueeze(0))
	Err1[:, i] = err1

	Q[:, i1:i2] = Q1
	Losses[:, i1:i2] = Losses1 / 2

	W[:, i2:] -= Err1.matmul(Hinv[i1:i2, i2:])

	torch.cuda.synchronize()
	error = torch.sum(Losses).item()

	groupsize = groupsize if groupsize != -1 else self.columns
	g_idx = [i // groupsize for i in range(self.columns)]
	g_idx = torch.tensor(g_idx, dtype=torch.int32, device=Q.device)
	if actorder:
	invperm = torch.argsort(perm)
	Q = Q[:, invperm]
	g_idx = g_idx[invperm]

	if isinstance(self.layer, transformers.Conv1D):
	Q = Q.t()

	self.print_loss(name=name, q_weight=Q, weight_error=error, timecost=(time.time() - tick))

	if scale == []:
	scale.append(self.quantizer.scale)
	zero.append(self.quantizer.zero)
	scale = torch.cat(scale, dim=1)
	zero = torch.cat(zero, dim=1)
	return scale, zero, g_idx, error

	def free(self):
	self.inp1 = None
	self.out1 = None
	self.H = None
	self.Losses = None
	self.Trace = None
	torch.cuda.empty_cache()