Upload 53 files

6e7d4ba verified 18 days ago

8.06 kB

	import io
	import random
	import warnings
	import torch
	import webdataset as wds

	from pathlib import Path
	from torch.utils.data import Dataset

	from src.data.data_utils import TensorDict, collate_entity
	from src.constants import WEBDATASET_SHARD_SIZE, WEBDATASET_VAL_SIZE


	class ProcessedLigandPocketDataset(Dataset):
	def __init__(self, pt_path, ligand_transform=None, pocket_transform=None,
	catch_errors=False):

	self.ligand_transform = ligand_transform
	self.pocket_transform = pocket_transform
	self.catch_errors = catch_errors
	self.pt_path = pt_path

	self.data = torch.load(pt_path)

	# add number of nodes for convenience
	for entity in ['ligands', 'pockets']:
	self.data[entity]['size'] = torch.tensor([len(x) for x in self.data[entity]['x']])
	self.data[entity]['n_bonds'] = torch.tensor([len(x) for x in self.data[entity]['bond_one_hot']])

	def __len__(self):
	return len(self.data['ligands']['name'])

	def __getitem__(self, idx):
	data = {}
	data['ligand'] = {key: val[idx] for key, val in self.data['ligands'].items()}
	data['pocket'] = {key: val[idx] for key, val in self.data['pockets'].items()}
	try:
	if self.ligand_transform is not None:
	data['ligand'] = self.ligand_transform(data['ligand'])
	if self.pocket_transform is not None:
	data['pocket'] = self.pocket_transform(data['pocket'])
	except (RuntimeError, ValueError) as e:
	if self.catch_errors:
	warnings.warn(f"{type(e).__name__}('{e}') in data transform. "
	f"Returning random item instead")
	# replace bad item with a random one
	rand_idx = random.randint(0, len(self) - 1)
	return self[rand_idx]
	else:
	raise e
	return data

	@staticmethod
	def collate_fn(batch_pairs, ligand_transform=None):

	out = {}
	for entity in ['ligand', 'pocket']:
	batch = [x[entity] for x in batch_pairs]

	if entity == 'ligand' and ligand_transform is not None:
	max_size = max(x['size'].item() for x in batch)
	# TODO: might have to remove elements from batch if processing fails, warn user in that case
	batch = [ligand_transform(x, max_size=max_size) for x in batch]

	out[entity] = TensorDict(**collate_entity(batch))

	return out


	class ClusteredDataset(ProcessedLigandPocketDataset):
	def __init__(self, pt_path, ligand_transform=None, pocket_transform=None,
	catch_errors=False):
	super().__init__(pt_path, ligand_transform, pocket_transform, catch_errors)
	self.clusters = list(self.data['clusters'].values())

	def __len__(self):
	return len(self.clusters)

	def __getitem__(self, cidx):
	cluster_inds = self.clusters[cidx]
	# idx = cluster_inds[random.randint(0, len(cluster_inds) - 1)]
	idx = random.choice(cluster_inds)
	return super().__getitem__(idx)

	class DPODataset(ProcessedLigandPocketDataset):
	def __init__(self, pt_path, ligand_transform=None, pocket_transform=None,
	catch_errors=False):
	self.ligand_transform = ligand_transform
	self.pocket_transform = pocket_transform
	self.catch_errors = catch_errors
	self.pt_path = pt_path

	self.data = torch.load(pt_path)

	if not 'pockets' in self.data:
	self.data['pockets'] = self.data['pockets_w']
	if not 'ligands' in self.data:
	self.data['ligands'] = self.data['ligands_w']

	if (
	len(self.data["ligands"]["name"])
	!= len(self.data["ligands_l"]["name"])
	!= len(self.data["pockets"]["name"])
	):
	raise ValueError(
	"Error while importing DPO Dataset: Number of ligands winning, ligands losing and pockets must be the same"
	)

	# add number of nodes for convenience
	for entity in ['ligands', 'ligands_l', 'pockets']:
	self.data[entity]['size'] = torch.tensor([len(x) for x in self.data[entity]['x']])
	self.data[entity]['n_bonds'] = torch.tensor([len(x) for x in self.data[entity]['bond_one_hot']])

	def __len__(self):
	return len(self.data["ligands"]["name"])

	def __getitem__(self, idx):
	data = {}
	data['ligand'] = {key: val[idx] for key, val in self.data['ligands'].items()}
	data['ligand_l'] = {key: val[idx] for key, val in self.data['ligands_l'].items()}
	data['pocket'] = {key: val[idx] for key, val in self.data['pockets'].items()}
	try:
	if self.ligand_transform is not None:
	data['ligand'] = self.ligand_transform(data['ligand'])
	data['ligand_l'] = self.ligand_transform(data['ligand_l'])
	if self.pocket_transform is not None:
	data['pocket'] = self.pocket_transform(data['pocket'])
	except (RuntimeError, ValueError) as e:
	if self.catch_errors:
	warnings.warn(f"{type(e).__name__}('{e}') in data transform. "
	f"Returning random item instead")
	# replace bad item with a random one
	rand_idx = random.randint(0, len(self) - 1)
	return self[rand_idx]
	else:
	raise e
	return data

	@staticmethod
	def collate_fn(batch_pairs, ligand_transform=None):

	out = {}
	for entity in ['ligand', 'ligand_l', 'pocket']:
	batch = [x[entity] for x in batch_pairs]

	if entity in ['ligand', 'ligand_l'] and ligand_transform is not None:
	max_size = max(x['size'].item() for x in batch)
	batch = [ligand_transform(x, max_size=max_size) for x in batch]

	out[entity] = TensorDict(**collate_entity(batch))

	return out

	##########################################
	############### WebDatasets ##############
	##########################################

	class ProteinLigandWebDataset(wds.WebDataset):
	@staticmethod
	def collate_fn(batch_pairs, ligand_transform=None):
	return ProcessedLigandPocketDataset.collate_fn(batch_pairs, ligand_transform)


	def wds_decoder(key, value):
	return torch.load(io.BytesIO(value))


	def preprocess_wds_item(data):
	out = {}
	for entity in ['ligand', 'pocket']:
	out[entity] = data['pt'][entity]
	for attr in ['size', 'n_bonds']:
	if torch.is_tensor(out[entity][attr]):
	assert len(out[entity][attr]) == 0
	out[entity][attr] = 0

	return out


	def get_wds(data_path, stage, ligand_transform=None, pocket_transform=None):
	current_data_dir = Path(data_path, stage)
	shards = sorted(current_data_dir.glob('shard-?????.tar'), key=lambda s: int(s.name.split('-')[-1].split('.')[0]))
	min_shard = min(shards).name.split('-')[-1].split('.')[0]
	max_shard = max(shards).name.split('-')[-1].split('.')[0]
	total_size = (int(max_shard) - int(min_shard) + 1) * WEBDATASET_SHARD_SIZE if stage == 'train' else WEBDATASET_VAL_SIZE

	url = f'{data_path}/{stage}/shard-{{{min_shard}..{max_shard}}}.tar'
	ligand_transform_wrapper = lambda _data: _data
	pocket_transform_wrapper = lambda _data: _data

	if ligand_transform is not None:
	def ligand_transform_wrapper(_data):
	_data['pt']['ligand'] = ligand_transform(_data['pt']['ligand'])
	return _data

	if pocket_transform is not None:
	def pocket_transform_wrapper(_data):
	_data['pt']['pocket'] = pocket_transform(_data['pt']['pocket'])
	return _data

	return (
	ProteinLigandWebDataset(url, nodesplitter=wds.split_by_node)
	.decode(wds_decoder)
	.map(ligand_transform_wrapper)
	.map(pocket_transform_wrapper)
	.map(preprocess_wds_item)
	.with_length(total_size)
	)