Spaces:

HUBioDataLab
/

ASCARIS

Sleeping

App Files Files Community

ASCARIS / code /pdb_featureVector.py

fatmacankara

Update code/pdb_featureVector.py

af56dfe about 1 year ago

raw

history blame

94.9 kB

	# IMPORT NECESSARY MODULES AND LIBRARIES
	from timeit import default_timer as timer
	import xml.etree.ElementTree as ET
	from collections import Counter
	from bs4 import BeautifulSoup
	from io import StringIO
	from decimal import *
	import pandas as pd
	import requests
	import os.path as op
	import subprocess
	import shutil
	import ssbio.utils
	import warnings
	import sys
	import pathlib
	from pathlib import Path
	import os, glob
	import math
	import ssbio
	import ssl
	from Bio.Align import substitution_matrices
	from Bio.PDB.Polypeptide import *
	from Bio.PDB import PDBList
	from Bio import Align
	from Bio import SeqIO
	from Bio.PDB import *
	from Bio.PDB import PDBParser, PPBuilder
	warnings.filterwarnings("ignore")
	start = timer()
	import streamlit as st
	# FUNCTIONS


	# FUNCTIONS
	from calc_pc_property import *
	from add_domains import *
	from add_annotations import *
	from add_sequence import *
	from add_structure import *
	from add_alignment import *
	from manage_files import *
	from add_3Dalignment import *
	from add_sasa import *
	from standard import *
	from add_interface_pos import *
	from standard import *
	from uniprotSequenceMatch import uniprotSequenceMatch
	from process_input import clean_data


	def pdb(input_set, mode, impute):
	aligner = Align.PairwiseAligner()
	"""
	STEP 1
	Get input data as a console input.
	Add datapoint identifier and remove non-standard input.
	"""
	data = clean_data(input_set)
	path_to_input_files, path_to_output_files, path_to_domains, fisher_path, path_to_interfaces, buffer = manage_files(
	mode)
	out_path = path_to_output_files / 'log.txt'
	print('Creating directories...')

	annotation_list = ['disulfide', 'intMet', 'intramembrane', 'naturalVariant', 'dnaBinding', 'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane', 'crosslink', 'mutagenesis', 'strand',
	'helix', 'turn', 'metalBinding', 'repeat', 'topologicalDomain', 'caBinding', 'bindingSite',
	'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif', 'coiledCoil', 'peptide',
	'transitPeptide', 'glycosylation', 'propeptide']

	print('Feature vector generation started...\n')
	if len(data) == 0:
	print('Feature vectore generation terminated.')
	else:
	"""
	STEP 2
	Add physicochemical properties.
	"""
	print('Adding physicochemical properties...\n')

	data = add_physicochemical(data)

	"""
	STEP 3
	Add domain-related information.
	"""
	print('Adding domains\n')

	data = add_domains(data, path_to_domains)

	data = data.astype(str)
	data = data.replace({'NaN': 'nan'})
	data.domain = data.domain.replace({'nan': '-1'})
	data.domStart = data.domStart.replace({'nan': '-1'})
	data.domEnd = data.domEnd.replace({'nan': '-1'})
	data.distance = data.distance.replace({'nan': '-1'})

	"""
	STEP 4
	Retrieve canonical and isoform UniProt sequences.
	Add to the data frame.
	"""
	print('Retrieving UniProt sequences...\n')

	canonical_fasta = pd.DataFrame(columns=['uniprotID', 'uniprotSequence'])
	up_list = list(set(data['uniprotID'].to_list()))
	for i in range(len(up_list)):
	canonical_fasta.at[i, 'uniprotSequence'] = get_uniprot_seq(up_list[i])
	canonical_fasta.at[i, 'uniprotID'] = up_list[i]

	canonical_fasta = canonical_fasta.drop_duplicates()
	isoform_fasta = pd.DataFrame(columns=['uniprotID', 'isoformSequence'])
	iso_dict = []
	for i in range(len(up_list)):
	iso_dict.append(get_isoforms(up_list[i]))

	index = 0
	for i in iso_dict:
	for key, val in i.items():
	isoform_fasta.at[index, 'uniprotID'] = key
	isoform_fasta.at[index, 'isoformSequence'] = val
	index += 1
	isoform_fasta = isoform_fasta.drop_duplicates()

	for i in isoform_fasta.index:
	isoform_fasta.at[i, 'whichIsoform'] = isoform_fasta.at[i, 'uniprotID'][7:10].strip()
	isoform_fasta.at[i, 'uniprotID'] = isoform_fasta.at[i, 'uniprotID'][0:6]
	print('Sequence files created...\n')

	data = data.merge(canonical_fasta, on='uniprotID', how='left')
	data = data.astype(str)
	data['whichIsoform'] = 'nan'
	data.replace({'': 'nan'}, inplace=True)
	data['wt_sequence_match'] = ''
	for i in data.index:
	if len(data.at[i, 'uniprotSequence']) >= int(data.at[i, 'pos']):
	wt = data.at[i, 'wt']
	can = str(data.at[i, 'uniprotSequence'])[int(data.at[i, 'pos']) - 1]
	if wt == can:
	data.at[i, 'wt_sequence_match'] = 'm'
	elif wt != can:
	isoList = isoform_fasta[
	isoform_fasta['uniprotID'] == data.at[i, 'uniprotID']].isoformSequence.to_list()
	for k in isoList:
	if len(k) >= int(data.at[i, 'pos']):
	resInIso = k[int(int(data.at[i, 'pos']) - 1)]
	if wt == resInIso:
	whichIsoform = isoform_fasta[isoform_fasta.isoformSequence == k].whichIsoform.to_list()[
	0]
	data.at[i, 'wt_sequence_match'] = 'i'
	data.at[i, 'whichIsoform'] = whichIsoform
	break

	elif len(data.at[i, 'uniprotSequence']) < int(data.at[i, 'pos']):
	isoList = isoform_fasta[isoform_fasta['uniprotID'] == data.at[i, 'uniprotID']].isoformSequence.to_list()
	for k in isoList:
	if len(k) >= int(data.at[i, 'pos']):
	resInIso = k[int(int(data.at[i, 'pos']) - 1)]
	wt = data.at[i, 'wt']
	if wt == resInIso:
	whichIsoform = isoform_fasta[isoform_fasta.isoformSequence == k].whichIsoform.to_list()[0]
	data.at[i, 'wt_sequence_match'] = 'i'
	data.at[i, 'whichIsoform'] = whichIsoform
	break

	data.wt_sequence_match = data.wt_sequence_match.astype('str')
	data.replace({'': 'nan'}, inplace=True)
	data_size = len(data.drop_duplicates(['datapoint']))
	not_match_in_uniprot = data[(data.uniprotSequence == 'nan') \| (data.wt_sequence_match == 'nan')]
	uniprot_matched = data[(data.uniprotSequence != 'nan') & (data.wt_sequence_match != 'nan')]
	data = None

	print('You have %d data points that failed to match a UniProt Sequence\nProceeding with %d remaining...\n'
	% (len(not_match_in_uniprot.drop_duplicates(['datapoint'])),
	len(uniprot_matched.drop_duplicates(['datapoint']))))

	"""
	STEP 5
	Retrieve related PDB sequences, extract their sequences.
	Add to the data frame.
	"""
	from urllib.error import HTTPError
	pdb_fasta = pd.DataFrame(columns=['pdbID', 'chain', 'pdbSequence'])
	pdb_info = pd.DataFrame(columns=['uniprotID', 'pdbID', 'chain', 'resolution'])

	print('Retrieving PDB structures...\n')
	pdbs = []
	protein = uniprot_matched.uniprotID.to_list()
	protein = list(set(protein))

	for prot in protein:
	pdbs.append(get_pdb_ids(prot))
	if len(pdbs) >= 1:
	pdbs = [item for sublist in pdbs for item in sublist]

	else:
	pdbs = []
	print('Processing PDB structures...\n')
	if pdbs == []:
	print('No PDB structure found for the query. ')
	print('Starting PDB structures download...\n')
	pdbs = list(filter(None, pdbs))
	pdbs = (set(pdbs))
	pdbs = [i.lower() for i in pdbs]
	pdbl = PDBList()
	parser = PDBParser()
	index = 0

	try:
	shutil.rmtree('obsolete')
	except OSError as e:
	pass

	cnt = 0
	pdbs = [i.upper() for i in pdbs]
	def fetch_uniprot_ids(pdb_code):
	response = requests.get(f"https://www.ebi.ac.uk/pdbe/api/mappings/uniprot/{pdb_code}")

	response.raise_for_status() # Check for a successful response
	data = response.json()

	return list(list(list(data.values())[0].values())[0].keys())
	for search in pdbs:
	# Step 1: Fetch the PDB file
	pdb_url = f"https://files.rcsb.org/download/{search}.pdb"

	try:
	response = requests.get(pdb_url)
	response.raise_for_status() # Check for a successful response
	except :
	continue # Skip to the next PDB code if fetching fails

	# Step 2: Parse the PDB file from memory
	pdb_data = response.text
	pdb_parser = PDBParser(QUIET=True) # QUIET=True suppresses warnings
	pdb_file_content = StringIO(pdb_data)
	structure = pdb_parser.get_structure(search, pdb_file_content)
	ppb = PPBuilder()
	pdb_data_list = pdb_data.split('\n')
	pdb_data_list_sequence = [i for i in pdb_data_list if i.startswith('SEQRES')]
	pdb_data_list_sequence = [ list(filter(None,i.split(' '))) for i in pdb_data_list_sequence]
	seqs = {}
	for i in pdb_data_list_sequence:
	if i[2] in seqs.keys():
	seqs[i[2]] += i[4:]
	else:
	seqs[i[2]] = i[4:]

	for key, val in seqs.items():
	seqs[key] = ''.join([threeToOne(i) for i in val])
	pdb_data_list = [i for i in pdb_data_list if i.startswith('DBREF')]
	pdb_data_list = [[list(filter(None,i.split(' '))) for j in i.split(' ') if j == 'UNP'] for i in pdb_data_list]
	pdb_data_list = [i for i in pdb_data_list if i != []]
	pdb_data_list_uniprot = [[j[6] for j in i] for i in pdb_data_list]


	#pdb_data_list = [[list(filter(None,j)) for j in i] for i in pdb_data_list]
	pdb_data_list = [[j[2] for j in i] for i in pdb_data_list]
	pdb_data_list = [i[0] for i in pdb_data_list]
	for model in structure:
	for pp in ppb.build_peptides(model):
	sequence = pp.get_sequence()

	for chain, up in zip(model,pdb_data_list_uniprot ):
	chain_id = chain.get_id()
	# Extract UniProt ID if available in the chain's annotations
	uniprot_ids = fetch_uniprot_ids(search)
	# Get the resolution from the PDB header
	header = structure.header
	resolution = header.get('resolution', 'N/A')
	if chain_id in pdb_data_list:
	# Print UniProt IDs, chain ID, and resolution for the current model
	chain_id = chain.get_id()

	pdb_fasta.at[index, 'pdbID'] = search
	pdb_fasta.at[index, 'chain'] = chain_id
	pdb_fasta.at[index, 'pdbSequence'] = str(seqs[chain_id])
	pdb_info.at[index, 'uniprotID'] = ', '.join(up)
	pdb_info.at[index, 'pdbID'] = search
	pdb_info.at[index, 'chain'] = chain_id
	pdb_info.at[index, 'resolution'] = resolution
	index += 1

	print('PDB file processing finished..')
	for filename in list(Path(path_to_output_files / 'pdb_structures').glob("*")):
	try:
	filename_replace_ext = filename.with_suffix(".pdb")
	filename.rename(filename_replace_ext)
	except:
	FileNotFoundError

	for filename in list(Path(path_to_output_files / 'pdb_structures').glob("*")):
	try:
	if filename.stem.startswith("pdb"):
	filename_replace_ext = filename.with_name(filename.stem[3:])
	filename.rename(filename_replace_ext.with_suffix('.pdb'))
	except:
	FileNotFoundError

	uniprot_matched = pd.merge(uniprot_matched, pdb_info, on='uniprotID', how='left')
	uniprot_matched = uniprot_matched.astype(str)
	uniprot_matched = uniprot_matched.drop_duplicates()
	uniprot_matched = uniprot_matched.merge(pdb_fasta, on=['pdbID', 'chain'], how='left')
	uniprot_matched = uniprot_matched.astype(str)

	with_pdb = uniprot_matched[(uniprot_matched.pdbID != 'nan') & (
	(uniprot_matched.resolution != 'nan') & (uniprot_matched.resolution != 'OT') & (
	uniprot_matched.resolution != 'None'))].drop_duplicates()
	no_pdb = uniprot_matched[(uniprot_matched.pdbID == 'nan') \| (
	(uniprot_matched.resolution == 'nan') \| (uniprot_matched.resolution == 'OT') \| (
	uniprot_matched.resolution == 'None'))]
	no_pdb = no_pdb[~no_pdb.datapoint.isin(with_pdb.datapoint.to_list())]
	no_pdb.drop(columns=['chain', 'pdbID', 'pdbSequence', 'resolution'], inplace=True)
	print(
	'PDB Information successfully added...\nPDB structures are found for %d of %d.\n%d of %d failed to match with PDB structure.\n'
	% (len(with_pdb.drop_duplicates(['datapoint'])), len(uniprot_matched.drop_duplicates(['datapoint'])),
	len(no_pdb.drop_duplicates(['datapoint'])), len(uniprot_matched.drop_duplicates(['datapoint']))))

	with_pdb = with_pdb.sort_values(['uniprotID', 'resolution'], axis=0, ascending=True)
	with_pdb = with_pdb.drop_duplicates(['uniprotID', 'wt', 'mut', 'pos', 'pdbSequence'], keep='first')
	with_pdb.replace({'': 'nan'}, inplace=True)

	if len(with_pdb) == 0:
	with_pdb['pdbInfo'] = ''
	else:
	for i in with_pdb.index:
	try:
	res = str(with_pdb.at[i, 'resolution'])
	chain = with_pdb.at[i, 'chain']
	new = with_pdb.at[i, 'pdbID'] + ':' + chain + ':' + res
	with_pdb.at[i, 'pdbInfo'] = new
	except:
	TypeError
	with_pdb.at[i, 'pdbInfo'] = 'nan'

	with_pdb = with_pdb[['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence', 'pdbSequence',
	'wt_sequence_match',
	'whichIsoform', 'pdbID', 'resolution', 'chain', 'pdbInfo', 'datapoint']]

	# If the query data points are found in no_match_in_uniprot data frame, it will not give any results.
	# If the query data points are found in no_pdb data frame, it will be searched in the modbase and swiss_model steps.
	# If the query data points are found in with_pdb data frame, it will be searched in the following steps.

	"""
	STEP 6
	Retrieve sequence annotations.
	Add to the data frame.
	"""

	if len(with_pdb) > 0:
	with_pdb = add_annotations(with_pdb)
	else:
	new_cols = with_pdb.columns.to_list() + ['disulfide', 'intMet', 'intramembrane', 'naturalVariant',
	'dnaBinding',
	'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane',
	'crosslink', 'mutagenesis', 'strand',
	'helix', 'turn', 'metalBinding', 'repeat', 'topologicalDomain',
	'caBinding', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif',
	'coiledCoil', 'peptide',
	'transitPeptide', 'glycosylation', 'propeptide', 'disulfideBinary',
	'intMetBinary', 'intramembraneBinary',
	'naturalVariantBinary', 'dnaBindingBinary', 'activeSiteBinary',
	'nucleotideBindingBinary', 'lipidationBinary', 'siteBinary',
	'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary',
	'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
	'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary',
	'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary',
	'modifiedResidueBinary', 'zincFingerBinary', 'motifBinary',
	'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary',
	'glycosylationBinary', 'propeptideBinary']
	with_pdb = pd.DataFrame(columns=new_cols)
	try:
	with_pdb.whichIsoform = with_pdb.whichIsoform.astype('str')
	except:
	AttributeError
	with_pdb['whichIsoform'] = ''

	with_pdb = with_pdb.astype(str)
	with_pdb = with_pdb.replace({'NaN': 'nan'})
	with_pdb.replace({'[]': 'nan'}, inplace=True)
	with_pdb.replace({'nan-nan': 'nan'}, inplace=True)
	with_pdb.replace({'': 'nan'}, inplace=True)

	"""
	STEP 7
	Do alignment for PDB
	"""
	# Canonical matches, i.e. labelled as m, canonical sequences will be aligned with PDB sequences.
	# Isoform matches, i.e. labelled as i, isoform sequences will be aligned with PDB sequences.
	with_pdb['uniprotSequence'] = with_pdb['uniprotSequence'].str.replace('U', 'C')
	with_pdb['pdbSequence'] = with_pdb['pdbSequence'].str.replace('U', 'C')

	dfM = with_pdb[with_pdb.wt_sequence_match == 'm']
	dfM = dfM.sort_values(['uniprotID', 'resolution'], axis=0, ascending=True)
	dfM = dfM.drop_duplicates(['uniprotID', 'wt', 'mut', 'pos', 'pdbSequence'], keep='first')

	dfNM = with_pdb[with_pdb.wt_sequence_match == 'i']
	dfNM = dfNM.sort_values(['uniprotID', 'resolution'], axis=0, ascending=True)
	dfNM = dfNM.drop_duplicates(['uniprotID', 'wt', 'mut', 'pos', 'pdbSequence'], keep='first')
	dfNM.rename(columns={'isoformSequence': 'uniprotSequence'}, inplace=True)

	dfM = dfM.astype(str)
	dfNM = dfNM.astype(str)

	dfM.reset_index(inplace=True)
	dfM.drop(['index'], axis=1, inplace=True)
	dfNM.reset_index(inplace=True)
	dfNM.drop(['index'], axis=1, inplace=True)

	uniprot_matched_size = len(uniprot_matched.drop_duplicates(['datapoint']))
	uniprot_matched = None
	pdb_fasta = None
	pdb_info = None
	pdbs = None

	existing_pdb = None
	with_pdb_size = len(with_pdb.drop_duplicates(['datapoint']))
	with_pdb = None


	print('Aligning sequences...\n')
	aligned_m = final_stage(dfM, annotation_list, Path(path_to_output_files / 'alignment_files'))
	aligned_nm = final_stage(dfNM, annotation_list, Path(path_to_output_files / 'alignment_files'))




	# When PDB sequence is nan, it is wrongly aligned to the UniProt sequence. Fix them.
	for i in aligned_m.index:
	if aligned_m.at[i, 'pdbSequence'] == 'nan':
	aligned_m.at[i, 'mutationPositionOnPDB'] = 'nan'
	aligned_m.at[i, 'domainStartonPDB'] = 'nan'
	aligned_m.at[i, 'domainEndonPDB'] = 'nan'
	aligned_m.at[i, 'pdb_alignStatus'] = 'nan'

	for i in aligned_nm.index:
	if aligned_nm.at[i, 'pdbSequence'] == 'nan':
	aligned_nm.at[i, 'mutationPositionOnPDB'] = 'nan'
	aligned_nm.at[i, 'domainStartonPDB'] = 'nan'
	aligned_nm.at[i, 'domainEndonPDB'] = 'nan'
	aligned_nm.at[i, 'pdb_alignStatus'] = 'nan'

	# Check if they the same column name before merging.
	aligned_m = aligned_m.astype(str)
	aligned_nm = aligned_nm.astype(str)

	frames = [aligned_m, aligned_nm]
	after_up_pdb_alignment = pd.concat(frames, sort=False)
	if len(after_up_pdb_alignment) == 0:
	after_up_pdb_alignment['pdb_alignStatus'] = ''
	after_up_pdb_alignment['mutationPositionOnPDB'] = ''
	after_up_pdb_alignment['domainStartonPDB'] = ''
	after_up_pdb_alignment['domainEndonPDB'] = ''

	after_up_pdb_alignment = after_up_pdb_alignment.sort_values(
	by=['uniprotID', 'wt', 'mut', 'pos', 'pdb_alignStatus', 'resolution', 'chain'],
	ascending=[True, True, True, True, True, True, True])

	after_up_pdb_alignment = after_up_pdb_alignment.drop_duplicates(['uniprotID', 'wt', 'mut', 'pos'], keep='first')

	after_up_pdb_alignment = after_up_pdb_alignment.astype('str')

	pdb_aligned = after_up_pdb_alignment[
	(after_up_pdb_alignment.pdbID != 'nan') & (after_up_pdb_alignment.mutationPositionOnPDB != 'nan')]
	yes_pdb_no_match = after_up_pdb_alignment[
	(after_up_pdb_alignment.pdbID != 'nan') & (after_up_pdb_alignment.mutationPositionOnPDB == 'nan')]
	no_pdb = no_pdb.copy()


	print('PDB matching is completed...\n')
	print('SUMMARY')
	print('-------')
	print('%d data points that failed to match a UniProt Sequence are discarded.' % len(
	not_match_in_uniprot.drop_duplicates(['datapoint'])))
	print('Of the remaining %d:' % uniprot_matched_size)
	print('--%d of %d successfully aligned with PDB structures.' % (
	len(pdb_aligned.drop_duplicates(['datapoint'])), with_pdb_size))
	print('--%d of %d not found on the covered area by the structure.' % (
	len(yes_pdb_no_match.drop_duplicates(['datapoint'])), with_pdb_size))
	print('--PDB structures not found for %d datapoints.' % len(no_pdb.drop_duplicates(['datapoint'])))
	print('--%d will be searched in Swiss-Model database.\n' % (
	len(yes_pdb_no_match.drop_duplicates(['datapoint'])) + len(no_pdb.drop_duplicates(['datapoint']))))

	dfM = None
	dfNM = None
	aligned_nm = None
	aligned_m = None
	after_up_pdb_alignment = None

	print('Proceeding to SwissModel search...')
	print('------------------------------------\n')

	# At this point we have 4 dataframes
	# 1. after_up_pdb_alignment --- This is after PDB sequence alignment. There may be mutations that wasnt found matching to after the alignment. Will be searched in other databases as well.
	# 1a. aligned --- we are done with this.
	# 1b. yes_pdb_no_match --- They have PDB structures but not matched, so will be searched in the other databases.
	# 2. not_match_in_uniprot --- This wont be aligned with anything because these proteins dont have a uniprot ID. Only basic info is present.
	# 3. no_pdb --- No PDB structures were found for them. Will be searched in other databases.

	"""
	Step 8
	Neutralize data points that are to be searched in Swiss-Model
	# One point is that yes_pdb_no_match's annotations are the adjusted according to the PDBs they are matched before.
	# They need to be converted to their old original UniProt annotation positions.
	"""
	yes_pdb_no_match.drop(['disulfide', 'intMet',
	'intramembrane', 'naturalVariant', 'dnaBinding', 'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane', 'crosslink',
	'mutagenesis', 'strand', 'helix', 'turn', 'metalBinding', 'repeat',
	'caBinding', 'topologicalDomain', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif', 'coiledCoil',
	'peptide', 'transitPeptide', 'glycosylation', 'propeptide', 'disulfideBinary',
	'intMetBinary', 'intramembraneBinary',
	'naturalVariantBinary', 'dnaBindingBinary', 'activeSiteBinary',
	'nucleotideBindingBinary', 'lipidationBinary', 'siteBinary',
	'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary',
	'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
	'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary',
	'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary',
	'modifiedResidueBinary', 'zincFingerBinary', 'motifBinary',
	'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary',
	'glycosylationBinary', 'propeptideBinary', 'pdbSequence', 'pdbInfo', 'pdbID',
	'chain', 'resolution', 'pdb_alignStatus', 'mutationPositionOnPDB',
	'domainStartonPDB', 'domainEndonPDB'], axis=1, inplace=True)

	to_swiss = pd.concat([yes_pdb_no_match.drop_duplicates(['datapoint']), no_pdb.drop_duplicates(['datapoint'])])
	no_pdb = None
	to_swiss.reset_index(inplace=True)
	to_swiss.drop(['index'], axis=1, inplace=True)
	to_swiss = to_swiss.astype('str')
	to_swiss = to_swiss.replace({'NaN': 'nan'})
	# Create model summary dataframe.
	if len(to_swiss) != 0:
	print('Generating SwissModel file...\n')

	swiss_model = pd.read_csv(Path(path_to_input_files / 'swissmodel_structures.txt'), sep='\t',
	dtype=str, header=None, skiprows=1,
	names=['UniProtKB_ac', 'iso_id', 'uniprot_seq_length', 'uniprot_seq_md5',
	'coordinate_id', 'provider', 'from', 'to', 'template', 'qmean',
	'qmean_norm', 'seqid', 'url'])

	else:
	swiss_model = pd.DataFrame(
	columns=['UniProtKB_ac', 'iso_id', 'uniprot_seq_length', 'uniprot_seq_md5', 'coordinate_id',
	'provider', 'from', 'to', 'template', 'qmean', 'qmean_norm', 'seqid', 'url', 'whichIsoform'])
	swiss_model = swiss_model.astype('str')
	try:
	swiss_model.iso_id = swiss_model.iso_id.astype('str')
	except:
	AttributeError
	swiss_model['iso_id'] = 'nan'
	swiss_model = swiss_model[swiss_model.UniProtKB_ac != 'nan']
	for ind in swiss_model.index:
	swiss_model.at[ind, 'UniProtKB_ac'] = swiss_model.at[ind, 'UniProtKB_ac'].split('-')[0]
	if swiss_model.at[ind, 'iso_id'] != 'nan':

	swiss_model.at[ind, 'whichIsoform'] = swiss_model.at[ind, 'iso_id'].split('-')[1]
	else:
	swiss_model.at[ind, 'whichIsoform'] = 'nan'
	# swiss_model.drop(['input'], axis=1, inplace=True)
	swiss_model = swiss_model[swiss_model.provider == 'SWISSMODEL']
	print('Index File Processed...\n')

	# Get relevant columns
	swiss_model = swiss_model[
	['UniProtKB_ac', 'from', 'to', 'template', 'qmean_norm', 'seqid', 'url', 'whichIsoform']]
	# Sort models on qmean score and identity. Some proteins have more than one models, we will pick one.
	swiss_model = swiss_model.sort_values(by=['UniProtKB_ac', 'qmean_norm', 'seqid'], ascending=False)
	swiss_model.reset_index(inplace=True)
	swiss_model.drop(['index'], axis=1, inplace=True)

	# Get protein IDs for which there exist models.
	swiss_model_ids = set(swiss_model.UniProtKB_ac.to_list())
	to_swiss = to_swiss.astype(str)
	no_swiss_models = pd.DataFrame()
	for i in to_swiss.index:
	if to_swiss.at[i, 'uniprotID'] not in swiss_model_ids:
	k = pd.Series(to_swiss.iloc[i])
	no_swiss_models = no_swiss_models.append(k, ignore_index=True)

	no_swiss_models = no_swiss_models.astype(str)
	if len(no_swiss_models) == 0:
	no_swiss_models = pd.DataFrame(columns=to_swiss.columns)
	else:
	no_swiss_models = no_swiss_models[to_swiss.columns]
	no_swiss_models.reset_index(inplace=True)
	no_swiss_models.drop('index', axis=1, inplace=True)

	with_swiss_models = pd.concat([to_swiss, no_swiss_models]).drop_duplicates(['datapoint'], keep=False)
	with_swiss_models = with_swiss_models[to_swiss.columns]

	# Add model info.

	with_swiss_models = with_swiss_models.astype(str)
	swiss_model = swiss_model.astype(str)
	swiss_models_with_data = pd.merge(with_swiss_models, swiss_model, left_on=['uniprotID', 'whichIsoform'],
	right_on=['UniProtKB_ac', 'whichIsoform'],
	how='left')
	swiss_models_with_data = swiss_models_with_data.astype(str)
	swiss_models_with_data = swiss_models_with_data.sort_values(by=['uniprotID', 'wt', 'mut', 'pos', 'qmean_norm'],
	ascending=False)
	swiss_models_with_data = swiss_models_with_data.drop_duplicates()
	swiss_models_with_data = swiss_models_with_data.drop(['UniProtKB_ac', 'seqid'], axis=1)
	swiss_models_with_data.pos = swiss_models_with_data.pos.astype('int')
	swiss_models_with_data = swiss_models_with_data.astype(str)

	# Get the ones in the list but without model url and add to the list to go to modbase.
	url_nan = swiss_models_with_data[swiss_models_with_data.url == 'nan']

	# Add this nan's to no_model. These will be searched in MODBASE because here they dont have urls.
	url_nan = url_nan.drop(['from', 'qmean_norm', 'template', 'to', 'url'], axis=1)

	no_swiss_models_2 = pd.concat([no_swiss_models, url_nan])
	swiss_models_with_data = swiss_models_with_data[swiss_models_with_data.url != 'nan']
	for i in swiss_models_with_data.index:
	try:
	swiss_models_with_data.at[i, 'chain'] = swiss_models_with_data.at[i, 'template'].split('.')[2]
	swiss_models_with_data.at[i, 'template'] = swiss_models_with_data.at[i, 'template'].split('.')[0]
	except:
	IndexError
	if len(swiss_models_with_data) == 0:
	swiss_models_with_data['chain'] = ''
	swiss_models_with_data['template'] = ''

	swiss_models_with_data.qmean_norm = swiss_models_with_data.qmean_norm.astype('str')
	swiss_models_with_data.chain = swiss_models_with_data.chain.astype('str')
	swiss_models_with_data['qmean_norm'] = swiss_models_with_data.qmean_norm.apply(lambda x: round(float(x), 2))
	swiss_models_with_data = swiss_models_with_data.astype(str)

	# swiss_models_with_data: These data points will be aligned with their corresponding model sequences.
	# Add sequences

	no_swiss_models_2.reset_index(inplace=True)
	no_swiss_models_2.drop('index', axis=1, inplace=True)

	swiss_models_with_data.reset_index(inplace=True)
	swiss_models_with_data.drop('index', axis=1, inplace=True)

	swiss_model_ids = None
	with_swiss_models = None
	swiss_model = None
	no_swiss_models = None
	url_nan = None

	# At this point we have:
	# pdb_aligned --- Align in the PDB phase
	# not_match_in_uniprot --- This wont be aligned with anything because these proteins dont have a uniprot ID. Only basic info is present.
	# to_swiss (no_pdb + yes_pdb_no_match) --- to be searched in SwissModel database
	# to_swiss (with_swiss_models & no_swiss_models)
	# swiss_models_with_data --- We found swiss models for them.
	# no_swiss_models_2 (no_swiss_models + url_nan)--- to be searched in modbase (the ones having swissmodels but not matching with the boundaries & broken_swiss will be added here)

	"""
	STEP 9
	Associated model IDs are added.
	Download model files.
	"""
	print('Beginning SwissModel files download...')
	existing_swiss = list(Path(path_to_output_files / 'swissmodel_structures').glob("*"))
	existing_swiss = [str(i) for i in existing_swiss]
	existing_swiss = ['.'.join(i.split('/')[-1].split('.')[:-1]) for i in existing_swiss]
	swissmodels_fasta = pd.DataFrame()

	for i in swiss_models_with_data.index:
	protein = swiss_models_with_data.at[i, 'uniprotID']
	template = swiss_models_with_data.at[i, 'template'].split('.')[0]
	qmean_norm = str(round(float(swiss_models_with_data.at[i, 'qmean_norm']), 2))
	if protein + '_' + template + '_' + qmean_norm not in existing_swiss:
	url = swiss_models_with_data.at[i, 'url'].strip('\"').strip('}').replace('\\', '').strip('\"').replace(
	'https',
	'https:')
	req = requests.get(url)
	name = Path(path_to_output_files / 'swissmodel_structures' / f'{protein}_{template}_{qmean_norm}.txt')
	print('Downloading for Protein:', protein + ' Model: ' + template)
	with open(name, 'wb') as f:
	f.write(req.content)
	else:
	print('Model exists.')
	name = Path(path_to_output_files / 'swissmodel_structures' / f'{protein}_{template}_{qmean_norm}.txt')
	with open(name, encoding="utf8") as f:
	fasta = ''
	lines = f.readlines()
	chain = ''
	for row in lines:
	if row[0:4] == 'ATOM' and row[13:15] == 'CA':
	chain = row[20:22].strip()
	fasta += threeToOne(row[17:20])
	if row[0:3] == 'TER':
	k = pd.Series([protein, template, qmean_norm, chain.upper(), fasta])
	swissmodels_fasta = swissmodels_fasta.append(k, ignore_index=True)
	fasta = ''

	if len(swissmodels_fasta) == 0:
	swissmodels_fasta = pd.DataFrame(columns=['uniprotID', 'template', 'qmean_norm', 'chain', 'fasta'])
	else:
	swissmodels_fasta.columns = ['uniprotID', 'template', 'qmean_norm', 'chain', 'fasta']

	swissmodels_fasta = swissmodels_fasta.astype(str)

	swiss_models_with_data.qmean_norm = swiss_models_with_data.qmean_norm.astype(float)
	swissmodels_fasta.qmean_norm = swissmodels_fasta.qmean_norm.astype(float)

	swissmodels_fasta = swissmodels_fasta.sort_values(['uniprotID', 'template', 'qmean_norm', 'chain'],
	axis=0) # example = 3gdh
	swissmodels_fasta.reset_index(inplace=True)
	swissmodels_fasta.drop(['index'], axis=1, inplace=True)
	swissmodels_fasta = swissmodels_fasta.drop_duplicates(['uniprotID', 'template', 'qmean_norm', 'chain'])
	swissmodels_fasta = swissmodels_fasta.drop_duplicates(['uniprotID', 'template', 'chain', 'fasta'])
	swissmodels_fasta = swissmodels_fasta.drop_duplicates(['uniprotID', 'template', 'fasta'])
	# Some files were broken, thus their PDBs couldnt be recorded.
	swissmodels_fasta = swissmodels_fasta.drop_duplicates()
	swissmodels_fasta = swissmodels_fasta.astype(str)

	swiss_models_with_data = swiss_models_with_data.astype(str)
	swissmodels_fasta = swissmodels_fasta.astype(str)
	swiss_models_with_data1 = swiss_models_with_data.merge(swissmodels_fasta,
	on=['uniprotID', 'template', 'qmean_norm', 'chain'])

	swiss_models_with_data1 = swiss_models_with_data1.sort_values(['datapoint', 'fasta'], axis=0,
	ascending=[True, False])
	swiss_models_with_data1 = swiss_models_with_data1.drop_duplicates(['datapoint', 'template'])

	swiss_models_with_data1_dp = list(set(swiss_models_with_data1.datapoint.to_list()))
	swiss_models_with_data.reset_index(inplace=True)
	swiss_models_with_data.drop(['index'], axis=1, inplace=True)
	broken_swiss = pd.DataFrame()
	c = 0
	for i in swiss_models_with_data.index: # en baştaki dfde var ama model gelende yok.
	if swiss_models_with_data.at[i, 'datapoint'] not in swiss_models_with_data1_dp:
	k = pd.Series(swiss_models_with_data.iloc[i])
	broken_swiss = broken_swiss.append(k, ignore_index=True)
	c += 1

	if len(broken_swiss) == 0:
	broken_swiss = pd.DataFrame(columns=swiss_models_with_data.columns.to_list())

	swiss_models_with_data = swiss_models_with_data1.copy()

	swiss_models_with_data.qmean_norm = swiss_models_with_data.qmean_norm.astype('float')
	swiss_models_with_data = swiss_models_with_data.sort_values(['uniprotID', 'wt', 'mut', 'qmean_norm'],
	axis=0, ascending=[True, True, True, False])

	# Delete the same model sequence with lower quality
	swiss_models_with_data = swiss_models_with_data.drop_duplicates(['uniprotID', 'wt', 'mut', 'pos', 'fasta'],
	keep='first')
	swiss_models_with_data.uniprotSequence = swiss_models_with_data.uniprotSequence.astype('str')
	swiss_models_with_data.pos = swiss_models_with_data.pos.astype('int')
	len(swiss_models_with_data.drop_duplicates(['datapoint'])) + len(
	broken_swiss.drop_duplicates(['datapoint'])) + len(
	no_swiss_models_2.drop_duplicates(['datapoint'])) == len(to_swiss.drop_duplicates(['datapoint']))
	# This printed data here includes all possible models with different qualities,
	# because we may get a hit in either of them.
	swiss_models_with_data.rename({'fasta': 'pdbSequence'}, axis=1, inplace=True) # for convenience.

	# NOW DO ALIGNMENT HERE

	swiss_models_with_data = swiss_models_with_data.replace({'[\'?\']': 'nan'})
	swiss_models_with_data = swiss_models_with_data.replace({'[]': 'nan'})
	swiss_models_with_data.rename({'template': 'pdbID'}, axis=1,
	inplace=True) # Only to be able use the alignment code above.
	swiss_models_with_data = swiss_models_with_data.astype(str)
	swiss_models_with_data.pdbSequence = swiss_models_with_data.pdbSequence.astype('str')
	swiss_models_with_data = add_annotations(swiss_models_with_data)
	swiss_models_with_data = swiss_models_with_data.astype(str)
	swiss_models_with_data.replace({'NaN': 'nan'}, inplace=True)
	swiss_models_with_data_copy = swiss_models_with_data.copy()
	swiss_models_with_data1_dp = None
	swiss_models_with_data1 = None
	existing_swiss = None
	swissmodels_fasta = None

	print('Aligning sequences...\n')

	swiss_models_with_data['uniprotSequence'] = swiss_models_with_data['uniprotSequence'].str.replace('U', 'C')
	swiss_models_with_data['pdbSequence'] = swiss_models_with_data['pdbSequence'].str.replace('U', 'C')
	swiss_model_aligned = alignment(swiss_models_with_data, annotation_list,
	path_to_output_files / 'alignment_files')
	swiss_models_with_data = None

	if len(swiss_model_aligned) == 0:
	swiss_model_aligned = pd.DataFrame(columns=pdb_aligned.columns)
	swiss_model_aligned['qmean_norm'] = 'nan'
	else:
	swiss_model_aligned = swiss_model_aligned.astype(str)
	swiss_model_aligned.replace({'NaN': 'nan'}, inplace=True)

	# Some datapoints appear in both nan and not_nan. If not_nan we take it only once.
	nan = swiss_model_aligned[swiss_model_aligned.mutationPositionOnPDB == 'nan']
	not_nan = swiss_model_aligned[swiss_model_aligned.mutationPositionOnPDB != 'nan']
	not_nan.qmean_norm = not_nan.qmean_norm.astype('float')
	not_nan.sort_values(['datapoint', 'pdb_alignStatus', 'qmean_norm'], ascending=[True, True, False], inplace=True)

	which_ones_are_match = pd.concat([not_nan, nan]).drop_duplicates(['datapoint'], keep='first')
	swiss_match = which_ones_are_match[which_ones_are_match.mutationPositionOnPDB != 'nan']
	swiss_not_match = which_ones_are_match[which_ones_are_match.mutationPositionOnPDB == 'nan']

	swiss_match.qmean_norm = swiss_match.qmean_norm.astype('float')
	swiss_match.sort_values(['uniprotID', 'wt', 'pos', 'mut', 'pdb_alignStatus', 'qmean_norm'],
	ascending=[True, True, True, True, True, False], inplace=True)
	swiss_match.drop_duplicates(['uniprotID', 'wt', 'pos', 'mut'], keep='first', inplace=True)
	swiss_not_match = swiss_not_match[no_swiss_models_2.columns]
	broken_swiss = broken_swiss[no_swiss_models_2.columns]
	swiss_not_match = swiss_not_match.drop_duplicates(['datapoint'])
	broken_swiss = broken_swiss.drop_duplicates(['datapoint'])

	to_modbase = pd.concat([no_swiss_models_2, broken_swiss]).drop_duplicates()
	to_modbase = pd.concat([to_modbase, swiss_not_match]).drop_duplicates()
	to_modbase = to_modbase.astype(str)
	to_swiss_columns = to_swiss.columns
	to_swiss_size = len(to_swiss.drop_duplicates(['datapoint']))
	to_swiss = None

	# CONTROL

	"""
	# This should be the whole data.
	len(swiss_match.drop_duplicates(['datapoint'])) + len(aligned.drop_duplicates(['datapoint'])) + len(to_modbase.drop_duplicates(['datapoint'])) + len(not_match_in_uniprot.drop_duplicates(['datapoint'])) ,len(data)
	len(aligned.drop_duplicates(['datapoint'])) + len(not_match_in_uniprot.drop_duplicates(['datapoint'])) +len(to_swiss.drop_duplicates(['datapoint']))== len(data)
	"""
	print('SwissModel matching is completed...\n')
	print('SUMMARY')
	print('-------')
	print('%d data points that failed to match a UniProt Sequence are discarded.' % len(
	not_match_in_uniprot.drop_duplicates(['datapoint'])))
	print('Of the remaining %d:' % uniprot_matched_size)
	print('--%d of %d successfully aligned with PDB structures.' % (
	len(pdb_aligned.drop_duplicates(['datapoint'])), with_pdb_size))
	print('--%d of %d successfully aligned with SwissModels structures.' % (
	len(swiss_match.drop_duplicates(['datapoint'])), to_swiss_size))
	print('--%d will be searched in ModBase database.\n' % len(to_modbase.drop_duplicates(['datapoint'])))

	print('Proceeding to ModBase search...')
	print('------------------------------------\n')
	no_swiss_models_2 = None
	broken_swiss = None
	swiss_model_aligned = None
	nan = None
	not_nan = None
	which_ones_are_match = None
	swiss_not_match = None

	# STEP : GO TO MODBASE
	# Should not include anything related to prev models.
	if len(to_modbase) != 0:
	to_modbase = to_modbase.astype(str)

	# GET MODBASE MODELS

	# Get IDs from data to retrieve only their models from MODBASE
	to_modbase.reset_index(inplace=True)
	to_modbase.drop(['index'], axis=1, inplace=True)

	existing_modbase_models = list(Path(path_to_output_files / 'modbase_structures').glob("*"))
	existing_modbase_models = [str(i) for i in existing_modbase_models]
	existing_modbase_models = [i.split('/')[-1].split('.')[0] for i in existing_modbase_models]

	existing_modbase_models_ind = list(Path(path_to_output_files / 'modbase_structures_individual').glob("*"))
	existing_modbase_models_ind = [str(i) for i in existing_modbase_models_ind]
	existing_modbase_models_ind = [i.split('/')[-1].split('.')[0] for i in existing_modbase_models_ind]

	modbase_reduced = pd.DataFrame()
	modbase_fasta = pd.DataFrame()

	print('Retrieving ModBase models...\n')
	# Get model files associated with each UniProtID
	for protein in list(set(to_modbase.uniprotID.to_list())):
	if protein not in existing_modbase_models:
	print('Downloading Modbase models for ', protein)
	url = 'https://salilab.org/modbase/retrieve/modbase/?databaseID=' + protein
	req = requests.get(url)
	name = path_to_output_files / 'modbase_structures' / f'{protein}.txt'
	with open(name, 'wb') as f:
	f.write(req.content)
	else:
	print('Model exists for', protein)
	name = Path(path_to_output_files / 'modbase_structures' / f'{protein}.txt')
	with open(name, encoding="utf8") as f:
	a = open(name, 'r').read()
	soup = BeautifulSoup(a, 'lxml')
	for pdb in soup.findAll('pdbfile'):
	model_id = str(pdb.contents[1])[10:-11]
	if model_id not in existing_modbase_models_ind:
	with open(path_to_output_files / 'modbase_structures_individual' / f'{model_id}.txt', 'w',
	encoding="utf8") as individual:
	individual.write(str('UniProt ID: ' + protein))
	individual.write('\n')
	individual.write(str(pdb.contents[3])[10:-11].strip())
	with open(path_to_output_files / 'modbase_structures_individual' / f'{model_id}.txt',
	encoding="utf8") as f:
	fasta = ''
	chain = ''
	template_chain = ''
	score = -999
	for ind_line in f.readlines():
	if ind_line[0:10] == 'UniProt ID':
	uniprot_id = ind_line.split(':')[1].strip()
	if ind_line[0:23] == 'REMARK 220 TARGET BEGIN':
	target_begin = ind_line[40:43].strip()
	if ind_line[0:21] == 'REMARK 220 TARGET END':
	target_end = ind_line[40:43].strip()
	if ind_line[0:25] == 'REMARK 220 TEMPLATE BEGIN':
	pdb_begin = ind_line[40:43].strip()
	if ind_line[0:23] == 'REMARK 220 TEMPLATE END':
	pdb_end = ind_line[40:43].strip()
	if ind_line[0:23] == 'REMARK 220 TEMPLATE PDB':
	pdb_code = ind_line[40:43].strip()
	if ind_line[0:25] == 'REMARK 220 TEMPLATE CHAIN':
	pdb_chain = ind_line[40:43].strip()
	if ind_line[0:32] == 'REMARK 220 ModPipe Quality Score':
	quality_score = ind_line[40:].strip()
	if ind_line[0:27] == 'REMARK 220 MODPIPE MODEL ID':
	model_id = ind_line[40:].strip()
	if ind_line[0:25] == 'REMARK 220 TEMPLATE CHAIN':
	template_chain = ind_line[40:42].strip()
	if ind_line[0:4] == 'ATOM' and ind_line[13:15] == 'CA':
	fasta += threeToOne(ind_line[17:20])
	if ind_line[0:32] == 'REMARK 220 ModPipe Quality Score':
	try:
	score = ind_line[40:].strip()
	except (ValueError):
	score = -999
	if ind_line[0:3] == 'TER' or ind_line[0:3] == 'END':
	k = pd.Series([uniprot_id, model_id, str(score), template_chain, fasta])
	modbase_fasta = modbase_fasta.append(k, ignore_index=True)
	fasta = ''
	try:
	k = pd.Series(
	[uniprot_id, target_begin, target_end, pdb_code, pdb_chain, pdb_begin, pdb_end,
	quality_score,
	model_id])
	modbase_reduced = modbase_reduced.append(k, ignore_index=True)
	except:
	NameError
	print('This file doesnt have Quality Score. Replacer: -999', model_id)
	quality_score = -999

	print()
	if len(modbase_fasta) != 0:
	modbase_fasta.columns = ['uniprotID', 'template', 'score', 'chain', 'fasta']
	else:
	modbase_fasta = pd.DataFrame(columns=['uniprotID', 'template', 'score', 'chain', 'fasta'])
	modbase_fasta = modbase_fasta.astype(str)
	modbase_fasta = modbase_fasta.replace({'': 'nan'})
	modbase_fasta = modbase_fasta.replace({'NaN': 'nan'})
	modbase_fasta = modbase_fasta[modbase_fasta.fasta != 'nan']

	print('Modbase model frame constructed.\n')
	if len(modbase_reduced) != 0:
	modbase_reduced.columns = ['UniprotID', 'TargetBeg', 'TargetEnd', 'PDBCode', 'PDBChain', 'PDBBegin',
	'PDBEnd',
	'ModPipeQualityScore', 'ModelID']
	else:
	modbase_reduced = pd.DataFrame(
	columns=['UniprotID', 'TargetBeg', 'TargetEnd', 'PDBCode', 'PDBChain', 'PDBBegin', 'PDBEnd',
	'ModPipeQualityScore', 'ModelID'])

	to_modbase = add_annotations(to_modbase)

	to_modbase = to_modbase.astype(str)
	to_modbase.fillna('nan', inplace=True)
	to_modbase = to_modbase.replace({'NaN': 'nan'})
	to_modbase.replace({'[]': 'nan'}, inplace=True)
	to_modbase.replace({'nan-nan': 'nan'}, inplace=True)
	to_modbase.replace({'': 'nan'}, inplace=True)
	model_info_added = to_modbase.merge(modbase_reduced, right_on='UniprotID', left_on='uniprotID',
	how='left')
	modbase_reduced = None
	existing_modbase_models = None
	existing_modbase_models_ind = None

	model_info_added = model_info_added.drop(['UniprotID'], axis=1)
	model_info_added = model_info_added.rename(columns={'TargetBeg': 'from', 'TargetEnd': 'to',
	'PDBCode': 'template', 'PDBChain': 'chain',
	'ModPipeQualityScore': 'score',
	'ModelID': 'pdbID'})
	model_info_added.drop(['PDBEnd', 'PDBBegin'], axis=1, inplace=True)
	model_info_added.score = model_info_added.score.astype(float)
	model_info_added = model_info_added.sort_values(by=['datapoint', 'score'],
	ascending=False)
	model_info_added.reset_index(inplace=True)
	model_info_added.drop(['index'], axis=1, inplace=True)
	model_info_added = model_info_added.drop_duplicates()

	model_info_added = model_info_added.astype(str)
	model_info_added = model_info_added.replace({'NaN': 'nan'})
	no_info = model_info_added[model_info_added.pdbID == 'nan']
	with_modbase_info = model_info_added[model_info_added.pdbID != 'nan']
	model_info_added = None

	len(no_info.drop_duplicates(['datapoint'])), len(with_modbase_info.drop_duplicates(['datapoint']))
	len(no_info.drop_duplicates(['datapoint'])) + len(with_modbase_info.drop_duplicates(['datapoint'])) == len(
	to_modbase.drop_duplicates(['datapoint']))

	# Add no_info to the rest down below!
	no_info = no_info[to_swiss_columns]

	with_modbase_info.score = with_modbase_info.score.astype(float)
	modbase_fasta.score = modbase_fasta.score.astype(float)

	modbase_fasta = modbase_fasta.sort_values(['uniprotID', 'score', 'template', 'chain'],
	ascending=[True, False, True, True], axis=0) # example = 3gdh

	# I added this newly downloaded ones to the main model file.

	modbase_fasta = modbase_fasta.rename(columns={'template': 'pdbID'})
	with_modbase_info.pos = with_modbase_info.pos.astype('int')
	with_modbase_info.score = with_modbase_info.score.astype(float)
	with_modbase_info.score = with_modbase_info.score.apply(lambda x: round(x, 2))
	modbase_fasta.score = modbase_fasta.score.astype(float)
	modbase_fasta.score = modbase_fasta.score.apply(lambda x: round(x, 2))

	with_modbase_info = with_modbase_info.merge(modbase_fasta, on='pdbID', how='left')

	with_modbase_info.drop(['score_y'], axis=1, inplace=True)
	with_modbase_info.rename(columns={'score_x': 'score'}, inplace=True)
	with_modbase_info.drop(['uniprotID_y', 'chain_y'], axis=1, inplace=True)
	with_modbase_info.rename(columns={'uniprotID_x': 'uniprotID', 'chain_x': 'chain'}, inplace=True)

	with_modbase_info.score = with_modbase_info.score.astype('float')
	with_modbase_info = with_modbase_info.sort_values(['uniprotID', 'wt', 'mut', 'pos', 'score', 'from', 'to'],
	axis=0,
	ascending=[True, True, True, True, False, True, False])
	with_modbase_info = with_modbase_info.drop_duplicates(['uniprotID', 'wt', 'mut', 'pos', 'fasta'],
	keep='first')

	with_modbase_info = with_modbase_info.replace({'[\'?\']': 'nan'})
	with_modbase_info = with_modbase_info.replace({'[]': 'nan'})
	with_modbase_info = with_modbase_info.replace({'\'?\', ': ''})
	with_modbase_info = with_modbase_info.replace({', \'?\'': ''})
	with_modbase_info = with_modbase_info.replace({'(': ''})
	with_modbase_info = with_modbase_info.replace(
	{')': ''})
	with_modbase_info = with_modbase_info.astype(str)
	with_modbase_info.fasta = with_modbase_info.fasta.astype('str')
	with_modbase_info.reset_index(inplace=True)
	with_modbase_info.drop('index', axis=1, inplace=True)

	align = with_modbase_info[
	with_modbase_info.fasta != 'nan']
	yes_pdb_no_match = with_modbase_info[
	with_modbase_info.fasta == 'nan']
	yes_pdb_no_match = yes_pdb_no_match[~yes_pdb_no_match.datapoint.isin(align.datapoint.to_list())]

	align.rename(columns={'fasta': 'pdbSequence'}, inplace=True)
	align['uniprotSequence'] = align['uniprotSequence'].str.replace('U', 'C')
	align['pdbSequence'] = align['pdbSequence'].str.replace('U', 'C')

	to_modbase_size = len(to_modbase.drop_duplicates(['datapoint']))
	modbase_fasta = None
	to_modbase = None
	print('Aligning sequences...\n')
	modbase_aligned = alignment(align, annotation_list, path_to_output_files / 'alignment_files')
	modbase_aligned = modbase_aligned.astype(str)
	modbase_aligned = modbase_aligned.replace({'NaN': 'nan'})

	# Get the ones whose models couldn't be found. Add to no_modbase (yani hiçbir şey de eşleşmemiş artık.)
	if len(with_modbase_info) != 0:
	not_in_aligned = pd.concat([modbase_aligned.drop_duplicates(['datapoint']),
	with_modbase_info.drop_duplicates(['datapoint'])]).drop_duplicates(
	['datapoint'],
	keep=False)
	else:
	not_in_aligned = pd.DataFrame(
	columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence',
	'wt_sequence_match', 'whichIsoform', 'datapoint', 'disulfide',
	'intMet',
	'intramembrane', 'naturalVariant', 'dnaBinding', 'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane',
	'crosslink',
	'mutagenesis', 'strand', 'helix', 'turn', 'metalBinding', 'repeat',
	'topologicalDomain', 'caBinding', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif',
	'coiledCoil',
	'peptide', 'transitPeptide', 'glycosylation', 'propeptide',
	'disulfide',
	'intMet', 'intramembrane', 'naturalVariant', 'dnaBinding',
	'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane',
	'crosslink',
	'mutagenesis', 'strand', 'helix', 'turn', 'metalBinding', 'repeat',
	'topologicalDomain', 'caBinding', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif',
	'coiledCoil',
	'peptide', 'transitPeptide', 'glycosylation', 'propeptide', 'from',
	'to', 'template', 'chain', 'score', 'pdbID', 'pdbSequence', 'fasta'])
	with_modbase_info = None
	if len(not_in_aligned) != 0:
	not_models = pd.concat([yes_pdb_no_match.drop_duplicates(['datapoint']),
	not_in_aligned.drop_duplicates(['datapoint'])]).drop_duplicates(['datapoint'],
	keep='first')
	# Retain the best model among the aligned ones.
	else:
	not_models = pd.DataFrame(columns=not_in_aligned.columns)

	yes_pdb_no_match = None
	# # Some datapoints appear in both nan and not_nan. If not_nan we take it only once.
	modbase_aligned = modbase_aligned.astype(str)
	if len(modbase_aligned) != 0:
	nan = modbase_aligned[modbase_aligned.mutationPositionOnPDB == 'nan']
	not_nan = modbase_aligned[modbase_aligned.mutationPositionOnPDB != 'nan']
	not_nan.score = not_nan.score.astype(float)
	not_nan.sort_values(['datapoint', 'pdb_alignStatus', 'score'], ascending=[True, True, False],
	inplace=True)

	not_nan = not_nan.sort_values(['datapoint', 'mutationPositionOnPDB', 'score'],
	ascending=[True, True, False])
	not_nan = not_nan.drop_duplicates(['datapoint'], keep='first')
	else:
	nan = pd.DataFrame(columns=modbase_aligned.columns)
	not_nan = pd.DataFrame(columns=modbase_aligned.columns)
	modbase_aligned = None
	which_ones_are_match = pd.concat([not_nan, nan]).drop_duplicates(['datapoint'], keep='first')
	if len(which_ones_are_match) == 0:
	which_ones_are_match = pd.DataFrame(
	columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence',
	'wt_sequence_match', 'whichIsoform', 'datapoint', 'disulfide', 'intMet',
	'intramembrane', 'naturalVariant', 'dnaBinding', 'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane', 'crosslink',
	'mutagenesis', 'strand', 'helix', 'turn', 'metalBinding', 'repeat',
	'topologicalDomain', 'caBinding', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif', 'coiledCoil',
	'peptide', 'transitPeptide', 'glycosylation', 'propeptide',
	'disulfideBinary', 'intMetBinary', 'intramembraneBinary',
	'naturalVariantBinary', 'dnaBindingBinary', 'activeSiteBinary',
	'nucleotideBindingBinary', 'lipidationBinary', 'siteBinary',
	'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary',
	'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
	'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary',
	'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary',
	'modifiedResidueBinary', 'zincFingerBinary', 'motifBinary',
	'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary',
	'glycosylationBinary', 'propeptideBinary', 'from', 'to', 'template',
	'chain', 'score', 'pdbID', 'pdbSequence', 'pdb_alignStatus',
	'mutationPositionOnPDB', 'domainStartonPDB', 'domainEndonPDB'])
	modbase_match = which_ones_are_match[which_ones_are_match.mutationPositionOnPDB != 'nan']
	modbase_not_match = which_ones_are_match[which_ones_are_match.mutationPositionOnPDB == 'nan']

	else:
	modbase_match = which_ones_are_match[which_ones_are_match.mutationPositionOnPDB != 'nan']
	modbase_not_match = which_ones_are_match[which_ones_are_match.mutationPositionOnPDB == 'nan']

	which_ones_are_match = None
	modbase_match.score = modbase_match.score.astype('float')
	modbase_match = modbase_match.sort_values(['datapoint', 'mutationPositionOnPDB', 'score'],
	ascending=[True, True, False])
	modbase_match.drop_duplicates(['datapoint'], keep='first', inplace=True)
	not_nan = None
	nan = None

	# merge not_in_align and modbase_not_match as they were both excluded from modbase match.

	# No model
	no_info = no_info[to_swiss_columns]
	no_info = no_info.drop_duplicates()

	# Model present, no sequence
	not_models = not_models[to_swiss_columns]
	not_models = not_models.drop_duplicates()

	# Modbase model and sequence present, no match in PDB
	modbase_not_match = modbase_not_match[to_swiss_columns]
	modbase_not_match = modbase_not_match.drop_duplicates()
	if len(not_in_aligned) != 0 and len(modbase_not_match) != 0 and len(no_info) != 0:
	rest = pd.concat([not_in_aligned, modbase_not_match, no_info])
	elif len(not_in_aligned) != 0 and len(modbase_not_match) != 0 and len(no_info) == 0:
	rest = pd.concat([not_in_aligned, modbase_not_match])
	elif len(not_in_aligned) == 0 and len(modbase_not_match) != 0 and len(no_info) != 0:
	rest = pd.concat([modbase_not_match, no_info])
	elif len(not_in_aligned) != 0 and len(modbase_not_match) == 0 and len(no_info) != 0:
	rest = pd.concat([not_in_aligned, no_info])
	elif len(not_in_aligned) != 0 and len(modbase_not_match) == 0 and len(no_info) == 0:
	rest = not_in_aligned
	elif len(not_in_aligned) == 0 and len(modbase_not_match) != 0 and len(no_info) == 0:
	rest = modbase_not_match
	elif len(not_in_aligned) == 0 and len(modbase_not_match) == 0 and len(no_info) != 0:
	rest = no_info
	else:
	rest = pd.DataFrame(
	columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence',
	'wt_sequence_match', 'whichIsoform', 'datapoint'])

	rest = rest[to_swiss_columns]
	rest = rest.drop_duplicates()

	rest.reset_index(inplace=True)
	rest.drop(['index'], axis=1, inplace=True)
	rest = rest.astype('str')


	else:

	modbase_match = pd.DataFrame(
	columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence',
	'wt_sequence_match', 'whichIsoform', 'datapoint', 'disulfide', 'intMet',
	'intramembrane', 'naturalVariant', 'dnaBinding', 'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane', 'crosslink',
	'mutagenesis', 'strand', 'helix', 'turn', 'metalBinding', 'repeat',
	'topologicalDomain', 'caBinding', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif', 'coiledCoil',
	'peptide', 'transitPeptide', 'glycosylation', 'propeptide',
	'disulfideBinary', 'intMetBinary', 'intramembraneBinary',
	'naturalVariantBinary', 'dnaBindingBinary', 'activeSiteBinary',
	'nucleotideBindingBinary', 'lipidationBinary', 'siteBinary',
	'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary',
	'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
	'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary',
	'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary',
	'modifiedResidueBinary', 'zincFingerBinary', 'motifBinary',
	'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary',
	'glycosylationBinary', 'propeptideBinary', 'from', 'to', 'template',
	'chain', 'score', 'pdbID', 'pdbSequence', 'pdb_alignStatus',
	'mutationPositionOnPDB', 'domainStartonPDB', 'domainEndonPDB'])
	not_in_aligned = pd.DataFrame(
	columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence',
	'wt_sequence_match', 'whichIsoform', 'datapoint', 'disulfide', 'intMet',
	'intramembrane', 'naturalVariant', 'dnaBinding', 'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane', 'crosslink',
	'mutagenesis', 'strand', 'helix', 'turn', 'metalBinding', 'repeat',
	'topologicalDomain', 'caBinding', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif', 'coiledCoil',
	'peptide', 'transitPeptide', 'glycosylation', 'propeptide', 'disulfide',
	'intMet', 'intramembrane', 'naturalVariant', 'dnaBinding', 'activeSite',
	'nucleotideBinding', 'lipidation', 'site', 'transmembrane', 'crosslink',
	'mutagenesis', 'strand', 'helix', 'turn', 'metalBinding', 'repeat',
	'topologicalDomain', 'caBinding', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif', 'coiledCoil',
	'peptide', 'transitPeptide', 'glycosylation', 'propeptide', 'from',
	'to', 'template', 'chain', 'score', 'pdbID', 'pdbSequence', 'fasta'])
	no_info = pd.DataFrame(
	columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence',
	'wt_sequence_match', 'whichIsoform', 'datapoint'])
	rest = pd.DataFrame(
	columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence',
	'wt_sequence_match', 'whichIsoform', 'datapoint'])

	rest = rest[to_swiss_columns]
	rest = rest.drop_duplicates()

	rest.reset_index(inplace=True)
	rest.drop(['index'], axis=1, inplace=True)
	rest = rest.astype('str')
	to_modbase_size = 0

	print('Modbase matching is completed...\n')
	print('SUMMARY')
	print('-------')
	print('%d data points that failed to match a UniProt Sequence are discarded.' % len(
	not_match_in_uniprot.drop_duplicates(['datapoint'])))
	print('Of the remaining %d:' % uniprot_matched_size)
	print('--%d of %d successfully aligned with PDB structures.' % (
	len(pdb_aligned.drop_duplicates(['datapoint'])), with_pdb_size))
	print('--%d of %d successfully aligned with SwissModels structures.' % (
	len(swiss_match.drop_duplicates(['datapoint'])), to_swiss_size))
	print('--%d of %d successfully aligned with Modbase structures.\n' % (
	len(modbase_match.drop_duplicates(['datapoint'])), to_modbase_size))
	print('--Remaining %d not found to match any models.' % len(rest.drop_duplicates(['datapoint'])))
	print('--A total of %d datapoints will not be evaluated.\n' % (
	len(rest.drop_duplicates(['datapoint'])) + len(not_match_in_uniprot.drop_duplicates(['datapoint']))))

	print('FOR CHECKING : ',
	len(rest.drop_duplicates(['datapoint'])) + len(not_match_in_uniprot.drop_duplicates(['datapoint'])) + len(
	pdb_aligned.drop_duplicates(['datapoint'])) + len(swiss_match.drop_duplicates(['datapoint'])) + len(
	modbase_match.drop_duplicates(['datapoint'])) == data_size)
	no_info = None
	align = None
	not_in_aligned = None
	not_models = None
	modbase_not_match = None

	# Final corrections

	# Now 3D alignment.
	pdb = pdb_aligned.copy()
	swiss = swiss_match.copy()
	modbase = modbase_match.copy()
	pdb_aligned = None
	swiss_match = None
	modbase_match = None

	"""
	WHAT DO WE HAVE NOW?
	- uniprot sequence not found
	- pdb aligned
	- swiss aligned
	- modbase aligned
	- not aligned with anything (rest)
	"""

	# Fix the axes and merge all data.

	pdb.drop(['pdbInfo'], axis=1, inplace=True)
	pdb.rename(columns={'resolution': 'score'}, inplace=True)
	swiss.rename(columns={'qmean_norm': 'score'}, inplace=True)
	modbase.rename(columns={'qmean_norm': 'score'}, inplace=True)

	swiss = swiss[pdb.columns]
	modbase = modbase[pdb.columns]
	pdb['source'] = 'PDB'
	swiss['source'] = 'SWISSMODEL'
	modbase['source'] = 'MODBASE'
	data = pd.concat([swiss, modbase, pdb])

	data.reset_index(inplace=True)
	data.drop(['index'], axis=1, inplace=True)
	data = data.astype('str')
	data_spare = pd.concat([not_match_in_uniprot, rest])
	not_match_in_uniprot = None
	pdb = None
	swiss = None
	modbase = None
	rest = None

	print('Generating FreeSASA files...')
	print('------------------------------------\n')
	# Folder to calculated RSA values.

	existing_free_sasa = list(Path(path_to_output_files / 'freesasa_files').glob("*"))
	existing_free_sasa = [str(i) for i in existing_free_sasa]
	existing_free_sasa = [i.split('/')[-1].split('.')[0] for i in existing_free_sasa]
	print('Calculation RSA for PDB Structure Files...\n')

	pdb_only = data[data.source == 'PDB']
	for pdbID in pdb_only.pdbID.to_list():
	if pdbID not in existing_free_sasa:
	(run_freesasa(Path(path_to_output_files / 'pdb_structures' / f'{pdbID.lower()}.pdb'),
	Path(path_to_output_files / 'freesasa_files' / f'{pdbID.lower()}.txt'),
	include_hetatms=True,
	outdir=None, force_rerun=False, file_type='pdb'))

	print('Calculation RSA for SwissModel Files...\n')
	swiss_only = data[data.source == 'SWISSMODEL']
	swiss_dp = []
	for i in swiss_only.index:
	swiss_dp.append(swiss_only.at[i, 'uniprotID'] + '_' + swiss_only.at[i, 'pdbID'].lower() + '_' + str(
	round(float(swiss_only.at[i, 'score']), 2)))
	for pdbID in swiss_dp:
	if pdbID not in existing_free_sasa:
	(run_freesasa(Path(path_to_output_files / 'swissmodel_structures' / f'{pdbID}.txt'),
	Path(path_to_output_files / 'freesasa_files' / f'{pdbID}.txt'), include_hetatms=True,
	outdir=None, force_rerun=False, file_type='pdb'))

	print('Calculation RSA for Modbase Model Files...\n')
	modbase_only = data[data.source == 'MODBASE']
	for pdbID in modbase_only.pdbID.to_list():
	if pdbID not in existing_free_sasa:
	(run_freesasa(Path(path_to_output_files / 'modbase_structures_individual' / f'{pdbID.lower()}.txt'),
	Path(path_to_output_files / 'freesasa_files' / f'{pdbID.lower()}.txt'),
	include_hetatms=True,
	outdir=None, force_rerun=False, file_type='pdb'))

	# This annotation list is different than the prev one, keep it.

	annotation_list += ['domainStartonPDB', 'domainEndonPDB']

	folder_path = path_to_output_files / 'freesasa_files'

	aligner = Align.PairwiseAligner()
	print('Proceeding to 3D distance calculation...\n')
	data.domainEndonPDB = data.domainEndonPDB.astype(str)
	data.domainStartonPDB = data.domainStartonPDB.astype(str)

	existing_free_sasa = None
	swiss_dp = None
	pdb_only = None
	swiss_only = None
	modbase_only = None
	data['uniprotSequence'] = data['uniprotSequence'].str.replace('U', 'C')
	data['pdbSequence'] = data['pdbSequence'].str.replace('U', 'C')
	for i in data.index:
	id_ = data.at[i, 'pdbID'].lower()
	up_id_ = data.at[i, 'uniprotID']
	score_ = str(data.at[i, 'score'])
	if data.at[i, 'source'] == 'PDB':
	pdb_path = Path(path_to_output_files / 'pdb_structures' / f'{id_}.pdb')
	elif data.at[i, 'source'] == 'MODBASE':
	pdb_path = Path(path_to_output_files / 'modbase_structures_individual' / f'{id_}.txt')
	elif data.at[i, 'source'] == 'SWISSMODEL':
	pdb_path = Path(path_to_output_files / 'swissmodel_structures' / f'{up_id_}_{id_}_{score_}.txt')


	pdbSequence = data.at[i, 'pdbSequence']
	source = data.at[i, 'source']
	chain = data.at[i, 'chain']
	uniprotID = data.at[i, 'uniprotID']
	pdbID = data.at[i, 'pdbID']

	alignments = get_alignments_3D(uniprotID, 'nan', pdb_path, pdbSequence, source, chain, pdbID, mode, Path(path_to_output_files / '3D_alignment'), file_format = 'gzip')

	mutPos = data.at[i, 'mutationPositionOnPDB']
	try:
	coordMut = get_coords(mutPos, alignments, 'nan', 'nan', mode)[0]
	except:
	ValueError
	coordMut = 'nan'
	try:
	sasa_pos = get_coords(mutPos, alignments, 'nan', 'nan', mode)[2]
	data.at[i, 'sasa'] = sasa(data.at[i, 'source'], data.at[i, 'pdbID'], data.at[i, 'uniprotID'], sasa_pos,
	data.at[i, 'wt'], mode, path_to_output_files, file_type='pdb')
	except:
	ValueError
	data.at[i, 'sasa'] = 'nan' # mutation position is nan
	for annot in annotation_list:
	annotx = []
	try:
	positions_of_annotations = data.at[i, annot].split(',')
	for pos in positions_of_annotations:
	pos = pos.strip().strip('\'').strip('[\'').strip('\']')
	try:
	if '-' not in pos:
	pos = int(float(pos))
	coordAnnot = get_coords(pos, alignments, 'nan', 'nan', mode)[0]
	try:
	annotx.append(find_distance(coordMut, coordAnnot))
	except:
	ValueError

	else:
	for r in range(int(pos.split('-')[0]), int(pos.split('-')[1]) + 1):
	coordAnnot = get_coords(r, alignments, 'nan', 'nan', mode)[0]
	annotx.append(find_distance(coordMut, coordAnnot))
	except:
	ValueError
	try:
	data.at[i, annot] = min([float(i) for i in annotx])
	except:
	ValueError
	data.at[i, annot] = 'nan'

	except:
	ValueError

	if (str(data.at[i, 'domainStartonPDB']) == 'NaN' or str(data.at[i, 'domainStartonPDB']) == 'nan') and (
	str(data.at[i, 'domainEndonPDB']) != 'NaN' and str(data.at[i, 'domainEndonPDB']) != 'nan'):
	data.at[i, 'domainStartonPDB'] = 100000
	elif (str(data.at[i, 'domainEndonPDB']) == 'NaN' or str(data.at[i, 'domainEndonPDB']) == 'nan') and (
	str(data.at[i, 'domainStartonPDB']) != 'NaN' and str(data.at[i, 'domainStartonPDB']) != 'nan'):
	data.at[i, 'domainEndonPDB'] = 100000
	elif (str(data.at[i, 'domainStartonPDB']) == 'NaN' and str(data.at[i, 'domainEndonPDB']) == 'nan'):
	data.at[i, 'domaindistance3D'] = 'nan'

	data.at[i, 'domaindistance3D'] = min(float(data.at[i, 'domainStartonPDB']),
	float(data.at[i, 'domainEndonPDB']))
	data.at[i, 'domaindistance3D'] = min(float(data.at[i, 'domainStartonPDB']),
	float(data.at[i, 'domainEndonPDB']))

	data = data.astype(str)
	data.replace({'NaN': 'nan'}, inplace=True)

	# Now unify all 3 separate data. We have with_pdb. The ones that have pdb structyres, swiss, modbase, the ones didnt match with ant and the ones didnt have wt seq match.

	# Get interface positions from ECLAIR. Download HQ human
	print()
	print('Assigning surface regions...')
	print('------------------------------------\n')

	print('Extracting interface residues...\n')
	data_interface = pd.read_csv(path_to_interfaces, sep='\t')

	positions = get_interface_positions(data_interface, 'P1', 'P2')

	interface_dataframe = pd.DataFrame()

	for key, val in positions.items():
	k = pd.Series((key, str(list(set(val)))))
	interface_dataframe = interface_dataframe.append(k, ignore_index=True)
	interface_dataframe.columns = ['uniprotID', 'positions']

	if len(data) == 0:
	data = pd.DataFrame(
	columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
	'domain', 'domStart', 'domEnd', 'distance', 'uniprotSequence',
	'pdbSequence', 'wt_sequence_match', 'whichIsoform', 'pdbID', 'score',
	'chain', 'datapoint', 'disulfide', 'intMet', 'intramembrane',
	'naturalVariant', 'dnaBinding', 'activeSite', 'nucleotideBinding',
	'lipidation', 'site', 'transmembrane', 'crosslink', 'mutagenesis',
	'strand', 'helix', 'turn', 'metalBinding', 'repeat',
	'topologicalDomain', 'caBinding', 'bindingSite', 'region',
	'signalPeptide', 'modifiedResidue', 'zincFinger', 'motif', 'coiledCoil',
	'peptide', 'transitPeptide', 'glycosylation', 'propeptide',
	'disulfideBinary', 'intMetBinary', 'intramembraneBinary',
	'naturalVariantBinary', 'dnaBindingBinary', 'activeSiteBinary',
	'nucleotideBindingBinary', 'lipidationBinary', 'siteBinary',
	'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary',
	'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
	'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary',
	'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary',
	'modifiedResidueBinary', 'zincFingerBinary', 'motifBinary',
	'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary',
	'glycosylationBinary', 'propeptideBinary', 'pdb_alignStatus',
	'mutationPositionOnPDB', 'domainStartonPDB', 'domainEndonPDB',
	'source', 'sasa', 'domaindistance3D', 'threeState_trsh4_HQ', 'domain_fisher'])
	else:
	data.sasa = data.sasa.astype('str')

	for i in data.index:
	if '*' in data.at[i, 'sasa']:
	data.at[i, 'sasa'] = data.at[i, 'sasa'].split('*')[0]

	data.sasa = data.sasa.replace({'N/A': 'nan'})
	data.sasa = data.sasa.replace({'None': 'nan'})
	data.replace({' N/A': 'nan'}, inplace=True)
	data.replace({'None': 'nan'}, inplace=True)
	data.sasa = data.sasa.astype(float)
	data = data.astype(str)
	for i in data.index:
	if float(data.at[i, 'sasa']) < 5:
	data.at[i, 'trsh4'] = 'core'
	elif float(data.at[i, 'sasa']) >= 5:
	data.at[i, 'trsh4'] = 'surface'
	elif data.at[i, 'sasa'] == 'nan':
	data.at[i, 'trsh4'] = 'nan'

	data = data.merge(interface_dataframe, on='uniprotID', how='left')
	data.positions = data.positions.astype('str')
	for i in data.index:
	if (str(data.at[i, 'pos']) in data.at[i, 'positions']) and data.at[i, 'trsh4'] == 'surface':
	data.at[i, 'threeState_trsh4_HQ'] = 'interface'
	elif (str(data.at[i, 'pos']) not in data.at[i, 'positions']) and data.at[i, 'trsh4'] == 'surface':
	data.at[i, 'threeState_trsh4_HQ'] = 'surface'
	elif (str(data.at[i, 'pos']) not in data.at[i, 'positions']) and data.at[i, 'trsh4'] == 'core':
	data.at[i, 'threeState_trsh4_HQ'] = 'core'
	elif (str(data.at[i, 'pos']) in data.at[i, 'positions']) and data.at[i, 'trsh4'] == 'core':
	data.at[i, 'threeState_trsh4_HQ'] = 'conflict'
	elif data.at[i, 'trsh4'] == 'nan':
	data.at[i, 'threeState_trsh4_HQ'] = 'nan'

	data.drop(['positions'], axis=1, inplace=True)

	# OPTIONAL
	# DOMAIN SELECTION
	# Next step: Delete all other domains with 'NULL.' R is capable of handling 53 categories. We will keep 52 most
	# significant domains and 53th category will be NULL.

	fisherResult = pd.read_csv(fisher_path, sep='\t')

	significant_domains = fisherResult.domain.to_list()
	for i in data.index:
	if data.at[i, 'domain'] in significant_domains:
	data.at[i, 'domain_fisher'] = data.at[i, 'domain']
	else:
	data.at[i, 'domain_fisher'] = 'NULL'

	# Change the numbering for binary annotations and create 3 classes:
	# nan--> 0, 0 -->1 and 1 -->2

	print('Final adjustments are being done...\n')
	binaryCols = ['disulfideBinary', 'intMetBinary', 'intramembraneBinary', 'naturalVariantBinary',
	'dnaBindingBinary',
	'activeSiteBinary', 'nucleotideBindingBinary', 'lipidationBinary', 'siteBinary',
	'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary',
	'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
	'repeatBinary', 'caBindingBinary', 'topologicalDomainBinary',
	'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary',
	'modifiedResidueBinary', 'zincFingerBinary', 'motifBinary',
	'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary',
	'glycosylationBinary', 'propeptideBinary']
	data = data.astype(str)
	data.replace({'NaN': 'nan'}, inplace=True)
	for i in data.index:
	for j in binaryCols:
	data[j] = data[j].astype('str')
	if (data.at[i, j] == '0') or (data.at[i, j] == '0.0'):
	data.at[i, j] = '1'
	elif data.at[i, j] == 'nan':
	data.at[i, j] = '0'
	elif (data.at[i, j] == '1') or (data.at[i, j] == '1.0'):
	data.at[i, j] = '2'

	annotCols = ['disulfide', 'intMet', 'intramembrane',
	'naturalVariant', 'dnaBinding', 'activeSite', 'nucleotideBinding',
	'lipidation', 'site', 'transmembrane', 'crosslink', 'mutagenesis',
	'strand', 'helix', 'turn', 'metalBinding', 'repeat', 'caBinding',
	'topologicalDomain', 'bindingSite', 'region', 'signalPeptide',
	'modifiedResidue', 'zincFinger', 'motif', 'coiledCoil', 'peptide',
	'transitPeptide', 'glycosylation', 'propeptide']

	for i in data.index:
	for annot in annotCols:
	binaryName = str(annot) + 'Binary'
	if data.at[i, binaryName] == '2':
	data.at[i, annot] = '0.0'
	data.replace({'100000': 'nan'}, inplace=True)
	data = add_physicochemical(data)
	data.rename(
	columns={'uniprotID': 'prot_uniprotAcc', 'wt': 'wt_residue', 'pos': 'position', 'mut': 'mut_residue',
	'datapoint': 'meta_merged', 'datapoint_disease': 'meta-lab_merged', 'label': 'source_db',
	'family': 'prot_family', 'domain': 'domains_all', 'domain_fisher': 'domains_sig',
	'domaindistance3D': 'domains_3Ddist', 'threeState_trsh4_HQ': 'location_3state',
	'disulfideBinary': 'disulfide_bin', 'intMetBinary': 'intMet_bin',
	'intramembraneBinary': 'intramembrane_bin',
	'naturalVariantBinary': 'naturalVariant_bin', 'dnaBindingBinary': 'dnaBinding_bin',
	'activeSiteBinary': 'activeSite_bin',
	'nucleotideBindingBinary': 'nucleotideBinding_bin', 'lipidationBinary': 'lipidation_bin',
	'siteBinary': 'site_bin',
	'transmembraneBinary': 'transmembrane_bin', 'crosslinkBinary': 'crosslink_bin',
	'mutagenesisBinary': 'mutagenesis_bin',
	'strandBinary': 'strand_bin', 'helixBinary': 'helix_bin', 'turnBinary': 'turn_bin',
	'metalBindingBinary': 'metalBinding_bin',
	'repeatBinary': 'repeat_bin', 'topologicalDomainBinary': 'topologicalDomain_bin',
	'caBindingBinary': 'caBinding_bin',
	'bindingSiteBinary': 'bindingSite_bin', 'regionBinary': 'region_bin',
	'signalPeptideBinary': 'signalPeptide_bin',
	'modifiedResidueBinary': 'modifiedResidue_bin', 'zincFingerBinary': 'zincFinger_bin',
	'motifBinary': 'motif_bin',
	'coiledCoilBinary': 'coiledCoil_bin', 'peptideBinary': 'peptide_bin',
	'transitPeptideBinary': 'transitPeptide_bin',
	'glycosylationBinary': 'glycosylation_bin', 'propeptideBinary': 'propeptide_bin',
	'disulfide': 'disulfide_dist', 'intMet': 'intMet_dist',
	'intramembrane': 'intramembrane_dist', 'naturalVariant': 'naturalVariant_dist',
	'dnaBinding': 'dnaBinding_dist', 'activeSite': 'activeSite_dist',
	'nucleotideBinding': 'nucleotideBinding_dist', 'lipidation': 'lipidation_dist',
	'site': 'site_dist',
	'transmembrane': 'transmembrane_dist', 'crosslink': 'crosslink_dist',
	'mutagenesis': 'mutagenesis_dist', 'strand': 'strand_dist', 'helix': 'helix_dist',
	'turn': 'turn_dist',
	'metalBinding': 'metalBinding_dist', 'repeat': 'repeat_dist',
	'topologicalDomain': 'topologicalDomain_dist', 'caBinding': 'caBinding_dist',
	'bindingSite': 'bindingSite_dist', 'region': 'region_dist',
	'signalPeptide': 'signalPeptide_dist', 'modifiedResidue': 'modifiedResidue_dist',
	'zincFinger': 'zincFinger_dist', 'motif': 'motif_dist', 'coiledCoil': 'coiledCoil_dist',
	'peptide': 'peptide_dist', 'transitPeptide': 'transitPeptide_dist',
	'glycosylation': 'glycosylation_dist', 'propeptide': 'propeptide_dist'}, inplace=True)

	data = data[
	['prot_uniprotAcc', 'wt_residue', 'mut_residue', 'position', 'meta_merged', 'composition', 'polarity',
	'volume',
	'granthamScore', 'domains_all',
	'domains_sig', 'domains_3Ddist', 'sasa', 'location_3state', 'disulfide_bin', 'intMet_bin',
	'intramembrane_bin', 'naturalVariant_bin', 'dnaBinding_bin',
	'activeSite_bin', 'nucleotideBinding_bin', 'lipidation_bin', 'site_bin',
	'transmembrane_bin', 'crosslink_bin', 'mutagenesis_bin', 'strand_bin',
	'helix_bin', 'turn_bin', 'metalBinding_bin', 'repeat_bin',
	'caBinding_bin', 'topologicalDomain_bin', 'bindingSite_bin',
	'region_bin', 'signalPeptide_bin', 'modifiedResidue_bin',
	'zincFinger_bin', 'motif_bin', 'coiledCoil_bin', 'peptide_bin',
	'transitPeptide_bin', 'glycosylation_bin', 'propeptide_bin', 'disulfide_dist', 'intMet_dist',
	'intramembrane_dist',
	'naturalVariant_dist', 'dnaBinding_dist', 'activeSite_dist',
	'nucleotideBinding_dist', 'lipidation_dist', 'site_dist',
	'transmembrane_dist', 'crosslink_dist', 'mutagenesis_dist',
	'strand_dist', 'helix_dist', 'turn_dist', 'metalBinding_dist',
	'repeat_dist', 'caBinding_dist', 'topologicalDomain_dist',
	'bindingSite_dist', 'region_dist', 'signalPeptide_dist',
	'modifiedResidue_dist', 'zincFinger_dist', 'motif_dist',
	'coiledCoil_dist', 'peptide_dist', 'transitPeptide_dist',
	'glycosylation_dist', 'propeptide_dist']]
	ready = data.copy()
	# Imputation
	if (impute == 'True') or (impute == 'true') or (impute == True):
	filler = [17.84, 30.8, 24.96, 13.12, 23.62, 18.97, 20.87, 29.59, 20.7, 12.7, 22.85, 17.21, 9.8, 9, 15.99,
	16.82,
	20.46, 24.58, 9.99, 17.43, 20.08, 30.91, 20.86, 22.14, 21.91, 28.45, 17.81, 25.12, 20.33, 22.36]
	col_index = 0
	for col_ in ready.columns[-30:]:
	ready[col_] = ready[col_].fillna(filler[col_index])
	ready[col_] = ready[col_].replace({'nan': filler[col_index]})
	col_index += 1
	ready['domains_3Ddist'] = ready['domains_3Ddist'].fillna(24.5)
	ready['sasa'] = ready['sasa'].fillna(29.5)
	ready['location_3state'] = ready['location_3state'].fillna('unknown')
	elif (impute == 'False') or (impute == 'false') or (impute == False):
	pass
	ready = ready.replace({'nan': np.NaN})
	ready.to_csv(path_to_output_files / 'featurevector_pdb.txt', sep='\t', index=False)
	if len(ready) == 0:
	print(
	'No feature vector could be produced for input data. Please check the presence of a structure for the input proteins.')
	print(ready)
	print('Feature vector successfully created...')
	return ready

	end = timer()
	hours, rem = divmod(end - start, 3600)
	minutes, seconds = divmod(rem, 60)
	print("Time passed: {:0>2}:{:0>2}:{:05.2f}".format(int(hours), int(minutes), seconds))
	return ready