Spaces:

ttmn
/

SolLlama

Sleeping

App Files Files Community

BrightBlueCheese commited on May 20

Commit

840ecbd

•

1 Parent(s): b0faaa6

app

Browse files

Files changed (5) hide show

.ipynb_checkpoints/app-checkpoint.py +26 -34
.ipynb_checkpoints/datamodule_finetune_sl-checkpoint.py +3 -1
app.py +26 -34
datamodule_finetune_sl.py +3 -1
model_finetune_sl.py +1 -1

.ipynb_checkpoints/app-checkpoint.py CHANGED Viewed

@@ -33,14 +33,17 @@ sys.path.append( '../')
 import tokenizer_sl, datamodule_finetune_sl, model_finetune_sl, chemllama_mtr, utils_sl
 import auto_evaluator_sl
-from torch.utils.data import Dataset, DataLoader
-from transformers import DataCollatorWithPadding
 torch.manual_seed(1004)
 np.random.seed(1004)
-# smiles_str = st.text_area('Enter SMILE string')
-smiles_str = "CC02"
 ###
 # solute_or_solvent = 'solute'
@@ -81,23 +84,23 @@ dir_model_ft_to_save = f"{dir_main}/SolLlama-mtr"
 # name_model_ft = 'Solvent.pt'
 name_model_ft = f"{solute_or_solvent}.pt"
-# # Load dataset for finetune
-# batch_size_for_train = batch_size_pair[0]
-# batch_size_for_valid = batch_size_pair[1]
-# data_module = datamodule_finetune_sl.CustomFinetuneDataModule(
-#     solute_or_solvent=solute_or_solvent,
-#     tokenizer=tokenizer,
-#     max_seq_length=max_length,
-#     batch_size_train=batch_size_for_train,
-#     batch_size_valid=batch_size_for_valid,
-#     # num_device=int(config.NUM_DEVICE) * config.NUM_WORKERS_MULTIPLIER,
-#     num_device=num_workers,
-# )
-# data_module.prepare_data(smiles_str=smiles_str)
-# data_module.setup()
-# steps_per_epoch = len(data_module.test_dataloader())
 # Load model and optimizer for finetune
 learning_rate = lr
@@ -108,8 +111,7 @@ model_mtr = chemllama_mtr.ChemLlama.load_from_checkpoint(dir_model_mtr)
 model_ft = model_finetune_sl.CustomFinetuneModel(
     model_mtr=model_mtr,
-    # steps_per_epoch=steps_per_epoch,
-    steps_per_epoch=1,
     warmup_epochs=1,
     max_epochs=epochs,
     learning_rate=learning_rate,
@@ -141,17 +143,7 @@ local_model_ft = utils_sl.load_model_ft_with(
     name_model_ft=name_model_ft
 )
-data_loader = DataLoader(
-    dataset=datamodule_finetune_sl.CustomLlamaDatasetAbraham(
-        smiles_str, tokenizer, max_seq_length,
-    ),
-    batch_size=1,
-    num_workers=1,
-    collate_fn=DataCollatorWithPadding(tokenizer),
-    shuffle=False,
-)
-result = trainer.predict(local_model_ft, data_loader=data_loader)
 result_pred = list()
 result_label = list()
 for bat in range(len(result)):

 import tokenizer_sl, datamodule_finetune_sl, model_finetune_sl, chemllama_mtr, utils_sl
 import auto_evaluator_sl
 torch.manual_seed(1004)
 np.random.seed(1004)
+smiles_str = st.text_area('Enter SMILE string')
+file_path = './smiles_str.txt'
+# Open the file in write mode ('w') and write the content
+with open(file_path, 'w') as file:
+    file.write(smiles_str)
+# smiles_str = "CC02"
 ###
 # solute_or_solvent = 'solute'
 # name_model_ft = 'Solvent.pt'
 name_model_ft = f"{solute_or_solvent}.pt"
+# Load dataset for finetune
+batch_size_for_train = batch_size_pair[0]
+batch_size_for_valid = batch_size_pair[1]
+data_module = datamodule_finetune_sl.CustomFinetuneDataModule(
+    solute_or_solvent=solute_or_solvent,
+    tokenizer=tokenizer,
+    max_seq_length=max_length,
+    batch_size_train=batch_size_for_train,
+    batch_size_valid=batch_size_for_valid,
+    # num_device=int(config.NUM_DEVICE) * config.NUM_WORKERS_MULTIPLIER,
+    num_device=num_workers,
+)
+data_module.prepare_data()
+data_module.setup()
+steps_per_epoch = len(data_module.test_dataloader())
 # Load model and optimizer for finetune
 learning_rate = lr
 model_ft = model_finetune_sl.CustomFinetuneModel(
     model_mtr=model_mtr,
+    steps_per_epoch=steps_per_epoch,
     warmup_epochs=1,
     max_epochs=epochs,
     learning_rate=learning_rate,
     name_model_ft=name_model_ft
 )
+result = trainer.predict(local_model_ft, data_module)
 result_pred = list()
 result_label = list()
 for bat in range(len(result)):

.ipynb_checkpoints/datamodule_finetune_sl-checkpoint.py CHANGED Viewed

@@ -59,8 +59,10 @@ class CustomFinetuneDataModule(L.LightningDataModule):
         self.num_device = num_device
-    def prepare_data(self, smiles_str:str):
         # self.list_df = load_abraham(self.solute_or_solvent)
         self.smiles_str = smiles_str
     def setup(self, stage=None):

         self.num_device = num_device
+    def prepare_data(self):
         # self.list_df = load_abraham(self.solute_or_solvent)
+        with open('./smiles_str.txt', 'r') as file:
+            smiles_str = file.readline()
         self.smiles_str = smiles_str
     def setup(self, stage=None):

app.py CHANGED Viewed

@@ -33,14 +33,17 @@ sys.path.append( '../')
 import tokenizer_sl, datamodule_finetune_sl, model_finetune_sl, chemllama_mtr, utils_sl
 import auto_evaluator_sl
-from torch.utils.data import Dataset, DataLoader
-from transformers import DataCollatorWithPadding
 torch.manual_seed(1004)
 np.random.seed(1004)
-# smiles_str = st.text_area('Enter SMILE string')
-smiles_str = "CC02"
 ###
 # solute_or_solvent = 'solute'
@@ -81,23 +84,23 @@ dir_model_ft_to_save = f"{dir_main}/SolLlama-mtr"
 # name_model_ft = 'Solvent.pt'
 name_model_ft = f"{solute_or_solvent}.pt"
-# # Load dataset for finetune
-# batch_size_for_train = batch_size_pair[0]
-# batch_size_for_valid = batch_size_pair[1]
-# data_module = datamodule_finetune_sl.CustomFinetuneDataModule(
-#     solute_or_solvent=solute_or_solvent,
-#     tokenizer=tokenizer,
-#     max_seq_length=max_length,
-#     batch_size_train=batch_size_for_train,
-#     batch_size_valid=batch_size_for_valid,
-#     # num_device=int(config.NUM_DEVICE) * config.NUM_WORKERS_MULTIPLIER,
-#     num_device=num_workers,
-# )
-# data_module.prepare_data(smiles_str=smiles_str)
-# data_module.setup()
-# steps_per_epoch = len(data_module.test_dataloader())
 # Load model and optimizer for finetune
 learning_rate = lr
@@ -108,8 +111,7 @@ model_mtr = chemllama_mtr.ChemLlama.load_from_checkpoint(dir_model_mtr)
 model_ft = model_finetune_sl.CustomFinetuneModel(
     model_mtr=model_mtr,
-    # steps_per_epoch=steps_per_epoch,
-    steps_per_epoch=1,
     warmup_epochs=1,
     max_epochs=epochs,
     learning_rate=learning_rate,
@@ -141,17 +143,7 @@ local_model_ft = utils_sl.load_model_ft_with(
     name_model_ft=name_model_ft
 )
-data_loader = DataLoader(
-    dataset=datamodule_finetune_sl.CustomLlamaDatasetAbraham(
-        smiles_str, tokenizer, max_seq_length,
-    ),
-    batch_size=1,
-    num_workers=1,
-    collate_fn=DataCollatorWithPadding(tokenizer),
-    shuffle=False,
-)
-result = trainer.predict(local_model_ft, data_loader=data_loader)
 result_pred = list()
 result_label = list()
 for bat in range(len(result)):

 import tokenizer_sl, datamodule_finetune_sl, model_finetune_sl, chemllama_mtr, utils_sl
 import auto_evaluator_sl
 torch.manual_seed(1004)
 np.random.seed(1004)
+smiles_str = st.text_area('Enter SMILE string')
+file_path = './smiles_str.txt'
+# Open the file in write mode ('w') and write the content
+with open(file_path, 'w') as file:
+    file.write(smiles_str)
+# smiles_str = "CC02"
 ###
 # solute_or_solvent = 'solute'
 # name_model_ft = 'Solvent.pt'
 name_model_ft = f"{solute_or_solvent}.pt"
+# Load dataset for finetune
+batch_size_for_train = batch_size_pair[0]
+batch_size_for_valid = batch_size_pair[1]
+data_module = datamodule_finetune_sl.CustomFinetuneDataModule(
+    solute_or_solvent=solute_or_solvent,
+    tokenizer=tokenizer,
+    max_seq_length=max_length,
+    batch_size_train=batch_size_for_train,
+    batch_size_valid=batch_size_for_valid,
+    # num_device=int(config.NUM_DEVICE) * config.NUM_WORKERS_MULTIPLIER,
+    num_device=num_workers,
+)
+data_module.prepare_data()
+data_module.setup()
+steps_per_epoch = len(data_module.test_dataloader())
 # Load model and optimizer for finetune
 learning_rate = lr
 model_ft = model_finetune_sl.CustomFinetuneModel(
     model_mtr=model_mtr,
+    steps_per_epoch=steps_per_epoch,
     warmup_epochs=1,
     max_epochs=epochs,
     learning_rate=learning_rate,
     name_model_ft=name_model_ft
 )
+result = trainer.predict(local_model_ft, data_module)
 result_pred = list()
 result_label = list()
 for bat in range(len(result)):

datamodule_finetune_sl.py CHANGED Viewed

@@ -59,8 +59,10 @@ class CustomFinetuneDataModule(L.LightningDataModule):
         self.num_device = num_device
-    def prepare_data(self, smiles_str:str):
         # self.list_df = load_abraham(self.solute_or_solvent)
         self.smiles_str = smiles_str
     def setup(self, stage=None):

         self.num_device = num_device
+    def prepare_data(self):
         # self.list_df = load_abraham(self.solute_or_solvent)
+        with open('./smiles_str.txt', 'r') as file:
+            smiles_str = file.readline()
         self.smiles_str = smiles_str
     def setup(self, stage=None):

model_finetune_sl.py CHANGED Viewed

@@ -113,7 +113,7 @@ class CustomFinetuneModel(L.LightningModule):
         return loss, logits, labels
-    def predict_step(self, batch, batch_idx, dataloader_idx=0):
         loss, logits, labels = self._common_step(batch=batch, batch_idx=batch_idx)
         return logits, labels

         return loss, logits, labels
+    def predict_step(self, batch, batch_idx):
         loss, logits, labels = self._common_step(batch=batch, batch_idx=batch_idx)
         return logits, labels