File size: 6,575 Bytes

import torch
from transformers import AutoTokenizer
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence
import lightning.pytorch as pl
import config
import pandas as pd
import copy
from ast import literal_eval
from sklearn.model_selection import train_test_split
import sys

sys.path.append("/home/sunx/data/aiiih/projects/sunx/ccf_fuzzy_diag")
from data_proc.data_gen import (
    positive_generator,
    positive_generator_alter,
    negative_generator,
    negative_generator_alter,
    negative_generator_random,
    negative_generator_v2,
    get_mentioned_code,
)


def tokenize(text, tokenizer, tag):
    inputs = tokenizer(
        text,
        return_token_type_ids=False,
        return_tensors="pt",
    )

    inputs["input_ids"] = inputs["input_ids"][0]
    inputs["attention_mask"] = inputs["attention_mask"][0]
    inputs["mlm_ids"] = copy.deepcopy(inputs["input_ids"])
    inputs["mlm_labels"] = copy.deepcopy(inputs["input_ids"])

    tokens_to_ignore = torch.tensor([101, 102, 0])  # [CLS], [SEP], [PAD]
    valid_tokens = inputs["input_ids"][
        ~torch.isin(inputs["input_ids"], tokens_to_ignore)
    ]
    num_of_token_to_mask = int(len(valid_tokens) * config.mask_pct)
    token_to_mask = valid_tokens[
        torch.randperm(valid_tokens.size(0))[:num_of_token_to_mask]
    ]
    inputs["mlm_ids"] = [
        103 if x in token_to_mask else x for x in inputs["mlm_ids"]
    ]  # [MASK]
    inputs["mlm_labels"] = [
        y if y in token_to_mask else -100 for y in inputs["mlm_labels"]
    ]

    inputs["mlm_ids"] = torch.tensor(inputs["mlm_ids"])
    inputs["mlm_labels"] = torch.tensor(inputs["mlm_labels"])
    if tag == "A":
        inputs["tag"] = 0
    elif tag == "P":
        inputs["tag"] = 1
    elif tag == "N":
        inputs["tag"] = 2
    return inputs


class CLDataset(Dataset):
    def __init__(
        self,
        data: pd.DataFrame,
    ):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        data_row = self.data.iloc[index]
        sentence = data_row.sentences
        return sentence


def collate_func(batch, tokenizer, current_df, query_df, dictionary, all_d):

    anchor = batch[0]
    positives = positive_generator_alter(
        anchor,
        current_df,
        dictionary,
        num_pos=config.num_pos,
    )
    negatives = negative_generator_v2(
        anchor,
        current_df,
        query_df,
        all_d,
        num_neg=config.num_neg,
    )

    inputs = []

    anchor_dict = tokenize(anchor, tokenizer, "A")
    inputs.append(anchor_dict)

    for pos in positives:
        pos_dict = tokenize(pos, tokenizer, "P")
        inputs.append(pos_dict)

    for neg in negatives:
        neg_dict = tokenize(neg, tokenizer, "N")
        inputs.append(neg_dict)

    tags = torch.tensor([d["tag"] for d in inputs])

    input_ids_tsr = [d["input_ids"] for d in inputs]
    padded_input_ids = pad_sequence(input_ids_tsr, padding_value=0)
    padded_input_ids = torch.transpose(padded_input_ids, 0, 1)

    attention_mask_tsr = [d["attention_mask"] for d in inputs]
    padded_attention_mask = pad_sequence(attention_mask_tsr, padding_value=0)
    padded_attention_mask = torch.transpose(padded_attention_mask, 0, 1)

    mlm_ids_tsr = [d["mlm_ids"] for d in inputs]
    padded_mlm_ids = pad_sequence(mlm_ids_tsr, padding_value=0)
    padded_mlm_ids = torch.transpose(padded_mlm_ids, 0, 1)

    mlm_labels_tsr = [d["mlm_labels"] for d in inputs]
    padded_mlm_labels = pad_sequence(mlm_labels_tsr, padding_value=-100)
    padded_mlm_labels = torch.transpose(padded_mlm_labels, 0, 1)

    return {
        "tags": tags,
        "input_ids": padded_input_ids,
        "attention_mask": padded_attention_mask,
        "mlm_ids": padded_mlm_ids,
        "mlm_labels": padded_mlm_labels,
    }


def create_dataloader(
    dataset, tokenizer, shuffle, current_df, query_df, dictionary, all_d
):
    return DataLoader(
        dataset,
        batch_size=config.batch_size,
        shuffle=shuffle,
        num_workers=1,
        collate_fn=lambda batch: collate_func(
            batch, tokenizer, current_df, query_df, dictionary, all_d
        ),
    )


class CLDataModule(pl.LightningDataModule):
    def __init__(
        self,
        train_df,
        val_df,
        tokenizer,
        query_df,
        dictionary,
        all_d,
    ):
        super().__init__()
        self.train_df = train_df
        self.val_df = val_df
        self.tokenizer = tokenizer
        self.query_df = query_df
        self.dictionary = dictionary
        self.all_d = all_d

    def setup(self, stage=None):
        self.train_dataset = CLDataset(self.train_df)
        self.val_dataset = CLDataset(self.val_df)

    def train_dataloader(self):
        return create_dataloader(
            self.train_dataset,
            self.tokenizer,
            shuffle=True,
            current_df=self.train_df,
            query_df=self.query_df,
            dictionary=self.dictionary,
            all_d=self.all_d,
        )

    def val_dataloader(self):
        return create_dataloader(
            self.val_dataset,
            self.tokenizer,
            shuffle=False,
            current_df=self.val_df,
            query_df=self.query_df,
            dictionary=self.dictionary,
            all_d=self.all_d,
        )


if __name__ == "__main__":
    query_df = pd.read_csv(
        "/home/sunx/data/aiiih/projects/sunx/ccf_fuzzy_diag/data_proc/query_df.csv"
    )
    query_df["concepts"] = query_df["concepts"].apply(literal_eval)
    query_df["codes"] = query_df["codes"].apply(literal_eval)
    query_df["codes"] = query_df["codes"].apply(
        lambda x: [val for val in x if val is not None]
    )
    train_df, val_df = train_test_split(query_df, test_size=config.split_ratio)
    tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")

    all_d = pd.read_csv(
        "/home/sunx/data/aiiih/projects/sunx/ccf_fuzzy_diag/data_proc/query_all_d.csv"
    )
    all_d["synonyms"] = all_d["synonyms"].apply(literal_eval)
    all_d["ancestors"] = all_d["ancestors"].apply(literal_eval)
    all_d["finding_sites"] = all_d["finding_sites"].apply(literal_eval)
    all_d["morphology"] = all_d["morphology"].apply(literal_eval)
    dictionary = dict(zip(all_d["concept"], all_d["synonyms"]))

    d = CLDataModule(train_df, val_df, tokenizer, query_df, dictionary, all_d)
    d.setup()
    train = d.train_dataloader()
    for batch in train:
        b = batch
        break