update README

Files changed (3) hide show

README.md CHANGED Viewed

@@ -24,17 +24,17 @@ class LineDataset(Dataset):
 device = "cuda" if torch.cuda.is_available() else "cpu"
 torch.set_num_threads(2)
-tokenizer = PreTrainedTokenizerFast.from_pretrained("lixiangchun/transcriptome_iseeek_13millioncells_128tokens")
-model = BertForMaskedLM.from_pretrained("lixiangchun/transcriptome_iseeek_13millioncells_128tokens").bert
 model = model.to(device)
 model.eval()
-text_file = "/mnt/ssd2/shenhr/BERT/bert_256/pbmc/deal/gene_rank_pmbc.txt"
-labels = [s.strip() for s in open('/mnt/ssd2/shenhr/BERT/bert_256/pbmc/deal/labels.txt')]
 labels = np.asarray(labels)
-lines = [s.strip() for s in open(text_file)]
 ds = LineDataset(lines)
 dl = DataLoader(ds, batch_size=80)

 device = "cuda" if torch.cuda.is_available() else "cpu"
 torch.set_num_threads(2)
+tokenizer = PreTrainedTokenizerFast.from_pretrained("TJMUCH/transcriptome-iseeek")
+model = BertForMaskedLM.from_pretrained("TJMUCH/transcriptome-iseeek").bert
 model = model.to(device)
 model.eval()
+## Data desposited in https://huggingface.co/TJMUCH/transcriptome-iseeek/tree/main
+lines = [s.strip() for s in gzip.open("pbmc_ranking.txt.gz")]
+labels = [s.strip() for s in gzip.open("pbmc_label.txt.gz")]
 labels = np.asarray(labels)
 ds = LineDataset(lines)
 dl = DataLoader(ds, batch_size=80)

pbmc_label.txt.gz ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6171759c36f7c45d9a8230bd2fd0af192a8f12d2b7bbb9d838d6a0d589f9f24
+size 25295

pbmc_ranking.txt.gz ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:588a33ccabe070aa97b6d2580fc8eb3dc16cc4bedc2baaed55b80312dac40d77
+size 26121005