Upload 21 files

Browse files

Files changed (22) hide show

.gitattributes +1 -0
macbert/checkpoints/saved_checkpoints/name_checkpoint15_train8000.pth.tar +3 -0
macbert/checkpoints/saved_checkpoints/name_checkpoint17_train9000.pth.tar +3 -0
macbert/checkpoints/saved_checkpoints/travel_checkpoint15_train8000.pth.tar +3 -0
macbert/checkpoints/saved_checkpoints/travel_checkpoint_17_train9000.pth.tar +3 -0
macbert/dataset.py +89 -0
macbert/dataset/datagame_sms_stage1(in).csv +3 -0
macbert/dataset/name_test_9000.csv +0 -0
macbert/dataset/name_train_9000.csv +0 -0
macbert/dataset/name_val_9000.csv +0 -0
macbert/dataset/travel_test_9000.csv +0 -0
macbert/dataset/travel_train_9000.csv +0 -0
macbert/dataset/travel_val_9000.csv +0 -0
macbert/infer.py +138 -0
macbert/infer_all.py +167 -0
macbert/infer_name.py +144 -0
macbert/infer_travel.py +144 -0
macbert/main.py +285 -0
macbert/models.py +42 -0
macbert/requirements.txt +5 -0
macbert/test.py +6 -0
macbert/utils.py +70 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+macbert/dataset/datagame_sms_stage1(in).csv filter=lfs diff=lfs merge=lfs -text

macbert/checkpoints/saved_checkpoints/name_checkpoint15_train8000.pth.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a9c216795384fe75c774e640eb2929f46b8dbc409ffd9d961e74627d6224204
+size 1222778219

macbert/checkpoints/saved_checkpoints/name_checkpoint17_train9000.pth.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1abe8fd9b5099381277eb432db9c95f7467bb362bf7244a979bcdd691492770
+size 1222778219

macbert/checkpoints/saved_checkpoints/travel_checkpoint15_train8000.pth.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:716b58feddc2bcaae611858581b72725e1592aca1d0645dc2abf38b9f499e791
+size 1222778219

macbert/checkpoints/saved_checkpoints/travel_checkpoint_17_train9000.pth.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:027e43ef9081d786a967ffa95ca95a52a1487c8a76f2f6b4409e796dab657b53
+size 1222778219

macbert/dataset.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import Dataset, DataLoader
+from torchvision.transforms.functional import to_tensor, to_pil_image
+import torchvision.transforms as transforms
+# from transformers import AutoModel
+# from transformers import AutoTokenizer, AutoConfig
+import torch
+import torch.nn as nn
+from torch.autograd import Variable
+from torch.utils.data import Dataset, DataLoader
+from torch.cuda.amp import autocast, GradScaler
+from torch.utils.data.distributed import DistributedSampler
+import numpy as np
+import random
+import os
+import copy
+import pandas as pd
+class MyDataset(Dataset):
+    def __init__(
+        self,
+        ann_file,
+        cfg,
+        mode='tra',
+    ):
+        super().__init__()
+        data = np.array(pd.read_csv(ann_file))
+        self.data = data
+        self.mode = mode
+        self.cfg = cfg
+    def __getitem__(self, index):
+        if self.mode == 'test':
+            d = self.data[index]
+            context = d[1]
+            sms_id = d[0]
+            return context, sms_id
+        else :
+            d = self.data[index]
+            context = d[1]
+            label = d[2]
+            label = int(label)
+            return context, label
+    def __len__(self):
+        return len(self.data)
+if __name__ == '__main__':
+    d = 'C:/Users/u/Desktop/workspace/bs/myr/data/val.csv'
+    D = MyDataset(d, cfg={})
+    nb_1 = 0
+    for i, d in enumerate(D):
+        _, l = d
+        if l==1:
+            nb_1 += 1
+    print(nb_1/len(D))
+    np.random.seed(666)
+    ann_file1 = 'C:/Users/u/Desktop/workspace/bs/myr/data/test_samples.csv'
+    ann_file2 = 'C:/Users/u/Desktop/workspace/bs/myr/data/train_samples.csv'
+    data1 = pd.read_csv(ann_file1)
+    data2 = pd.read_csv(ann_file2)
+    data = pd.concat([data1, data2])
+    data = np.array(data)
+    np.random.shuffle(data)
+    data_tra = data[:int(len(data)*0.7)]
+    data_val = data[int(len(data)*0.7):]
+    data_tra = pd.DataFrame(data_tra, columns=['content', 'label'])
+    data_val = pd.DataFrame(data_val, columns=['content', 'label'])
+    data_tra.to_csv('C:/Users/u/Desktop/workspace/bs/myr/data/tra.csv', index=False)
+    data_val.to_csv('C:/Users/u/Desktop/workspace/bs/myr/data/val.csv', index=False)

macbert/dataset/datagame_sms_stage1(in).csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f83bdff3455421e19a75bb1fe947b752751046189fec28a2f865bdef32ae2e9
+size 47370252

macbert/dataset/name_test_9000.csv ADDED Viewed