F-Haru
/

teacher_finetuning

Model card Files Files and versions Community

F-Haru commited on Jul 19, 2023

Commit

5e90942

•

1 Parent(s): c4cf3d4

Upload 7 files

Browse files

Files changed (8) hide show

.gitattributes +1 -0
en-ja-100000-karanasi.txt +0 -0
output-100000-karanasi.txt +3 -0
pseudo-english-sentence-100000-karanasi.txt +0 -0
pseudo-english_english_100000_cos-sim-karanasi.txt +0 -0
pseudo-pseudo-english-sentence-100000-karanasi.txt +0 -0
pseudo-pseudo-english_english_100000_cos-sim-karanasi.txt +0 -0
teacher_finetune.py +95 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 完成2-MarginMSELoss-finetuning-6-30/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 完成2-MarginMSELoss-finetuning-6-30/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+output-100000-karanasi.txt filter=lfs diff=lfs merge=lfs -text

en-ja-100000-karanasi.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

output-100000-karanasi.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:213ebc63bb4cfd4b740097909174855d3d64cfba85977d4620768d615d22b27b
+size 20491048

pseudo-english-sentence-100000-karanasi.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pseudo-english_english_100000_cos-sim-karanasi.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pseudo-pseudo-english-sentence-100000-karanasi.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pseudo-pseudo-english_english_100000_cos-sim-karanasi.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

teacher_finetune.py ADDED Viewed

	@@ -0,0 +1,95 @@

+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Created on Fri Jun 30 08:47:31 2023
+@author: fujidai
+"""
+import torch
+from sentence_transformers import SentenceTransformer, InputExample, losses,models
+from sentence_transformers import SentenceTransformer,  SentencesDataset, LoggingHandler, losses
+from sentence_transformers.readers import InputExample
+from torch.utils.data import DataLoader
+from transformers import AutoTokenizer
+from sentence_transformers.SentenceTransformer import SentenceTransformer
+import torch
+import torch.nn.functional as F
+import numpy as np
+from sentence_transformers import SentenceTransformer, util
+word_embedding_model = models.Transformer('paraphrase-mpnet-base-v2', max_seq_length=512)# modelの指定をする
+pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
+#dense_model = models.Dense(in_features=pooling_model.get_sentence_embedding_dimension(),out_features=16)
+model = SentenceTransformer(modules=[word_embedding_model, pooling_model],device='mps')
+print(model)
+with open('pseudo-pseudo-english_english_100000_cos-sim-karanasi.txt', 'r') as f:# pseudo-pseudo-english　と　english の　cos_sim 　（en-jaのnegative-cossim）
+    raberu = f.read()
+raberu_lines = raberu.splitlines()#改行コードごとにリストに入れている
+data = []
+for i in range(len(raberu_lines)):
+    data.append(float(raberu_lines[i]))#Negative en-ja cos_simをdataに入れている
+with open('pseudo-english_english_100000_cos-sim-karanasi.txt', 'r') as f:## pseudo-english　と　english の　cos_sim　（ja-enのnegative-cossim）
+    raberu2 = f.read()
+raberu2_lines = raberu2.splitlines()#改行コードごとにリストに入れている
+data2 = []
+for i in range(len(raberu2_lines)):
+    data2.append(float(raberu2_lines[i]))#Negative ja-en cos_simをdata2に入れている
+with open('en-ja-100000-karanasi.txt', 'r') as f:#TEDのenglish
+    left = f.read()
+left_lines = left.splitlines()
+with open('pseudo-pseudo-english-sentence-100000-karanasi.txt', 'r') as f:#TEDのenglishをgoogle翻訳に入れて作った日本語をgoogle翻訳に入れて英語にしたやつ
+    senter = f.read()
+senter_lines = senter.splitlines()
+with open('pseudo-english-sentence-100000-karanasi.txt', 'r') as f:#TEDのjapaneseををgoogle翻訳に入れて作った英語
+    right = f.read()
+right_lines = right.splitlines()#改行コードごとにリストに入れている
+train_examples = []
+for i in range(len(left_lines)):
+    pair=[]
+    pair.append(left_lines[i])#left_lines側のi行目をtextsに追加している
+    pair.append(senter_lines[i])
+    pair.append(right_lines[i])#right_lines側のi行目をtextsに追加している
+    #print(data[i]-data2[i])
+    absolutely=abs(data[i]-data2[i])
+    #print('zettai↓')
+    #print(absolutely)
+    example = InputExample(texts=pair, label=absolutely)#textsをラベル付きで追加している
+    #print(example)
+    #label=1-data[i]の１は positive cos_sim
+    train_examples.append(example)#学習として入れるものに入れている
+device = torch.device('mps')
+#print(device)
+import torch.nn.functional as F
+train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=8)
+train_loss = losses.MarginMSELoss(model=model,similarity_fct=F.cosine_similarity)
+#Tune the model
+model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=100, warmup_steps=100,show_progress_bar=True,
+          #output_path='完成2best-6-30',
+          checkpoint_path='paraphrase-mpnet-base-v2_finetuning-2',checkpoint_save_steps=6195,#どのくらいのイテレーションごとに保存するか
+          save_best_model=True)#checkpoint_save_total_limit=5,
+model.save("paraphrase-mpnet-base-v2_finetuning")