File size: 902 Bytes
82b7d39
 
22ed1c7
 
93c1786
 
 
89ac04e
78b4209
 
206af2f
 
1
2
3
4
5
6
7
8
9
10
11
12
  
提供されている学習データは89000文だが、7つ学習データから外して、「88993文」で学習を行う。  


en-mr(英語-マラーティー語)のscoreのなかで7つ明らかにおかしい点数がついていたので、学習データから外した。  
明らかにおかしいと考えた理由は、一番高いscoreが100のはずなのに100点よりも高い数字が入っていた。  
めっちゃ高い数字を入れた状態で正規化すると、全体の数値が下がり低い数値に密集してしまうので外した。  
ちなみにおかしい数字を入れた状態で正規化を行うと、scoreが「100」だと「0.5〜6」ぐらいになった。  
  

「WMT_da_finetuning.py」がファインチューニングをするコードになっている  
「distillation.py」が知識蒸留をするコードになっている