F-Haru/WMT_da-data_finetuning

提供されている学習データは89000文だが、７つ学習データから外して、「88993文」で学習を行う。

en-mr(英語-マラーティー語)のscoreのなかで７つ明らかにおかしい点数がついていたので、学習データから外した。
明らかにおかしいと考えた理由は、一番高いscoreが100のはずなのに100点よりも高い数字が入っていた。
めっちゃ高い数字を入れた状態で正規化すると、全体の数値が下がり低い数値に密集してしまうので外した。
ちなみにおかしい数字を入れた状態で正規化を行うと、scoreが「１００」だと「0.5〜６」ぐらいになった。

「WMT_da_finetuning.py」がファインチューニングをするコードになっている
「distillation.py」が知識蒸留をするコードになっている