--- language: - ja metrics: - accuracy - f1 --- # multilingual-sentimentsデータセットをbertベースのモデルでfinetuningしたもの - ベースモデル:cl-tohoku/bert-base-japanese-whole-word-masking - データセット:tyqiangz/multilingual-sentiments - バッチサイズ: 16固定 - オプティマイザ: adafactor - Optunaでハイパーパラメータ探索 - 学習率スケジュールのタイプ(lr_scheduler_type): constant, linear, cosine - 学習率(learning rate): 1e-6 ~ 1e-4 - 勾配累積ステップ(gradient_accumulation_steps): 1, 2, 4, 8, 16 - 正則化(weight_decay): 1e-6 ~ 1e-1 - Optunaでの探索結果は以下 - 学習率スケジュールタイプ(lr_scheduler_type): cosine - 学習率(learning rate): 2.64959745375728e-05 - 勾配累積ステップ(gradient_accumulation_steps): 4 - 正則化(weight_decay): 1.1217342612041105e-06 このハイパーパラメータを使って再度finetuningした.