Edit model card

multilingual-sentimentsデータセットをbertベースのモデルでfinetuningしたもの

  • ベースモデル:cl-tohoku/bert-base-japanese-whole-word-masking

  • データセット:tyqiangz/multilingual-sentiments

  • バッチサイズ: 16固定

  • オプティマイザ: adafactor

  • Optunaでハイパーパラメータ探索

    • 学習率スケジュールのタイプ(lr_scheduler_type): constant, linear, cosine
    • 学習率(learning rate): 1e-6 ~ 1e-4
    • 勾配累積ステップ(gradient_accumulation_steps): 1, 2, 4, 8, 16
    • 正則化(weight_decay): 1e-6 ~ 1e-1
  • Optunaでの探索結果は以下

    • 学習率スケジュールタイプ(lr_scheduler_type): cosine
    • 学習率(learning rate): 2.64959745375728e-05
    • 勾配累積ステップ(gradient_accumulation_steps): 4
    • 正則化(weight_decay): 1.1217342612041105e-06

このハイパーパラメータを使って再度finetuningした.

Downloads last month
12