Edit model card
  • ベースモデル:cl-tohoku/bert-base-japanese-whole-word-masking

  • データセット:llm-book/wrime-sentiment

  • オプティマイザ: adamw

  • Optunaでハイパーパラメータ探索

    • 学習率スケジュールのタイプ(lr_scheduler_type): constant, linear, cosine
    • 学習率(learning rate): 1e-6 ~ 1e-4
    • バッチサイズ(per_device_train_batch_size): 16, 32, 64, 128, 256
    • 正則化(weight_decay): 1e-6 ~ 1e-1
  • Optunaでの探索結果は以下

    • 学習率スケジュールタイプ(lr_scheduler_type): cosine
    • 学習率(learning rate): 3.912141264809884e-05
    • バッチサイズ(per_device_train_batch_size): 128
    • 正則化(weight_decay): 5.220051265759252e-05
    • Epoch: 100
    • EarlyStopping: early_stopping_patience=3

このハイパーパラメータを使って再度finetuningした.

Downloads last month
9