NibiruTwin
/

llm-jp-3-13b-it_lora-DPO-12-07

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

NibiruTwin commited on 18 days ago

Commit

41b673b

•

1 Parent(s): 7d2e768

Update README.md

Files changed (1) hide show

README.md +3 -1

README.md CHANGED Viewed

@@ -81,6 +81,9 @@ num_train_epochs = 3,
 O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
 \        /    Total batch size = 8 | Total steps = 36
  "-____-"     Number of trainable parameters = 125,173,760
  [36/36 01:54, Epoch 2/3]
 Step	Training Loss	rewards / chosen	rewards / rejected	rewards / accuracies	rewards / margins	logps / rejected	logps / chosen	logits / rejected	logits / chosen
 1	0.000100	3.348554	-6.467402	1.000000	9.815956	-169.229355	-175.684265	0.611595	0.875623
@@ -120,7 +123,6 @@ Step	Training Loss	rewards / chosen	rewards / rejected	rewards / accuracies	rewa
 35	0.000100	5.392914	-4.364581	1.000000	9.757494	-97.780762	-143.621002	0.270843	0.839165
 36	0.000100	2.788383	-7.393952	1.000000	10.182335	-154.236618	-184.300690	0.392709	0.757870
 TrainOutput(global_step=36, training_loss=0.00038064550871139445, metrics={'train_runtime': 118.2651, 'train_samples_per_second': 2.537, 'train_steps_per_second': 0.304, 'total_flos': 0.0, 'train_loss': 0.00038064550871139445, 'epoch': 2.88})
 ```
 結果として大喜利については以下のような答えになっていました。

 O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
 \        /    Total batch size = 8 | Total steps = 36
  "-____-"     Number of trainable parameters = 125,173,760
+```python:
  [36/36 01:54, Epoch 2/3]
 Step	Training Loss	rewards / chosen	rewards / rejected	rewards / accuracies	rewards / margins	logps / rejected	logps / chosen	logits / rejected	logits / chosen
 1	0.000100	3.348554	-6.467402	1.000000	9.815956	-169.229355	-175.684265	0.611595	0.875623
 35	0.000100	5.392914	-4.364581	1.000000	9.757494	-97.780762	-143.621002	0.270843	0.839165
 36	0.000100	2.788383	-7.393952	1.000000	10.182335	-154.236618	-184.300690	0.392709	0.757870
 TrainOutput(global_step=36, training_loss=0.00038064550871139445, metrics={'train_runtime': 118.2651, 'train_samples_per_second': 2.537, 'train_steps_per_second': 0.304, 'total_flos': 0.0, 'train_loss': 0.00038064550871139445, 'epoch': 2.88})
 ```
 結果として大喜利については以下のような答えになっていました。