Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +202 -0
adapter_config.json +43 -0
adapter_model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scaler.pt +3 -0
scheduler.pt +3 -0
trainer_state.json +784 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: Qwen/Qwen2.5-VL-3B-Instruct
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.15.2

adapter_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen2.5-VL-3B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "mlp.0",
+    "attn.proj",
+    "k_proj",
+    "qkv",
+    "up_proj",
+    "mlp.2",
+    "gate_proj",
+    "v_proj",
+    "down_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:052ebd1c2fb5a873013df45a5c99d86ec7738eb619f9ff6b87697cbad1d01743
+size 165563976

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db6cd4182612c878c11cba945d1e53a7d687e3006c06ae713a378392efdf36bf
+size 242125702

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d2981a2c1a2c931e8522f662b0973c237ec460f020d279c0e6ec88c5605303c
+size 14244

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3775eede80dfdfb6e17b357d769230edbfe7ad1cff7722fef04f9ab1cbe3b737
+size 988

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42173a484c9de4700dbd289ab8f95576e2cd080b3bd422ce71a0de1c90ed04e3
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,784 @@

+{
+  "best_global_step": 5000,
+  "best_metric": 1.017230749130249,
+  "best_model_checkpoint": "/kaggle/working/qwen2vl-lora-kaggle-1-3b/checkpoint-5000",
+  "epoch": 1.7985611510791366,
+  "eval_steps": 100,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03597122302158273,
+      "grad_norm": 4.838791370391846,
+      "learning_rate": 0.00019612,
+      "loss": 1.5148,
+      "step": 100
+    },
+    {
+      "epoch": 0.03597122302158273,
+      "eval_loss": 1.6787753105163574,
+      "eval_runtime": 221.0311,
+      "eval_samples_per_second": 6.284,
+      "eval_steps_per_second": 0.787,
+      "step": 100
+    },
+    {
+      "epoch": 0.07194244604316546,
+      "grad_norm": 4.567266464233398,
+      "learning_rate": 0.00019212000000000002,
+      "loss": 1.52,
+      "step": 200
+    },
+    {
+      "epoch": 0.07194244604316546,
+      "eval_loss": 1.5472114086151123,
+      "eval_runtime": 218.7801,
+      "eval_samples_per_second": 6.349,
+      "eval_steps_per_second": 0.795,
+      "step": 200
+    },
+    {
+      "epoch": 0.1079136690647482,
+      "grad_norm": 6.073286533355713,
+      "learning_rate": 0.00018816000000000001,
+      "loss": 1.4848,
+      "step": 300
+    },
+    {
+      "epoch": 0.1079136690647482,
+      "eval_loss": 1.5414568185806274,
+      "eval_runtime": 220.387,
+      "eval_samples_per_second": 6.303,
+      "eval_steps_per_second": 0.79,
+      "step": 300
+    },
+    {
+      "epoch": 0.14388489208633093,
+      "grad_norm": 4.657773971557617,
+      "learning_rate": 0.0001842,
+      "loss": 1.5882,
+      "step": 400
+    },
+    {
+      "epoch": 0.14388489208633093,
+      "eval_loss": 1.3667333126068115,
+      "eval_runtime": 218.501,
+      "eval_samples_per_second": 6.357,
+      "eval_steps_per_second": 0.796,
+      "step": 400
+    },
+    {
+      "epoch": 0.17985611510791366,
+      "grad_norm": 4.099836349487305,
+      "learning_rate": 0.00018020000000000002,
+      "loss": 1.4703,
+      "step": 500
+    },
+    {
+      "epoch": 0.17985611510791366,
+      "eval_loss": 1.3743242025375366,
+      "eval_runtime": 216.9007,
+      "eval_samples_per_second": 6.404,
+      "eval_steps_per_second": 0.802,
+      "step": 500
+    },
+    {
+      "epoch": 0.2158273381294964,
+      "grad_norm": 4.616134166717529,
+      "learning_rate": 0.0001762,
+      "loss": 1.4308,
+      "step": 600
+    },
+    {
+      "epoch": 0.2158273381294964,
+      "eval_loss": 1.385414481163025,
+      "eval_runtime": 216.2088,
+      "eval_samples_per_second": 6.424,
+      "eval_steps_per_second": 0.805,
+      "step": 600
+    },
+    {
+      "epoch": 0.2517985611510791,
+      "grad_norm": 3.2131996154785156,
+      "learning_rate": 0.0001722,
+      "loss": 1.448,
+      "step": 700
+    },
+    {
+      "epoch": 0.2517985611510791,
+      "eval_loss": 1.3619259595870972,
+      "eval_runtime": 216.2284,
+      "eval_samples_per_second": 6.424,
+      "eval_steps_per_second": 0.805,
+      "step": 700
+    },
+    {
+      "epoch": 0.28776978417266186,
+      "grad_norm": 5.4527082443237305,
+      "learning_rate": 0.0001682,
+      "loss": 1.3746,
+      "step": 800
+    },
+    {
+      "epoch": 0.28776978417266186,
+      "eval_loss": 1.3138333559036255,
+      "eval_runtime": 216.2051,
+      "eval_samples_per_second": 6.424,
+      "eval_steps_per_second": 0.805,
+      "step": 800
+    },
+    {
+      "epoch": 0.3237410071942446,
+      "grad_norm": 7.845854759216309,
+      "learning_rate": 0.0001642,
+      "loss": 1.323,
+      "step": 900
+    },
+    {
+      "epoch": 0.3237410071942446,
+      "eval_loss": 1.3179031610488892,
+      "eval_runtime": 215.9832,
+      "eval_samples_per_second": 6.431,
+      "eval_steps_per_second": 0.806,
+      "step": 900
+    },
+    {
+      "epoch": 0.3597122302158273,
+      "grad_norm": 3.38904070854187,
+      "learning_rate": 0.00016020000000000002,
+      "loss": 1.2959,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3597122302158273,
+      "eval_loss": 1.2589664459228516,
+      "eval_runtime": 219.7485,
+      "eval_samples_per_second": 6.321,
+      "eval_steps_per_second": 0.792,
+      "step": 1000
+    },
+    {
+      "epoch": 0.39568345323741005,
+      "grad_norm": 4.801813125610352,
+      "learning_rate": 0.0001562,
+      "loss": 1.3535,
+      "step": 1100
+    },
+    {
+      "epoch": 0.39568345323741005,
+      "eval_loss": 1.27805757522583,
+      "eval_runtime": 219.8712,
+      "eval_samples_per_second": 6.317,
+      "eval_steps_per_second": 0.791,
+      "step": 1100
+    },
+    {
+      "epoch": 0.4316546762589928,
+      "grad_norm": 2.9837961196899414,
+      "learning_rate": 0.0001522,
+      "loss": 1.323,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4316546762589928,
+      "eval_loss": 1.2651783227920532,
+      "eval_runtime": 216.3596,
+      "eval_samples_per_second": 6.42,
+      "eval_steps_per_second": 0.804,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4676258992805755,
+      "grad_norm": 3.529353141784668,
+      "learning_rate": 0.0001482,
+      "loss": 1.1993,
+      "step": 1300
+    },
+    {
+      "epoch": 0.4676258992805755,
+      "eval_loss": 1.2643675804138184,
+      "eval_runtime": 216.7023,
+      "eval_samples_per_second": 6.41,
+      "eval_steps_per_second": 0.803,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5035971223021583,
+      "grad_norm": 3.2244620323181152,
+      "learning_rate": 0.0001442,
+      "loss": 1.2759,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5035971223021583,
+      "eval_loss": 1.2200113534927368,
+      "eval_runtime": 216.4189,
+      "eval_samples_per_second": 6.418,
+      "eval_steps_per_second": 0.804,
+      "step": 1400
+    },
+    {
+      "epoch": 0.539568345323741,
+      "grad_norm": 3.0878751277923584,
+      "learning_rate": 0.0001402,
+      "loss": 1.2437,
+      "step": 1500
+    },
+    {
+      "epoch": 0.539568345323741,
+      "eval_loss": 1.240950584411621,
+      "eval_runtime": 216.2682,
+      "eval_samples_per_second": 6.423,
+      "eval_steps_per_second": 0.805,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5755395683453237,
+      "grad_norm": 5.510771751403809,
+      "learning_rate": 0.0001362,
+      "loss": 1.3627,
+      "step": 1600
+    },
+    {
+      "epoch": 0.5755395683453237,
+      "eval_loss": 1.2363018989562988,
+      "eval_runtime": 216.0492,
+      "eval_samples_per_second": 6.429,
+      "eval_steps_per_second": 0.805,
+      "step": 1600
+    },
+    {
+      "epoch": 0.6115107913669064,
+      "grad_norm": 2.9638707637786865,
+      "learning_rate": 0.00013220000000000001,
+      "loss": 1.2345,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6115107913669064,
+      "eval_loss": 1.2406278848648071,
+      "eval_runtime": 217.09,
+      "eval_samples_per_second": 6.398,
+      "eval_steps_per_second": 0.802,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6474820143884892,
+      "grad_norm": 4.32392692565918,
+      "learning_rate": 0.0001282,
+      "loss": 1.2049,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6474820143884892,
+      "eval_loss": 1.2455447912216187,
+      "eval_runtime": 220.1078,
+      "eval_samples_per_second": 6.311,
+      "eval_steps_per_second": 0.791,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6834532374100719,
+      "grad_norm": 1.932246208190918,
+      "learning_rate": 0.0001242,
+      "loss": 1.1696,
+      "step": 1900
+    },
+    {
+      "epoch": 0.6834532374100719,
+      "eval_loss": 1.1982994079589844,
+      "eval_runtime": 220.061,
+      "eval_samples_per_second": 6.312,
+      "eval_steps_per_second": 0.791,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7194244604316546,
+      "grad_norm": 4.7478437423706055,
+      "learning_rate": 0.00012020000000000001,
+      "loss": 1.1938,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7194244604316546,
+      "eval_loss": 1.1961568593978882,
+      "eval_runtime": 216.2948,
+      "eval_samples_per_second": 6.422,
+      "eval_steps_per_second": 0.804,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7553956834532374,
+      "grad_norm": 2.9437406063079834,
+      "learning_rate": 0.00011619999999999999,
+      "loss": 1.2067,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7553956834532374,
+      "eval_loss": 1.2068990468978882,
+      "eval_runtime": 216.4166,
+      "eval_samples_per_second": 6.418,
+      "eval_steps_per_second": 0.804,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7913669064748201,
+      "grad_norm": 5.719799995422363,
+      "learning_rate": 0.00011220000000000002,
+      "loss": 1.2072,
+      "step": 2200
+    },
+    {
+      "epoch": 0.7913669064748201,
+      "eval_loss": 1.1652947664260864,
+      "eval_runtime": 216.0488,
+      "eval_samples_per_second": 6.429,
+      "eval_steps_per_second": 0.805,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8273381294964028,
+      "grad_norm": 4.13755464553833,
+      "learning_rate": 0.00010820000000000001,
+      "loss": 1.1811,
+      "step": 2300
+    },
+    {
+      "epoch": 0.8273381294964028,
+      "eval_loss": 1.1560161113739014,
+      "eval_runtime": 216.2429,
+      "eval_samples_per_second": 6.423,
+      "eval_steps_per_second": 0.805,
+      "step": 2300
+    },
+    {
+      "epoch": 0.8633093525179856,
+      "grad_norm": 4.176021575927734,
+      "learning_rate": 0.00010420000000000001,
+      "loss": 1.1771,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8633093525179856,
+      "eval_loss": 1.1574132442474365,
+      "eval_runtime": 216.2238,
+      "eval_samples_per_second": 6.424,
+      "eval_steps_per_second": 0.805,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8992805755395683,
+      "grad_norm": 3.724977970123291,
+      "learning_rate": 0.00010024,
+      "loss": 1.2159,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8992805755395683,
+      "eval_loss": 1.1301612854003906,
+      "eval_runtime": 219.0812,
+      "eval_samples_per_second": 6.34,
+      "eval_steps_per_second": 0.794,
+      "step": 2500
+    },
+    {
+      "epoch": 0.935251798561151,
+      "grad_norm": 4.331525802612305,
+      "learning_rate": 9.624000000000001e-05,
+      "loss": 1.2255,
+      "step": 2600
+    },
+    {
+      "epoch": 0.935251798561151,
+      "eval_loss": 1.1275829076766968,
+      "eval_runtime": 220.2427,
+      "eval_samples_per_second": 6.307,
+      "eval_steps_per_second": 0.79,
+      "step": 2600
+    },
+    {
+      "epoch": 0.9712230215827338,
+      "grad_norm": 4.840449810028076,
+      "learning_rate": 9.224e-05,
+      "loss": 1.1595,
+      "step": 2700
+    },
+    {
+      "epoch": 0.9712230215827338,
+      "eval_loss": 1.1190778017044067,
+      "eval_runtime": 217.1114,
+      "eval_samples_per_second": 6.398,
+      "eval_steps_per_second": 0.801,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0071942446043165,
+      "grad_norm": 2.545038938522339,
+      "learning_rate": 8.824e-05,
+      "loss": 1.0609,
+      "step": 2800
+    },
+    {
+      "epoch": 1.0071942446043165,
+      "eval_loss": 1.1439604759216309,
+      "eval_runtime": 216.3202,
+      "eval_samples_per_second": 6.421,
+      "eval_steps_per_second": 0.804,
+      "step": 2800
+    },
+    {
+      "epoch": 1.0431654676258992,
+      "grad_norm": 4.535717964172363,
+      "learning_rate": 8.424e-05,
+      "loss": 0.8581,
+      "step": 2900
+    },
+    {
+      "epoch": 1.0431654676258992,
+      "eval_loss": 1.1216832399368286,
+      "eval_runtime": 216.3244,
+      "eval_samples_per_second": 6.421,
+      "eval_steps_per_second": 0.804,
+      "step": 2900
+    },
+    {
+      "epoch": 1.079136690647482,
+      "grad_norm": 3.345541000366211,
+      "learning_rate": 8.024e-05,
+      "loss": 0.7543,
+      "step": 3000
+    },
+    {
+      "epoch": 1.079136690647482,
+      "eval_loss": 1.1441179513931274,
+      "eval_runtime": 216.8992,
+      "eval_samples_per_second": 6.404,
+      "eval_steps_per_second": 0.802,
+      "step": 3000
+    },
+    {
+      "epoch": 1.1151079136690647,
+      "grad_norm": 4.593157768249512,
+      "learning_rate": 7.624e-05,
+      "loss": 0.722,
+      "step": 3100
+    },
+    {
+      "epoch": 1.1151079136690647,
+      "eval_loss": 1.2050632238388062,
+      "eval_runtime": 216.9928,
+      "eval_samples_per_second": 6.401,
+      "eval_steps_per_second": 0.802,
+      "step": 3100
+    },
+    {
+      "epoch": 1.1510791366906474,
+      "grad_norm": 6.413944244384766,
+      "learning_rate": 7.224000000000001e-05,
+      "loss": 0.8001,
+      "step": 3200
+    },
+    {
+      "epoch": 1.1510791366906474,
+      "eval_loss": 1.1092898845672607,
+      "eval_runtime": 216.7661,
+      "eval_samples_per_second": 6.408,
+      "eval_steps_per_second": 0.803,
+      "step": 3200
+    },
+    {
+      "epoch": 1.1870503597122302,
+      "grad_norm": 4.497458457946777,
+      "learning_rate": 6.824e-05,
+      "loss": 0.781,
+      "step": 3300
+    },
+    {
+      "epoch": 1.1870503597122302,
+      "eval_loss": 1.1409687995910645,
+      "eval_runtime": 220.367,
+      "eval_samples_per_second": 6.303,
+      "eval_steps_per_second": 0.79,
+      "step": 3300
+    },
+    {
+      "epoch": 1.223021582733813,
+      "grad_norm": 3.1842594146728516,
+      "learning_rate": 6.424e-05,
+      "loss": 0.7732,
+      "step": 3400
+    },
+    {
+      "epoch": 1.223021582733813,
+      "eval_loss": 1.128267526626587,
+      "eval_runtime": 220.6857,
+      "eval_samples_per_second": 6.294,
+      "eval_steps_per_second": 0.788,
+      "step": 3400
+    },
+    {
+      "epoch": 1.2589928057553956,
+      "grad_norm": 4.475135803222656,
+      "learning_rate": 6.0240000000000006e-05,
+      "loss": 0.7355,
+      "step": 3500
+    },
+    {
+      "epoch": 1.2589928057553956,
+      "eval_loss": 1.1131974458694458,
+      "eval_runtime": 216.6414,
+      "eval_samples_per_second": 6.412,
+      "eval_steps_per_second": 0.803,
+      "step": 3500
+    },
+    {
+      "epoch": 1.2949640287769784,
+      "grad_norm": 3.1941635608673096,
+      "learning_rate": 5.6240000000000004e-05,
+      "loss": 0.7593,
+      "step": 3600
+    },
+    {
+      "epoch": 1.2949640287769784,
+      "eval_loss": 1.1036189794540405,
+      "eval_runtime": 216.9893,
+      "eval_samples_per_second": 6.401,
+      "eval_steps_per_second": 0.802,
+      "step": 3600
+    },
+    {
+      "epoch": 1.330935251798561,
+      "grad_norm": 4.099954128265381,
+      "learning_rate": 5.224e-05,
+      "loss": 0.7558,
+      "step": 3700
+    },
+    {
+      "epoch": 1.330935251798561,
+      "eval_loss": 1.1037858724594116,
+      "eval_runtime": 216.7559,
+      "eval_samples_per_second": 6.408,
+      "eval_steps_per_second": 0.803,
+      "step": 3700
+    },
+    {
+      "epoch": 1.3669064748201438,
+      "grad_norm": 5.274450778961182,
+      "learning_rate": 4.824e-05,
+      "loss": 0.7428,
+      "step": 3800
+    },
+    {
+      "epoch": 1.3669064748201438,
+      "eval_loss": 1.1093668937683105,
+      "eval_runtime": 216.6459,
+      "eval_samples_per_second": 6.411,
+      "eval_steps_per_second": 0.803,
+      "step": 3800
+    },
+    {
+      "epoch": 1.4028776978417266,
+      "grad_norm": 5.278382301330566,
+      "learning_rate": 4.424e-05,
+      "loss": 0.7329,
+      "step": 3900
+    },
+    {
+      "epoch": 1.4028776978417266,
+      "eval_loss": 1.0927892923355103,
+      "eval_runtime": 216.7414,
+      "eval_samples_per_second": 6.409,
+      "eval_steps_per_second": 0.803,
+      "step": 3900
+    },
+    {
+      "epoch": 1.4388489208633093,
+      "grad_norm": 5.485278606414795,
+      "learning_rate": 4.024e-05,
+      "loss": 0.703,
+      "step": 4000
+    },
+    {
+      "epoch": 1.4388489208633093,
+      "eval_loss": 1.093366026878357,
+      "eval_runtime": 218.3096,
+      "eval_samples_per_second": 6.363,
+      "eval_steps_per_second": 0.797,
+      "step": 4000
+    },
+    {
+      "epoch": 1.474820143884892,
+      "grad_norm": 4.6593241691589355,
+      "learning_rate": 3.624e-05,
+      "loss": 0.7529,
+      "step": 4100
+    },
+    {
+      "epoch": 1.474820143884892,
+      "eval_loss": 1.0526800155639648,
+      "eval_runtime": 221.2373,
+      "eval_samples_per_second": 6.278,
+      "eval_steps_per_second": 0.786,
+      "step": 4100
+    },
+    {
+      "epoch": 1.5107913669064748,
+      "grad_norm": 4.241304397583008,
+      "learning_rate": 3.224e-05,
+      "loss": 0.7509,
+      "step": 4200
+    },
+    {
+      "epoch": 1.5107913669064748,
+      "eval_loss": 1.0518856048583984,
+      "eval_runtime": 218.2567,
+      "eval_samples_per_second": 6.364,
+      "eval_steps_per_second": 0.797,
+      "step": 4200
+    },
+    {
+      "epoch": 1.5467625899280577,
+      "grad_norm": 3.498211622238159,
+      "learning_rate": 2.824e-05,
+      "loss": 0.7043,
+      "step": 4300
+    },
+    {
+      "epoch": 1.5467625899280577,
+      "eval_loss": 1.0490930080413818,
+      "eval_runtime": 216.8759,
+      "eval_samples_per_second": 6.405,
+      "eval_steps_per_second": 0.802,
+      "step": 4300
+    },
+    {
+      "epoch": 1.5827338129496402,
+      "grad_norm": 5.114346504211426,
+      "learning_rate": 2.4240000000000002e-05,
+      "loss": 0.741,
+      "step": 4400
+    },
+    {
+      "epoch": 1.5827338129496402,
+      "eval_loss": 1.0419996976852417,
+      "eval_runtime": 217.6752,
+      "eval_samples_per_second": 6.381,
+      "eval_steps_per_second": 0.799,
+      "step": 4400
+    },
+    {
+      "epoch": 1.6187050359712232,
+      "grad_norm": 6.213000297546387,
+      "learning_rate": 2.024e-05,
+      "loss": 0.6748,
+      "step": 4500
+    },
+    {
+      "epoch": 1.6187050359712232,
+      "eval_loss": 1.054345726966858,
+      "eval_runtime": 217.4038,
+      "eval_samples_per_second": 6.389,
+      "eval_steps_per_second": 0.8,
+      "step": 4500
+    },
+    {
+      "epoch": 1.6546762589928057,
+      "grad_norm": 4.790684700012207,
+      "learning_rate": 1.624e-05,
+      "loss": 0.6161,
+      "step": 4600
+    },
+    {
+      "epoch": 1.6546762589928057,
+      "eval_loss": 1.050432562828064,
+      "eval_runtime": 217.7263,
+      "eval_samples_per_second": 6.38,
+      "eval_steps_per_second": 0.799,
+      "step": 4600
+    },
+    {
+      "epoch": 1.6906474820143886,
+      "grad_norm": 3.735363483428955,
+      "learning_rate": 1.224e-05,
+      "loss": 0.6545,
+      "step": 4700
+    },
+    {
+      "epoch": 1.6906474820143886,
+      "eval_loss": 1.0342308282852173,
+      "eval_runtime": 218.4846,
+      "eval_samples_per_second": 6.357,
+      "eval_steps_per_second": 0.796,
+      "step": 4700
+    },
+    {
+      "epoch": 1.7266187050359711,
+      "grad_norm": 7.324685573577881,
+      "learning_rate": 8.24e-06,
+      "loss": 0.6811,
+      "step": 4800
+    },
+    {
+      "epoch": 1.7266187050359711,
+      "eval_loss": 1.0260616540908813,
+      "eval_runtime": 220.9578,
+      "eval_samples_per_second": 6.286,
+      "eval_steps_per_second": 0.787,
+      "step": 4800
+    },
+    {
+      "epoch": 1.762589928057554,
+      "grad_norm": 8.569375038146973,
+      "learning_rate": 4.24e-06,
+      "loss": 0.6596,
+      "step": 4900
+    },
+    {
+      "epoch": 1.762589928057554,
+      "eval_loss": 1.0225062370300293,
+      "eval_runtime": 221.0738,
+      "eval_samples_per_second": 6.283,
+      "eval_steps_per_second": 0.787,
+      "step": 4900
+    },
+    {
+      "epoch": 1.7985611510791366,
+      "grad_norm": 5.594555377960205,
+      "learning_rate": 2.4e-07,
+      "loss": 0.6875,
+      "step": 5000
+    },
+    {
+      "epoch": 1.7985611510791366,
+      "eval_loss": 1.017230749130249,
+      "eval_runtime": 217.5896,
+      "eval_samples_per_second": 6.384,
+      "eval_steps_per_second": 0.8,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.304695050327654e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6ea103261f2a293397d9d36376081c32b39e3756161fc4a4ec9d95f0984df88
+size 5368