init

Browse files

Files changed (10) hide show

.gitattributes +3 -0
49e6dc219d1a1a1c9236acaf05a48b542002016a6dc877ee72baab085a84257b.3f28e7f4b38e1efe1b6da4a3732404c19d4c6a614ff32dce90a251e293d4ce58 +3 -0
README.md +54 -0
all_results.json +8 -0
config.json +43 -0
pytorch_model.bin +3 -0
text_renderer_config.json +239 -0
train_results.json +8 -0
trainer_state.json +481 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+training_args.bin filter=lfs diff=lfs merge=lfs -text
+49e6dc219d1a1a1c9236acaf05a48b542002016a6dc877ee72baab085a84257b.3f28e7f4b38e1efe1b6da4a3732404c19d4c6a614ff32dce90a251e293d4ce58 filter=lfs diff=lfs merge=lfs -text

49e6dc219d1a1a1c9236acaf05a48b542002016a6dc877ee72baab085a84257b.3f28e7f4b38e1efe1b6da4a3732404c19d4c6a614ff32dce90a251e293d4ce58 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83ab5c39e2b1c34a955136275ce0db068cb20d9643ead033d6b8124a73ab4f64
+size 15645492

README.md ADDED Viewed

	@@ -0,0 +1,54 @@

+---
+license: apache-2.0
+tags:
+- generated_from_trainer
+datasets:
+- unsup-wa
+model-index:
+- name: contrastive-unsup-wa-pixel-base-mean-144-128-1-3e-6-7600-42-eval
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# contrastive-unsup-wa-pixel-base-mean-144-128-1-3e-6-7600-42-eval
+This model is a fine-tuned version of [Team-PIXEL/pixel-base](https://huggingface.co/Team-PIXEL/pixel-base) on the UNSUP-WA dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-06
+- train_batch_size: 128
+- eval_batch_size: 16
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 500
+- training_steps: 7600
+### Training results
+### Framework versions
+- Transformers 4.17.0
+- Pytorch 1.11.0
+- Datasets 2.14.7.dev0
+- Tokenizers 0.14.1

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 9.01661115451863,
+    "train_runtime": 6539.5962,
+    "train_samples": 974010,
+    "train_samples_per_second": 148.755,
+    "train_steps_per_second": 1.162
+}

config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "Team-PIXEL/pixel-base",
+  "architectures": [
+    "PIXELForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "decoder_hidden_size": 512,
+  "decoder_intermediate_size": 2048,
+  "decoder_num_attention_heads": 16,
+  "decoder_num_hidden_layers": 8,
+  "finetuning_task": "unsup-wa",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Entailment",
+    "1": "Neutral",
+    "2": "Contradiction"
+  },
+  "image_size": [
+    16,
+    2304
+  ],
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "interpolate_pos_encoding": false,
+  "label2id": {
+    "Contradiction": 2,
+    "Entailment": 0,
+    "Neutral": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "mask_ratio": 0.25,
+  "model_type": "pixel",
+  "norm_pix_loss": true,
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.17.0"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8fceceec8a38b07c86d26956fd6872546853d0aa33ee01bbea332c98d7deee5
+size 345484205

text_renderer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "background_color": "white",
+  "dpi": 120,
+  "font_color": "black",
+  "font_file": "49e6dc219d1a1a1c9236acaf05a48b542002016a6dc877ee72baab085a84257b.3f28e7f4b38e1efe1b6da4a3732404c19d4c6a614ff32dce90a251e293d4ce58",
+  "font_size": 8,
+  "fonts_list": [
+    "Apple Color Emoji",
+    "C059",
+    "D050000L",
+    "DejaVu Math TeX Gyre",
+    "DejaVu Sans",
+    "DejaVu Sans Mono",
+    "DejaVu Serif",
+    "Droid Sans Fallback",
+    "Go Noto Current",
+    "Inconsolata",
+    "Monospace",
+    "Nimbus Mono PS",
+    "Nimbus Roman",
+    "Nimbus Sans",
+    "Nimbus Sans Narrow",
+    "Noto Fangsong KSS Rotated",
+    "Noto Fangsong KSS Vertical",
+    "Noto Kufi Arabic",
+    "Noto Mono",
+    "Noto Music",
+    "Noto Naskh Arabic",
+    "Noto Naskh Arabic UI",
+    "Noto Nastaliq Urdu",
+    "Noto Rashi Hebrew",
+    "Noto Sans",
+    "Noto Sans Adlam",
+    "Noto Sans Adlam Unjoined",
+    "Noto Sans Anatolian Hieroglyphs",
+    "Noto Sans Arabic",
+    "Noto Sans Arabic UI",
+    "Noto Sans Armenian",
+    "Noto Sans Avestan",
+    "Noto Sans Balinese",
+    "Noto Sans Bamum",
+    "Noto Sans Bassa Vah",
+    "Noto Sans Batak",
+    "Noto Sans Bengali",
+    "Noto Sans Bengali UI",
+    "Noto Sans Bhaiksuki",
+    "Noto Sans Brahmi",
+    "Noto Sans Buginese",
+    "Noto Sans Buhid",
+    "Noto Sans CJK HK",
+    "Noto Sans CJK JP",
+    "Noto Sans CJK KR",
+    "Noto Sans CJK SC",
+    "Noto Sans CJK TC",
+    "Noto Sans Canadian Aboriginal",
+    "Noto Sans Carian",
+    "Noto Sans Caucasian Albanian",
+    "Noto Sans Chakma",
+    "Noto Sans Cham",
+    "Noto Sans Cherokee",
+    "Noto Sans Chorasmian",
+    "Noto Sans Coptic",
+    "Noto Sans Cuneiform",
+    "Noto Sans Cypriot",
+    "Noto Sans Cypro Minoan",
+    "Noto Sans Deseret",
+    "Noto Sans Devanagari",
+    "Noto Sans Devanagari UI",
+    "Noto Sans Duployan",
+    "Noto Sans Egyptian Hieroglyphs",
+    "Noto Sans Elbasan",
+    "Noto Sans Elymaic",
+    "Noto Sans Ethiopic",
+    "Noto Sans Georgian",
+    "Noto Sans Glagolitic",
+    "Noto Sans Gothic",
+    "Noto Sans Grantha",
+    "Noto Sans Gujarati",
+    "Noto Sans Gujarati UI",
+    "Noto Sans Gunjala Gondi",
+    "Noto Sans Gurmukhi",
+    "Noto Sans Gurmukhi UI",
+    "Noto Sans Hanifi Rohingya",
+    "Noto Sans Hanunoo",
+    "Noto Sans Hatran",
+    "Noto Sans Hebrew",
+    "Noto Sans Hebrew Droid",
+    "Noto Sans Imperial Aramaic",
+    "Noto Sans Indic Siyaq Numbers",
+    "Noto Sans Inscriptional Pahlavi",
+    "Noto Sans Inscriptional Parthian",
+    "Noto Sans Javanese",
+    "Noto Sans Kaithi",
+    "Noto Sans Kannada",
+    "Noto Sans Kannada UI",
+    "Noto Sans Kawi",
+    "Noto Sans Kayah Li",
+    "Noto Sans Kharoshthi",
+    "Noto Sans Khmer",
+    "Noto Sans Khmer UI",
+    "Noto Sans Khojki",
+    "Noto Sans Khudawadi",
+    "Noto Sans Lao",
+    "Noto Sans Lao Looped",
+    "Noto Sans Lao Looped UI",
+    "Noto Sans Lao UI",
+    "Noto Sans Lepcha",
+    "Noto Sans Limbu",
+    "Noto Sans Linear A",
+    "Noto Sans Linear B",
+    "Noto Sans Lisu",
+    "Noto Sans Lycian",
+    "Noto Sans Lydian",
+    "Noto Sans Mahajani",
+    "Noto Sans Malayalam",
+    "Noto Sans Malayalam UI",
+    "Noto Sans Mandaic",
+    "Noto Sans Manichaean",
+    "Noto Sans Marchen",
+    "Noto Sans Masaram Gondi",
+    "Noto Sans Math",
+    "Noto Sans Mayan Numerals",
+    "Noto Sans Medefaidrin",
+    "Noto Sans Meetei Mayek",
+    "Noto Sans Mende Kikakui",
+    "Noto Sans Meroitic",
+    "Noto Sans Miao",
+    "Noto Sans Modi",
+    "Noto Sans Mongolian",
+    "Noto Sans Mono",
+    "Noto Sans Mro",
+    "Noto Sans Multani",
+    "Noto Sans Myanmar",
+    "Noto Sans Myanmar UI",
+    "Noto Sans NKo",
+    "Noto Sans NKo Unjoined",
+    "Noto Sans Nabataean",
+    "Noto Sans Nag Mundari",
+    "Noto Sans Nandinagari",
+    "Noto Sans New Tai Lue",
+    "Noto Sans Newa",
+    "Noto Sans Nushu",
+    "Noto Sans Ogham",
+    "Noto Sans Ol Chiki",
+    "Noto Sans Old Hungarian",
+    "Noto Sans Old Italic",
+    "Noto Sans Old North Arabian",
+    "Noto Sans Old Permic",
+    "Noto Sans Old Persian",
+    "Noto Sans Old Sogdian",
+    "Noto Sans Old South Arabian",
+    "Noto Sans Old Turkic",
+    "Noto Sans Oriya",
+    "Noto Sans Osage",
+    "Noto Sans Osmanya",
+    "Noto Sans Pahawh Hmong",
+    "Noto Sans Palmyrene",
+    "Noto Sans Pau Cin Hau",
+    "Noto Sans Phags-Pa",
+    "Noto Sans Phoenician",
+    "Noto Sans Psalter Pahlavi",
+    "Noto Sans Rejang",
+    "Noto Sans Runic",
+    "Noto Sans Samaritan",
+    "Noto Sans Saurashtra",
+    "Noto Sans Sharada",
+    "Noto Sans Shavian",
+    "Noto Sans Siddham",
+    "Noto Sans SignWriting",
+    "Noto Sans Sinhala",
+    "Noto Sans Sinhala UI",
+    "Noto Sans Sogdian",
+    "Noto Sans Sora Sompeng",
+    "Noto Sans Soyombo",
+    "Noto Sans Sundanese",
+    "Noto Sans Syloti Nagri",
+    "Noto Sans Symbols",
+    "Noto Sans Symbols 2",
+    "Noto Sans Syriac",
+    "Noto Sans Syriac Eastern",
+    "Noto Sans Syriac Western",
+    "Noto Sans Tagalog",
+    "Noto Sans Tagbanwa",
+    "Noto Sans Tai Le",
+    "Noto Sans Tai Tham",
+    "Noto Sans Tai Viet",
+    "Noto Sans Takri",
+    "Noto Sans Tamil",
+    "Noto Sans Tamil Supplement",
+    "Noto Sans Tamil UI",
+    "Noto Sans Tangsa",
+    "Noto Sans Telugu",
+    "Noto Sans Telugu UI",
+    "Noto Sans Test",
+    "Noto Sans Thaana",
+    "Noto Sans Thai",
+    "Noto Sans Thai Looped",
+    "Noto Sans Thai Looped UI",
+    "Noto Sans Thai UI",
+    "Noto Sans Tifinagh",
+    "Noto Sans Tifinagh APT",
+    "Noto Sans Tifinagh Adrar",
+    "Noto Sans Tifinagh Agraw Imazighen",
+    "Noto Sans Tifinagh Ahaggar",
+    "Noto Sans Tifinagh Air",
+    "Noto Sans Tifinagh Azawagh",
+    "Noto Sans Tifinagh Ghat",
+    "Noto Sans Tifinagh Hawad",
+    "Noto Sans Tifinagh Rhissa Ixa",
+    "Noto Sans Tifinagh SIL",
+    "Noto Sans Tifinagh Tawellemmet",
+    "Noto Sans Tirhuta",
+    "Noto Sans Ugaritic",
+    "Noto Sans Vai",
+    "Noto Sans Vithkuqi",
+    "Noto Sans Wancho",
+    "Noto Sans Warang Citi",
+    "Noto Sans Yi",
+    "Noto Sans Zanabazar Square",
+    "Noto Traditional Nushu",
+    "P052",
+    "Sans",
+    "Serif",
+    "Source Code Pro",
+    "Standard Symbols PS",
+    "System-ui",
+    "URW Bookman",
+    "URW Gothic",
+    "Ubuntu",
+    "Ubuntu Condensed",
+    "Ubuntu Mono",
+    "Z003"
+  ],
+  "max_seq_length": 144,
+  "pad_size": 3,
+  "pixels_per_patch": 16,
+  "rgb": false,
+  "text_renderer_type": "PangoCairoTextRenderer"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 9.01661115451863,
+    "train_runtime": 6539.5962,
+    "train_samples": 974010,
+    "train_samples_per_second": 148.755,
+    "train_steps_per_second": 1.162
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,481 @@

+{
+  "best_metric": 0.5419495570900291,
+  "best_model_checkpoint": "contrastive-unsup-wa-pixel-base-mean-144-128-1-3e-6-7600-42-eval/checkpoint-4000",
+  "epoch": 0.9986859395532195,
+  "global_step": 7600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 309.9982,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 152.7682,
+      "step": 200
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.8e-06,
+      "loss": 94.7644,
+      "step": 300
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 65.948,
+      "step": 400
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3e-06,
+      "loss": 32.1197,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.9577464788732396e-06,
+      "loss": 9.3367,
+      "step": 600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.915492957746479e-06,
+      "loss": 3.4311,
+      "step": 700
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.8732394366197183e-06,
+      "loss": 1.9124,
+      "step": 800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.830985915492958e-06,
+      "loss": 1.4467,
+      "step": 900
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.7887323943661974e-06,
+      "loss": 1.1839,
+      "step": 1000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.7464788732394365e-06,
+      "loss": 0.7436,
+      "step": 1100
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.704225352112676e-06,
+      "loss": 0.5545,
+      "step": 1200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.6619718309859156e-06,
+      "loss": 0.5105,
+      "step": 1300
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.6197183098591547e-06,
+      "loss": 0.4103,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.5774647887323943e-06,
+      "loss": 0.5727,
+      "step": 1500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.535211267605634e-06,
+      "loss": 0.3979,
+      "step": 1600
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.4929577464788734e-06,
+      "loss": 0.2269,
+      "step": 1700
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.450704225352113e-06,
+      "loss": 0.3027,
+      "step": 1800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.4084507042253525e-06,
+      "loss": 0.3208,
+      "step": 1900
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.3661971830985916e-06,
+      "loss": 0.3157,
+      "step": 2000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.3239436619718307e-06,
+      "loss": 0.3633,
+      "step": 2100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.2816901408450703e-06,
+      "loss": 0.3896,
+      "step": 2200
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.23943661971831e-06,
+      "loss": 0.2854,
+      "step": 2300
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.1971830985915494e-06,
+      "loss": 0.1931,
+      "step": 2400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 2.154929577464789e-06,
+      "loss": 0.2579,
+      "step": 2500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 2.112676056338028e-06,
+      "loss": 0.3144,
+      "step": 2600
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 2.0704225352112676e-06,
+      "loss": 0.1431,
+      "step": 2700
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 2.028169014084507e-06,
+      "loss": 0.14,
+      "step": 2800
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.9859154929577467e-06,
+      "loss": 0.1294,
+      "step": 2900
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.943661971830986e-06,
+      "loss": 0.1618,
+      "step": 3000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.9014084507042256e-06,
+      "loss": 0.1618,
+      "step": 3100
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1.8591549295774647e-06,
+      "loss": 0.2812,
+      "step": 3200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.8169014084507043e-06,
+      "loss": 0.153,
+      "step": 3300
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 1.7746478873239436e-06,
+      "loss": 0.1235,
+      "step": 3400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.7323943661971832e-06,
+      "loss": 0.1309,
+      "step": 3500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.6901408450704227e-06,
+      "loss": 0.1697,
+      "step": 3600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.6478873239436623e-06,
+      "loss": 0.089,
+      "step": 3700
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 1.6056338028169014e-06,
+      "loss": 0.2197,
+      "step": 3800
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.5633802816901407e-06,
+      "loss": 0.1012,
+      "step": 3900
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.5211267605633803e-06,
+      "loss": 0.1581,
+      "step": 4000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 1.4788732394366198e-06,
+      "loss": 0.1901,
+      "step": 4100
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.4366197183098591e-06,
+      "loss": 0.147,
+      "step": 4200
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.3943661971830987e-06,
+      "loss": 0.1653,
+      "step": 4300
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 1.352112676056338e-06,
+      "loss": 0.1969,
+      "step": 4400
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.3098591549295774e-06,
+      "loss": 0.0986,
+      "step": 4500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.267605633802817e-06,
+      "loss": 0.2163,
+      "step": 4600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.2253521126760565e-06,
+      "loss": 0.1067,
+      "step": 4700
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.1830985915492958e-06,
+      "loss": 0.1541,
+      "step": 4800
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.1408450704225351e-06,
+      "loss": 0.0728,
+      "step": 4900
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.0985915492957747e-06,
+      "loss": 0.108,
+      "step": 5000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.056338028169014e-06,
+      "loss": 0.0921,
+      "step": 5100
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.0140845070422536e-06,
+      "loss": 0.123,
+      "step": 5200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 9.71830985915493e-07,
+      "loss": 0.1069,
+      "step": 5300
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 9.295774647887324e-07,
+      "loss": 0.0805,
+      "step": 5400
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 8.873239436619718e-07,
+      "loss": 0.0945,
+      "step": 5500
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.450704225352114e-07,
+      "loss": 0.0482,
+      "step": 5600
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 8.028169014084507e-07,
+      "loss": 0.1127,
+      "step": 5700
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.605633802816901e-07,
+      "loss": 0.1575,
+      "step": 5800
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.183098591549296e-07,
+      "loss": 0.049,
+      "step": 5900
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.76056338028169e-07,
+      "loss": 0.2855,
+      "step": 6000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.338028169014085e-07,
+      "loss": 0.0981,
+      "step": 6100
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.915492957746479e-07,
+      "loss": 0.1153,
+      "step": 6200
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 5.492957746478873e-07,
+      "loss": 0.0609,
+      "step": 6300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 5.070422535211268e-07,
+      "loss": 0.0947,
+      "step": 6400
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.647887323943662e-07,
+      "loss": 0.1341,
+      "step": 6500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.225352112676057e-07,
+      "loss": 0.0671,
+      "step": 6600
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.8028169014084507e-07,
+      "loss": 0.0562,
+      "step": 6700
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 3.380281690140845e-07,
+      "loss": 0.0458,
+      "step": 6800
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 2.9577464788732395e-07,
+      "loss": 0.1004,
+      "step": 6900
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 2.535211267605634e-07,
+      "loss": 0.1002,
+      "step": 7000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.1126760563380284e-07,
+      "loss": 0.1358,
+      "step": 7100
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.6901408450704225e-07,
+      "loss": 0.0552,
+      "step": 7200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.267605633802817e-07,
+      "loss": 0.1119,
+      "step": 7300
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 8.450704225352113e-08,
+      "loss": 0.0691,
+      "step": 7400
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.2253521126760564e-08,
+      "loss": 0.068,
+      "step": 7500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 0.1132,
+      "step": 7600
+    },
+    {
+      "epoch": 1.0,
+      "step": 7600,
+      "total_flos": 504012629606400.0,
+      "train_loss": 9.01661115451863,
+      "train_runtime": 6539.5962,
+      "train_samples_per_second": 148.755,
+      "train_steps_per_second": 1.162
+    }
+  ],
+  "max_steps": 7600,
+  "num_train_epochs": 1,
+  "total_flos": 504012629606400.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:032049f10a3f5e9c1d1d23b3aae11447c5b645b8ab4c033dafde3ec6adb57c03
+size 3247