Chua, Vui Seng commited on Nov 11, 2021

Commit

7e13174

•

1 Parent(s): e714bb8

Initial model commit

Browse files

Files changed (18) hide show

.gitattributes +1 -0
all_results.json +11 -0
compressed_graph.dot +0 -0
config.json +25 -0
eval_results.json +6 -0
linear_layer_sparse_stats_total_30M_65.1_relative_sparsity.csv +73 -0
nncf_bert_config_squad_mvnt_pruning-distill-run9.json +31 -0
original_graph.dot +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tf_eval_results.json +4 -0
tf_model.h5 +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
train_results.json +8 -0
trainer_state.json +3 -0
training_args.bin +3 -0
vocab.txt +0 -0

.gitattributes CHANGED Viewed

@@ -25,3 +25,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*trainer_state.json filter=lfs diff=lfs merge=lfs -text

all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_exact_match": 80.51087984862819,
+    "eval_f1": 87.99746814985123,
+    "eval_samples": 10784,
+    "train_loss": 15.741395791878693,
+    "train_runtime": 55394.6042,
+    "train_samples": 88524,
+    "train_samples_per_second": 15.981,
+    "train_steps_per_second": 0.999
+}

compressed_graph.dot ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "NNCFNetwork"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.9.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+    "epoch": 10.0,
+    "eval_exact_match": 80.51087984862819,
+    "eval_f1": 87.99746814985123,
+    "eval_samples": 10784
+}

linear_layer_sparse_stats_total_30M_65.1_relative_sparsity.csv ADDED Viewed

	@@ -0,0 +1,73 @@

+,linear_id,shape,param_count,nnz_count
+0,bert.encoder.layer.0.attention.self.query,"[768, 768]",589824,36266
+1,bert.encoder.layer.0.attention.self.key,"[768, 768]",589824,28736
+2,bert.encoder.layer.0.attention.self.value,"[768, 768]",589824,62217
+3,bert.encoder.layer.0.attention.output.dense,"[768, 768]",589824,80877
+4,bert.encoder.layer.0.intermediate.dense,"[3072, 768]",2359296,1391950
+5,bert.encoder.layer.0.output.dense,"[768, 3072]",2359296,1304418
+6,bert.encoder.layer.1.attention.self.query,"[768, 768]",589824,88856
+7,bert.encoder.layer.1.attention.self.key,"[768, 768]",589824,80852
+8,bert.encoder.layer.1.attention.self.value,"[768, 768]",589824,89520
+9,bert.encoder.layer.1.attention.output.dense,"[768, 768]",589824,99229
+10,bert.encoder.layer.1.intermediate.dense,"[3072, 768]",2359296,1448241
+11,bert.encoder.layer.1.output.dense,"[768, 3072]",2359296,1298451
+12,bert.encoder.layer.2.attention.self.query,"[768, 768]",589824,111820
+13,bert.encoder.layer.2.attention.self.key,"[768, 768]",589824,105781
+14,bert.encoder.layer.2.attention.self.value,"[768, 768]",589824,107982
+15,bert.encoder.layer.2.attention.output.dense,"[768, 768]",589824,107182
+16,bert.encoder.layer.2.intermediate.dense,"[3072, 768]",2359296,1478488
+17,bert.encoder.layer.2.output.dense,"[768, 3072]",2359296,1324632
+18,bert.encoder.layer.3.attention.self.query,"[768, 768]",589824,119244
+19,bert.encoder.layer.3.attention.self.key,"[768, 768]",589824,121415
+20,bert.encoder.layer.3.attention.self.value,"[768, 768]",589824,144196
+21,bert.encoder.layer.3.attention.output.dense,"[768, 768]",589824,141057
+22,bert.encoder.layer.3.intermediate.dense,"[3072, 768]",2359296,1477159
+23,bert.encoder.layer.3.output.dense,"[768, 3072]",2359296,1308149
+24,bert.encoder.layer.4.attention.self.query,"[768, 768]",589824,116629
+25,bert.encoder.layer.4.attention.self.key,"[768, 768]",589824,115443
+26,bert.encoder.layer.4.attention.self.value,"[768, 768]",589824,153857
+27,bert.encoder.layer.4.attention.output.dense,"[768, 768]",589824,153726
+28,bert.encoder.layer.4.intermediate.dense,"[3072, 768]",2359296,1467353
+29,bert.encoder.layer.4.output.dense,"[768, 3072]",2359296,1275091
+30,bert.encoder.layer.5.attention.self.query,"[768, 768]",589824,99164
+31,bert.encoder.layer.5.attention.self.key,"[768, 768]",589824,106720
+32,bert.encoder.layer.5.attention.self.value,"[768, 768]",589824,151873
+33,bert.encoder.layer.5.attention.output.dense,"[768, 768]",589824,146952
+34,bert.encoder.layer.5.intermediate.dense,"[3072, 768]",2359296,1483651
+35,bert.encoder.layer.5.output.dense,"[768, 3072]",2359296,1268211
+36,bert.encoder.layer.6.attention.self.query,"[768, 768]",589824,99027
+37,bert.encoder.layer.6.attention.self.key,"[768, 768]",589824,108498
+38,bert.encoder.layer.6.attention.self.value,"[768, 768]",589824,151369
+39,bert.encoder.layer.6.attention.output.dense,"[768, 768]",589824,138662
+40,bert.encoder.layer.6.intermediate.dense,"[3072, 768]",2359296,1413626
+41,bert.encoder.layer.6.output.dense,"[768, 3072]",2359296,1178877
+42,bert.encoder.layer.7.attention.self.query,"[768, 768]",589824,72908
+43,bert.encoder.layer.7.attention.self.key,"[768, 768]",589824,87122
+44,bert.encoder.layer.7.attention.self.value,"[768, 768]",589824,134079
+45,bert.encoder.layer.7.attention.output.dense,"[768, 768]",589824,117207
+46,bert.encoder.layer.7.intermediate.dense,"[3072, 768]",2359296,1240812
+47,bert.encoder.layer.7.output.dense,"[768, 3072]",2359296,1039716
+48,bert.encoder.layer.8.attention.self.query,"[768, 768]",589824,87546
+49,bert.encoder.layer.8.attention.self.key,"[768, 768]",589824,95542
+50,bert.encoder.layer.8.attention.self.value,"[768, 768]",589824,147149
+51,bert.encoder.layer.8.attention.output.dense,"[768, 768]",589824,121221
+52,bert.encoder.layer.8.intermediate.dense,"[3072, 768]",2359296,991806
+53,bert.encoder.layer.8.output.dense,"[768, 3072]",2359296,805916
+54,bert.encoder.layer.9.attention.self.query,"[768, 768]",589824,94420
+55,bert.encoder.layer.9.attention.self.key,"[768, 768]",589824,95694
+56,bert.encoder.layer.9.attention.self.value,"[768, 768]",589824,58481
+57,bert.encoder.layer.9.attention.output.dense,"[768, 768]",589824,46748
+58,bert.encoder.layer.9.intermediate.dense,"[3072, 768]",2359296,550773
+59,bert.encoder.layer.9.output.dense,"[768, 3072]",2359296,425540
+60,bert.encoder.layer.10.attention.self.query,"[768, 768]",589824,62325
+61,bert.encoder.layer.10.attention.self.key,"[768, 768]",589824,64069
+62,bert.encoder.layer.10.attention.self.value,"[768, 768]",589824,31075
+63,bert.encoder.layer.10.attention.output.dense,"[768, 768]",589824,22579
+64,bert.encoder.layer.10.intermediate.dense,"[3072, 768]",2359296,361008
+65,bert.encoder.layer.10.output.dense,"[768, 3072]",2359296,240192
+66,bert.encoder.layer.11.attention.self.query,"[768, 768]",589824,20394
+67,bert.encoder.layer.11.attention.self.key,"[768, 768]",589824,25082
+68,bert.encoder.layer.11.attention.self.value,"[768, 768]",589824,14505
+69,bert.encoder.layer.11.attention.output.dense,"[768, 768]",589824,6766
+70,bert.encoder.layer.11.intermediate.dense,"[3072, 768]",2359296,296386
+71,bert.encoder.layer.11.output.dense,"[768, 3072]",2359296,119879

nncf_bert_config_squad_mvnt_pruning-distill-run9.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "input_info": [
+        {
+            "sample_size": [1, 384],
+            "type": "long"
+        },
+        {
+            "sample_size": [1, 384],
+            "type": "long"
+        },
+        {
+            "sample_size": [1, 384],
+            "type": "long"
+        }
+    ],
+    "compression": {
+        "algorithm": "movement_sparsity",
+        "params": {
+            "schedule": "poly_threshold",
+            "power": 3,
+            "init_importance_threshold": 0.0,
+            "final_importance_threshold": 0.1,
+            "warmup_start_epoch": 1,
+            "warmup_end_epoch": 2.0,
+            "steps_per_epoch": 5533,
+            "regu_final_lambda": 400,
+            "update_per_optimizer_step": true,
+        },
+        "ignored_scopes": ["{re}.*NNCFEmbedding", "{re}.*qa_outputs*"]
+    },
+}

original_graph.dot ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:706d7824866e777c580143b51c6010aca9a77f5724dec1f976f15510173db4e8
+size 435643185

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

tf_eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "exact_match": 43.02743614001892,
+    "f1": 51.430003076867955
+}

tf_model.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d825cfde516847cfff070965312b341e122f19faf89888533d52ab9dd8a7115
+size 435842064

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "bert-base-uncased", "tokenizer_class": "BertTokenizer"}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "train_loss": 15.741395791878693,
+    "train_runtime": 55394.6042,
+    "train_samples": 88524,
+    "train_samples_per_second": 15.981,
+    "train_steps_per_second": 0.999
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:951fc3fabed8ef6b47a2cddd39635ddcf7cf2450527af96980acd6394266fb56
+size 31521946

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bd0b5759a7fbd91522a4658a06a58a8d60d3fdf8ff65b1198b488ac4bf9d161
+size 3055

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff