add model

Browse files

Files changed (10) hide show

README.md +38 -0
config.json +33 -0
eval_results.json +3 -0
model_quantized.onnx +3 -0
ort_config.json +191 -0
qdq_nodes.png +0 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +15 -0
vocab.txt +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,41 @@
 ---
 license: mit
 ---

 ---
 license: mit
+datasets:
+  - sst2
+  - glue
+language: en
 ---
+This model is a fork of [distilbert-base-uncased-finetuned-sst-2-english](https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english) quantized with [Optimum library 🤗](https://huggingface.co/docs/optimum/onnxruntime/usage_guides/gpu#use-tensorrt-execution-provider-with-quantized-models) using static quantization.
+This model can be used as follow:
+```python
+import onnxruntime
+from transformers import AutoTokenizer
+from optimum.onnxruntime import ORTModelForSequenceClassification
+session_options = onnxruntime.SessionOptions()
+session_options.graph_optimization_level = onnxruntime.GraphOptimizationLevel.ORT_DISABLE_ALL
+tokenizer = AutoTokenizer.from_pretrained("fxmarty/distilbert-base-uncased-sst2-onnx-int8-for-tensorrt")
+ort_model = ORTModelForSequenceClassification.from_pretrained(
+    "fxmarty/distilbert-base-uncased-sst2-onnx-int8-for-tensorrt",
+    provider="TensorrtExecutionProvider",
+    session_options=session_options,
+    provider_options={"trt_int8_enable": True},
+)
+inp = tokenizer("TensorRT is a bit painful to use, but at the end of day it runs smoothly and blazingly fast!", return_tensors="np")
+res = ort_model(**inp)
+print(res)
+print(ort_model.config.id2label[res.logits[0].argmax()])
+# SequenceClassifierOutput(loss=None, logits=array([[-0.545066 ,  0.5609764]], dtype=float32), hidden_states=None, attentions=None)
+# POSITIVE
+```
+Inspecting the graph (for example [here with netron]()), we see that it contains Quantize and Dequantize nodes, that will be interpreted by TensorRT to run in INT8:
+![QDQ](qdq_nodes.png)

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "/tmp/tmp1mjenugf",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "finetuning_task": "sst-2",
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "NEGATIVE",
+    "1": "POSITIVE"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "NEGATIVE": 0,
+    "POSITIVE": 1
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "transformers_version": "4.27.0.dev0",
+  "vocab_size": 30522
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+    "accuracy": 0.8876146788990825
+}

model_quantized.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:477d0d0c102ed8529620664cc817b927869eddf286c9f78a85f28164300ed101
+size 268183103

ort_config.json ADDED Viewed

	@@ -0,0 +1,191 @@

+{
+  "one_external_file": true,
+  "opset": null,
+  "optimization": {},
+  "optimum_version": "1.6.5.dev0",
+  "quantization": {
+    "activations_dtype": "QInt8",
+    "activations_symmetric": true,
+    "format": "QDQ",
+    "is_static": true,
+    "mode": "QLinearOps",
+    "nodes_to_exclude": [
+      "/distilbert/transformer/layer.4/sa_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.1/ffn/activation/Div",
+      "/distilbert/transformer/layer.0/sa_layer_norm/Div",
+      "/distilbert/transformer/layer.2/Add_1",
+      "/distilbert/transformer/layer.1/ffn/activation/Erf",
+      "/distilbert/transformer/layer.5/sa_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.0/output_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.3/output_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.0/ffn/activation/Add",
+      "/distilbert/transformer/layer.1/output_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.5/sa_layer_norm/Add_1",
+      "/distilbert/transformer/layer.2/ffn/activation/Erf",
+      "/distilbert/transformer/layer.4/ffn/activation/Mul_1",
+      "/distilbert/transformer/layer.1/sa_layer_norm/Add_1",
+      "/distilbert/transformer/layer.4/Add",
+      "/distilbert/transformer/layer.2/ffn/activation/Add",
+      "/distilbert/transformer/layer.2/ffn/activation/Mul_1",
+      "/distilbert/transformer/layer.1/output_layer_norm/Pow",
+      "/distilbert/transformer/layer.4/output_layer_norm/Mul",
+      "/distilbert/embeddings/LayerNorm/Div",
+      "/distilbert/transformer/layer.3/output_layer_norm/Pow",
+      "/distilbert/transformer/layer.0/Add",
+      "/distilbert/transformer/layer.1/output_layer_norm/Div",
+      "/distilbert/embeddings/LayerNorm/Sub",
+      "/distilbert/transformer/layer.1/sa_layer_norm/Add",
+      "/distilbert/transformer/layer.5/ffn/activation/Mul_1",
+      "/distilbert/transformer/layer.5/sa_layer_norm/Add",
+      "/distilbert/transformer/layer.2/sa_layer_norm/Mul",
+      "/distilbert/embeddings/LayerNorm/Add_1",
+      "/distilbert/transformer/layer.3/ffn/activation/Div",
+      "/distilbert/transformer/layer.1/Add_1",
+      "/distilbert/transformer/layer.4/ffn/activation/Mul",
+      "/distilbert/transformer/layer.5/sa_layer_norm/Div",
+      "/distilbert/transformer/layer.0/sa_layer_norm/Sub",
+      "/distilbert/transformer/layer.0/sa_layer_norm/Pow",
+      "/distilbert/transformer/layer.2/sa_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.3/output_layer_norm/Add_1",
+      "/distilbert/transformer/layer.1/output_layer_norm/Mul",
+      "/distilbert/transformer/layer.3/sa_layer_norm/Sub",
+      "/distilbert/transformer/layer.3/sa_layer_norm/Div",
+      "/distilbert/embeddings/LayerNorm/Pow",
+      "/distilbert/transformer/layer.5/sa_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.1/output_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.4/output_layer_norm/Add",
+      "/distilbert/transformer/layer.2/output_layer_norm/Div",
+      "/distilbert/transformer/layer.5/ffn/activation/Mul",
+      "/distilbert/transformer/layer.0/ffn/activation/Mul",
+      "/distilbert/transformer/layer.3/ffn/activation/Mul",
+      "/distilbert/transformer/layer.3/output_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.3/sa_layer_norm/Mul",
+      "/distilbert/transformer/layer.2/ffn/activation/Mul",
+      "/distilbert/transformer/layer.5/Add",
+      "/distilbert/transformer/layer.0/output_layer_norm/Div",
+      "/distilbert/transformer/layer.4/ffn/activation/Div",
+      "/distilbert/transformer/layer.5/sa_layer_norm/Sub",
+      "/distilbert/transformer/layer.5/ffn/activation/Erf",
+      "/distilbert/embeddings/LayerNorm/Add",
+      "/distilbert/transformer/layer.4/Add_1",
+      "/distilbert/transformer/layer.1/sa_layer_norm/Sub",
+      "/distilbert/transformer/layer.4/output_layer_norm/Pow",
+      "/distilbert/transformer/layer.3/Add_1",
+      "/distilbert/transformer/layer.5/output_layer_norm/Add",
+      "/distilbert/transformer/layer.0/output_layer_norm/Mul",
+      "/distilbert/transformer/layer.4/output_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.1/ffn/activation/Mul_1",
+      "/distilbert/transformer/layer.4/sa_layer_norm/Sqrt",
+      "/distilbert/embeddings/LayerNorm/ReduceMean",
+      "/distilbert/transformer/layer.4/output_layer_norm/ReduceMean_1",
+      "/distilbert/embeddings/LayerNorm/Sqrt",
+      "/distilbert/transformer/layer.2/sa_layer_norm/Sub",
+      "/distilbert/transformer/layer.5/sa_layer_norm/Pow",
+      "/distilbert/transformer/layer.4/ffn/activation/Erf",
+      "/distilbert/transformer/layer.0/output_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.1/sa_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.3/Add",
+      "/distilbert/transformer/layer.0/output_layer_norm/Sub",
+      "/distilbert/transformer/layer.0/output_layer_norm/Pow",
+      "/distilbert/transformer/layer.2/Add",
+      "/distilbert/transformer/layer.1/sa_layer_norm/Div",
+      "/distilbert/transformer/layer.3/sa_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.0/ffn/activation/Erf",
+      "/distilbert/transformer/layer.1/sa_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.2/ffn/activation/Div",
+      "/distilbert/transformer/layer.3/sa_layer_norm/Add",
+      "/distilbert/transformer/layer.4/sa_layer_norm/Add",
+      "/distilbert/transformer/layer.4/sa_layer_norm/Add_1",
+      "/distilbert/transformer/layer.2/output_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.2/sa_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.5/output_layer_norm/Sub",
+      "/distilbert/transformer/layer.4/output_layer_norm/Sub",
+      "/distilbert/transformer/layer.3/output_layer_norm/Sub",
+      "/distilbert/transformer/layer.0/output_layer_norm/Add",
+      "/distilbert/transformer/layer.2/output_layer_norm/Add",
+      "/distilbert/transformer/layer.3/output_layer_norm/Mul",
+      "/distilbert/transformer/layer.5/output_layer_norm/Div",
+      "/distilbert/transformer/layer.2/sa_layer_norm/Add",
+      "/distilbert/transformer/layer.2/sa_layer_norm/Pow",
+      "/distilbert/transformer/layer.3/sa_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.1/output_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.3/output_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.0/ffn/activation/Div",
+      "/distilbert/transformer/layer.3/ffn/activation/Add",
+      "/distilbert/embeddings/LayerNorm/ReduceMean_1",
+      "/distilbert/transformer/layer.3/sa_layer_norm/Add_1",
+      "/distilbert/transformer/layer.1/sa_layer_norm/Pow",
+      "/distilbert/transformer/layer.0/sa_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.0/sa_layer_norm/Add_1",
+      "/distilbert/transformer/layer.2/output_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.4/ffn/activation/Add",
+      "/distilbert/transformer/layer.5/output_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.3/sa_layer_norm/Pow",
+      "/distilbert/transformer/layer.0/output_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.5/ffn/activation/Div",
+      "/distilbert/transformer/layer.5/output_layer_norm/Pow",
+      "/distilbert/transformer/layer.3/ffn/activation/Mul_1",
+      "/distilbert/transformer/layer.2/output_layer_norm/Mul",
+      "/distilbert/transformer/layer.5/ffn/activation/Add",
+      "/distilbert/transformer/layer.2/output_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.2/output_layer_norm/Pow",
+      "/distilbert/transformer/layer.4/sa_layer_norm/Pow",
+      "/distilbert/transformer/layer.5/output_layer_norm/Mul",
+      "/distilbert/transformer/layer.1/Add",
+      "/distilbert/transformer/layer.0/sa_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.3/output_layer_norm/Div",
+      "/distilbert/transformer/layer.1/ffn/activation/Add",
+      "/distilbert/transformer/layer.1/sa_layer_norm/Mul",
+      "/distilbert/transformer/layer.1/ffn/activation/Mul",
+      "/distilbert/transformer/layer.0/sa_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.4/sa_layer_norm/Div",
+      "/distilbert/transformer/layer.4/output_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.2/sa_layer_norm/Div",
+      "/distilbert/transformer/layer.0/Add_1",
+      "/distilbert/transformer/layer.5/sa_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.0/sa_layer_norm/Mul",
+      "/distilbert/transformer/layer.2/output_layer_norm/Sub",
+      "/distilbert/transformer/layer.1/sa_layer_norm/ReduceMean_1",
+      "/distilbert/embeddings/LayerNorm/Mul",
+      "/distilbert/transformer/layer.3/output_layer_norm/Add",
+      "/distilbert/transformer/layer.0/sa_layer_norm/Add",
+      "/distilbert/transformer/layer.1/output_layer_norm/Add_1",
+      "/distilbert/transformer/layer.5/Add_1",
+      "/distilbert/transformer/layer.0/output_layer_norm/Add_1",
+      "/distilbert/transformer/layer.5/output_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.2/sa_layer_norm/Add_1",
+      "/distilbert/transformer/layer.0/ffn/activation/Mul_1",
+      "/distilbert/transformer/layer.4/sa_layer_norm/ReduceMean",
+      "/distilbert/transformer/layer.3/sa_layer_norm/ReduceMean_1",
+      "/distilbert/transformer/layer.5/sa_layer_norm/Mul",
+      "/distilbert/transformer/layer.4/sa_layer_norm/Sub",
+      "/distilbert/transformer/layer.4/output_layer_norm/Add_1",
+      "/distilbert/transformer/layer.5/output_layer_norm/Add_1",
+      "/distilbert/transformer/layer.1/output_layer_norm/Add",
+      "/distilbert/transformer/layer.4/sa_layer_norm/Mul",
+      "/distilbert/transformer/layer.5/output_layer_norm/Sqrt",
+      "/distilbert/embeddings/Add",
+      "/distilbert/transformer/layer.4/output_layer_norm/Div",
+      "/distilbert/transformer/layer.2/sa_layer_norm/Sqrt",
+      "/distilbert/transformer/layer.1/output_layer_norm/Sub",
+      "/distilbert/transformer/layer.3/ffn/activation/Erf",
+      "/distilbert/transformer/layer.2/output_layer_norm/Add_1"
+    ],
+    "nodes_to_quantize": [],
+    "operators_to_quantize": [
+      "MatMul",
+      "Add"
+    ],
+    "per_channel": false,
+    "qdq_add_pair_to_weight": true,
+    "qdq_dedicated_pair": true,
+    "qdq_op_type_per_channel_support_to_axis": {
+      "MatMul": 1
+    },
+    "reduce_range": false,
+    "weights_dtype": "QInt8",
+    "weights_symmetric": true
+  },
+  "transformers_version": "4.27.0.dev0",
+  "use_external_data_format": false
+}

qdq_nodes.png ADDED Viewed

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "special_tokens_map_file": null,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff