Upload optimized CPU ONNX models

Files changed (7) hide show

README.md CHANGED Viewed

@@ -169,9 +169,9 @@ The table below shows the average throughput of the first 256 tokens generated (
 | torch                      | 2.2.0    |
 | triton                     | 2.2.0    |
 | onnxruntime-gpu            | 1.18.0   |
-| onnxruntime-genai          | 0.2.0rc4 |
-| onnxruntime-genai-cuda     | 0.2.0rc4 |
-| onnxruntime-genai-directml | 0.2.0rc4 |
 | transformers               | 4.39.0   |
 | bitsandbytes               | 0.42.0   |

 | torch                      | 2.2.0    |
 | triton                     | 2.2.0    |
 | onnxruntime-gpu            | 1.18.0   |
+| onnxruntime-genai          | 0.2.0    |
+| onnxruntime-genai-cuda     | 0.2.0    |
+| onnxruntime-genai-directml | 0.2.0    |
 | transformers               | 4.39.0   |
 | bitsandbytes               | 0.42.0   |

cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/genai_config.json CHANGED Viewed

@@ -13,7 +13,6 @@
             "inputs": {
                 "input_ids": "input_ids",
                 "attention_mask": "attention_mask",
-                "position_ids": "position_ids",
                 "past_key_names": "past_key_values.%d.key",
                 "past_value_names": "past_key_values.%d.value"
             },
@@ -45,10 +44,10 @@
         "no_repeat_ngram_size": 0,
         "num_beams": 1,
         "num_return_sequences": 1,
-        "past_present_share_buffer": false,
         "repetition_penalty": 1.0,
         "temperature": 1.0,
         "top_k": 1,
         "top_p": 1.0
     }
-}

             "inputs": {
                 "input_ids": "input_ids",
                 "attention_mask": "attention_mask",
                 "past_key_names": "past_key_values.%d.key",
                 "past_value_names": "past_key_values.%d.value"
             },
         "no_repeat_ngram_size": 0,
         "num_beams": 1,
         "num_return_sequences": 1,
+        "past_present_share_buffer": true,
         "repetition_penalty": 1.0,
         "temperature": 1.0,
         "top_k": 1,
         "top_p": 1.0
     }
+}

cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/phi3-mini-4k-instruct-cpu-int4-rtn-block-32-acc-level-4.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:223c637f8006881de3ed52383249e9e4fd0f23f898254f8c196dec719d2bea86
-size 324481

 version https://git-lfs.github.com/spec/v1
+oid sha256:385cd1b908a0d2f8634e86d30236f6dbb7ae660eb3943fd1ef5bdc3847326480
+size 231335

cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/phi3-mini-4k-instruct-cpu-int4-rtn-block-32-acc-level-4.onnx.data CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8df5082c99a10a3820d3031d9554241690573273313233166b4643e0ee0eac4f
 size 2722861056

 version https://git-lfs.github.com/spec/v1
+oid sha256:5db30ce699aee1123cf9045742488db5928006fa618a42cb3c0840322a85ad0f
 size 2722861056

cpu_and_mobile/cpu-int4-rtn-block-32/genai_config.json CHANGED Viewed

@@ -13,7 +13,6 @@
             "inputs": {
                 "input_ids": "input_ids",
                 "attention_mask": "attention_mask",
-                "position_ids": "position_ids",
                 "past_key_names": "past_key_values.%d.key",
                 "past_value_names": "past_key_values.%d.value"
             },
@@ -45,10 +44,10 @@
         "no_repeat_ngram_size": 0,
         "num_beams": 1,
         "num_return_sequences": 1,
-        "past_present_share_buffer": false,
         "repetition_penalty": 1.0,
         "temperature": 1.0,
         "top_k": 1,
         "top_p": 1.0
     }
-}

             "inputs": {
                 "input_ids": "input_ids",
                 "attention_mask": "attention_mask",
                 "past_key_names": "past_key_values.%d.key",
                 "past_value_names": "past_key_values.%d.value"
             },
         "no_repeat_ngram_size": 0,
         "num_beams": 1,
         "num_return_sequences": 1,
+        "past_present_share_buffer": true,
         "repetition_penalty": 1.0,
         "temperature": 1.0,
         "top_k": 1,
         "top_p": 1.0
     }
+}

cpu_and_mobile/cpu-int4-rtn-block-32/phi3-mini-4k-instruct-cpu-int4-rtn-block-32.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81819a38d737a306dc1cd152987bd5a7b404ac2d04f243f5bf6569b425bc4538
-size 313088

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e1faf7ea6930f63caab12412f4a82c329eaddf6cce365e45c3cd00bb0547be8
+size 222950

cpu_and_mobile/cpu-int4-rtn-block-32/phi3-mini-4k-instruct-cpu-int4-rtn-block-32.onnx.data CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8df5082c99a10a3820d3031d9554241690573273313233166b4643e0ee0eac4f
 size 2722861056

 version https://git-lfs.github.com/spec/v1
+oid sha256:5db30ce699aee1123cf9045742488db5928006fa618a42cb3c0840322a85ad0f
 size 2722861056