|
{ |
|
"fp16": {}, |
|
"q8": { |
|
"per_model_config": { |
|
"encoder_model": { |
|
"op_types": [ |
|
"Add", |
|
"Concat", |
|
"Constant", |
|
"Conv", |
|
"Div", |
|
"Erf", |
|
"Gather", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Softmax", |
|
"Sqrt", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze" |
|
], |
|
"weight_type": "QUInt8" |
|
}, |
|
"decoder_model": { |
|
"op_types": [ |
|
"Add", |
|
"Cast", |
|
"Concat", |
|
"Constant", |
|
"ConstantOfShape", |
|
"Div", |
|
"Equal", |
|
"Erf", |
|
"Expand", |
|
"Gather", |
|
"Less", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"Range", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Squeeze", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze", |
|
"Where" |
|
], |
|
"weight_type": "QInt8" |
|
}, |
|
"decoder_with_past_model": { |
|
"op_types": [ |
|
"Add", |
|
"Concat", |
|
"Constant", |
|
"Div", |
|
"Erf", |
|
"Gather", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze" |
|
], |
|
"weight_type": "QInt8" |
|
}, |
|
"decoder_model_merged": { |
|
"op_types": [ |
|
"Add", |
|
"Cast", |
|
"Concat", |
|
"Constant", |
|
"ConstantOfShape", |
|
"Div", |
|
"Equal", |
|
"Erf", |
|
"Expand", |
|
"Gather", |
|
"If", |
|
"Less", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"Range", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Squeeze", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze", |
|
"Where" |
|
], |
|
"weight_type": "QInt8" |
|
} |
|
}, |
|
"per_channel": false, |
|
"reduce_range": false |
|
}, |
|
"int8": { |
|
"per_model_config": { |
|
"encoder_model": { |
|
"op_types": [ |
|
"Add", |
|
"Concat", |
|
"Constant", |
|
"Conv", |
|
"Div", |
|
"Erf", |
|
"Gather", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Softmax", |
|
"Sqrt", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze" |
|
], |
|
"weight_type": "QInt8" |
|
}, |
|
"decoder_model": { |
|
"op_types": [ |
|
"Add", |
|
"Cast", |
|
"Concat", |
|
"Constant", |
|
"ConstantOfShape", |
|
"Div", |
|
"Equal", |
|
"Erf", |
|
"Expand", |
|
"Gather", |
|
"Less", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"Range", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Squeeze", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze", |
|
"Where" |
|
], |
|
"weight_type": "QInt8" |
|
}, |
|
"decoder_with_past_model": { |
|
"op_types": [ |
|
"Add", |
|
"Concat", |
|
"Constant", |
|
"Div", |
|
"Erf", |
|
"Gather", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze" |
|
], |
|
"weight_type": "QInt8" |
|
}, |
|
"decoder_model_merged": { |
|
"op_types": [ |
|
"Add", |
|
"Cast", |
|
"Concat", |
|
"Constant", |
|
"ConstantOfShape", |
|
"Div", |
|
"Equal", |
|
"Erf", |
|
"Expand", |
|
"Gather", |
|
"If", |
|
"Less", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"Range", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Squeeze", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze", |
|
"Where" |
|
], |
|
"weight_type": "QInt8" |
|
} |
|
}, |
|
"per_channel": false, |
|
"reduce_range": false |
|
}, |
|
"uint8": { |
|
"per_model_config": { |
|
"encoder_model": { |
|
"op_types": [ |
|
"Add", |
|
"Concat", |
|
"Constant", |
|
"Conv", |
|
"Div", |
|
"Erf", |
|
"Gather", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Softmax", |
|
"Sqrt", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze" |
|
], |
|
"weight_type": "QUInt8" |
|
}, |
|
"decoder_model": { |
|
"op_types": [ |
|
"Add", |
|
"Cast", |
|
"Concat", |
|
"Constant", |
|
"ConstantOfShape", |
|
"Div", |
|
"Equal", |
|
"Erf", |
|
"Expand", |
|
"Gather", |
|
"Less", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"Range", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Squeeze", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze", |
|
"Where" |
|
], |
|
"weight_type": "QUInt8" |
|
}, |
|
"decoder_with_past_model": { |
|
"op_types": [ |
|
"Add", |
|
"Concat", |
|
"Constant", |
|
"Div", |
|
"Erf", |
|
"Gather", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze" |
|
], |
|
"weight_type": "QUInt8" |
|
}, |
|
"decoder_model_merged": { |
|
"op_types": [ |
|
"Add", |
|
"Cast", |
|
"Concat", |
|
"Constant", |
|
"ConstantOfShape", |
|
"Div", |
|
"Equal", |
|
"Erf", |
|
"Expand", |
|
"Gather", |
|
"If", |
|
"Less", |
|
"MatMul", |
|
"Mul", |
|
"Pow", |
|
"Range", |
|
"ReduceMean", |
|
"Reshape", |
|
"Shape", |
|
"Slice", |
|
"Softmax", |
|
"Sqrt", |
|
"Squeeze", |
|
"Sub", |
|
"Transpose", |
|
"Unsqueeze", |
|
"Where" |
|
], |
|
"weight_type": "QUInt8" |
|
} |
|
}, |
|
"per_channel": false, |
|
"reduce_range": false |
|
}, |
|
"q4": { |
|
"block_size": 32, |
|
"is_symmetric": true, |
|
"accuracy_level": null |
|
}, |
|
"bnb4": { |
|
"block_size": 64, |
|
"quant_type": 1 |
|
} |
|
} |