--- library_name: optimum tags: [] --- # Optimum RoBERTa-base-SQuAD2 Quantizado ## Introdução Este repositório contém uma versão quantizada do modelo [`optimum/roberta-base-squad2`](https://huggingface.co/optimum/roberta-base-squad2), desenvolvido por Branden Chan et al. A quantização foi realizada utilizando a biblioteca Optimum ONNX para reduzir o tamanho do modelo e melhorar a eficiência, mantendo uma precisão aceitável. ## Avaliação Os modelos foram testados utilizando 600 entradas do conjunto de validação da base de dados [rajpurkar/squad_v2](https://huggingface.co/datasets/rajpurkar/squad_v2). 1. **Redução da Latência**: - **Modelo Original**: 0.572 segundos por amostra - **Modelo Quantizado**: 0.437 segundos por amostra - **Análise**: A latência foi significativamente reduzida, tornando o modelo mais adequado para aplicações em tempo real. 2. **Aumento da Eficiência**: - **Tempo Total**: - **Modelo Original**: 343.20 segundos - **Modelo Quantizado**: 262.41 segundos - **Análise**: O tempo total de execução foi consideravelmente reduzido. - **Amostras por Segundo**: - **Modelo Original**: 1.75 amostras/segundo - **Modelo Quantizado**: 2.29 amostras/segundo - **Análise**: A taxa de processamento aumentou, permitindo que mais amostras sejam processadas no mesmo período de tempo. 3. **Manutenção de Precisão Razoável**: - **Exact Score**: - **Modelo Original**: 81.67 - **Modelo Quantizado**: 80.5 - **Análise**: Pequena queda na precisão, mas ainda em nível aceitável. - **F1 Score**: - **Modelo Original**: 83.75 - **Modelo Quantizado**: 82.49 - **Análise**: Queda ligeira no desempenho de F1 Score. 4. **Comparação do Espaço Ocupado na Memória**: - **Modelo Original**: 476.52 MB - **Modelo Quantizado**: 122.41 MB - **Análise**: A quantização resultou em uma redução significativa no espaço ocupado, com o modelo quantizado utilizando apenas cerca de 25.7% do tamanho do modelo original. Esses resultados indicam que a quantização foi bem-sucedida, alcançando uma redução significativa na latência, aumento na eficiência e uma economia substancial de espaço na memória, enquanto mantém uma precisão aceitável para tarefas de perguntas e respostas.