File size: 1,734 Bytes
9e9a51b
 
 
 
 
 
 
 
16dd21f
 
 
90cdd65
16dd21f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
80be468
16dd21f
 
 
 
 
 
 
 
 
 
 
 
8b0b0a4
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
---
metrics:
- accuracy
- perplexity
pipeline_tag: text-generation
language:
- pt
---

# Modelo Llama 1 para Tiny Shakespeare

Este repositório contém um modelo de linguagem Llama 1 com 2.3 milhões de parâmetros treinado no dataset Tiny Shakespeare. O modelo (`llama1-model`) foi projetado para tarefas de geração de texto, em especial para o estilo de escrita do Shakespeare.

## Arquitetura

O modelo segue a arquitetura básica do Llama, com as seguintes características:

* **Embeddings Rotativos (RoPE)** para incorporar informações posicionais.
* **Atenção Multi-Head com RoPE** para capturar relações complexas entre tokens.
* **Normalização RMS (RMSNorm)** para estabilidade de treinamento.
* **Função de Ativação SwiGLU** para não linearidade.

## Treinamento

O modelo foi treinado por no máximo 10.000 épocas, atingindo a estabilidade em pouco mais de 3000 épocas. Foi utilizado o otimizador Adam e um agendamento de taxa de aprendizado de redução de platô (scheduler). A função de perda utilizada foi a entropia cruzada.

## Métricas

O desempenho do modelo foi avaliado utilizando as seguintes métricas:

* Perda
* Acurácia
* Perplexidade

## Limitações

Devido ao tamanho limitado do dataset Tiny Shakespeare, a capacidade do modelo de gerar texto complexo e coeso é restrita.

## Onde pode ser aplicado

* **Geração de Texto:** O modelo pode ser usado para gerar pequenos trechos de texto semelhantes ao estilo de Shakespeare.
* **Previsão de Próxima Palavra:** Dada uma sequência de palavras, o modelo pode prever a próxima palavra mais provável.

## Como Usar

Para carregar e utilizar o modelo:

```python
import torch

# Carregue o modelo
model = torch.load("best_model.pt")