File size: 13,757 Bytes
83e5cbc
 
be84f77
 
 
 
 
7415f13
 
 
 
 
 
 
cbca02f
 
 
 
5eff8ae
35fc73a
f84444f
 
5014cd9
f84444f
41a4cce
f84444f
 
 
 
 
 
fdeaf8c
802b672
 
83e5cbc
be84f77
 
 
 
afd12a6
be84f77
ddf65b7
58c7b0a
afd12a6
be84f77
c94a43c
58c7b0a
 
eadf0b2
4c18645
 
 
 
 
 
 
 
 
 
 
eadf0b2
 
137dc4b
 
 
 
a4f316e
137dc4b
 
 
 
e6b1657
137dc4b
 
 
 
 
 
 
 
e6b1657
137dc4b
e6b1657
137dc4b
 
 
 
be84f77
 
 
 
 
 
 
 
 
 
 
 
 
 
93ab61b
8ad01c8
e188dbb
 
8ad01c8
e188dbb
93ab61b
 
 
 
 
 
 
 
 
be84f77
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7415f13
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
---
license: mit
tags:
- generated_from_trainer
model-index:
- name: results_v4c_medium_no_eval
  results: []
datasets:
- squad
- squad_v1_pt
- wikipedia
language:
- pt
library_name: transformers
inference:
  parameters:
    do_sample: false
    max_new_tokens: 120
widget:
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Onde foi descoberta a Covid-19?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Onde a COVID-19 foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando a COVID-19 foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando a doença foi reportada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Em que ano a doença foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem foi o autor dos livros Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem foi o escritor dos livros Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem são os produtores executivos da série de TV Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Onde foram realizadas as filmagens da série Game of Thrones?<|assistant|>"
- text: '<|prompter|>O sistema de bibliotecas da universidade é dividido entre a biblioteca principal e cada uma das faculdades e escolas. O edifício principal é a Biblioteca Theodore M. Hesburgh, de 14 andares, concluída em 1963, que é o terceiro edifício a abrigar a principal coleção de livros. A frente da biblioteca é decorada com o mural da Palavra da Vida, projetado pelo artista Millard Sheets. Este mural é conhecido popularmente como "Touchdown Jesus" devido à sua proximidade com o Estádio Notre Dame e os braços de Jesus aparecendo para sinalizar um touchdown. Quantos andares possui a Biblioteca Theodore M. Hesburgh?<|assistant|>'
- text: '<|prompter|>O sistema de bibliotecas da universidade é dividido entre a biblioteca principal e cada uma das faculdades e escolas. O edifício principal é a Biblioteca Theodore M. Hesburgh, de 14 andares, concluída em 1963, que é o terceiro edifício a abrigar a principal coleção de livros. A frente da biblioteca é decorada com o mural da Palavra da Vida, projetado pelo artista Millard Sheets. Este mural é conhecido popularmente como "Touchdown Jesus" devido à sua proximidade com o Estádio Notre Dame e os braços de Jesus aparecendo para sinalizar um touchdown. Em que ano a Biblioteca Theodore M. Hesburgh em Notre Dame terminou?<|assistant|>'
- text: '<|prompter|>Rick Grimes é o xerife de uma pequena cidade do estado da Georgia, quando certo dia, é baleado por criminosos durante uma perseguição e entra em coma. Semanas depois, ele acorda em um hospital abandonado e totalmente danificado. Ao sair do hospital, Rick se encontra em um mundo pós-apocalíptico dominado por mortos-vivos. Depois de conhecer Morgan Jones e seu filho, Duane, que lhe explica o novo mundo, Rick decide ir para Atlanta atrás de sua família, onde um possível centro de refugiados foi montado pela Guarda Nacional. Ao chegar em Atlanta, ele logo descobre que a cidade está vazia e foi dominada pelos mortos. Quem o xerife Rick Grimes conheceu?<|assistant|>'
- text: "O sistema de bibliotecas da universidade é dividido entre a biblioteca principal"
- text: "Game of Thrones é"
---

<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->

# gpt2-medium-wikiwriter-squadv11-portuguese

This model is a fine-tuned version of [egonrp/gpt2-wikiwriter-medium-portuguese](https://huggingface.co/egonrp/gpt2-wikiwriter-medium-portuguese) on wiki_pt and squad_v1.1_pt datasets.

** It's a chatbot experiment. ;)

The model was trained in 12 hours on a NVIDIA RTX 3060 12GB.


### Usage:
```
$ python3
>>> from transformers import pipeline, set_seed
>>> set_seed(42)
>>> generator = pipeline('text-generation', model="egonrp/gpt2-medium-wikiwriter-squadv11-portuguese")
>>> result = generator('<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>', max_new_tokens=110, num_return_sequences=1, do_sample=False)
>>> print(result)
[{'generated_text': '<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>31 de dezembro do mesmo ano'}]
```



### Usage.2:
```
$ python3
>>> from transformers import GPT2LMHeadModel, GPT2Tokenizer, set_seed
>>> set_seed(42)
>>> model = GPT2LMHeadModel.from_pretrained("egonrp/gpt2-medium-wikiwriter-squadv11-portuguese")
>>> tokenizer = GPT2Tokenizer.from_pretrained("egonrp/gpt2-medium-wikiwriter-squadv11-portuguese")
>>> tokenizer.add_special_tokens({'pad_token': tokenizer.eos_token})
>>> model.config.pad_token_id = tokenizer.eos_token_id
>>> prompt_text = '<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>'
>>> encoded_prompt = tokenizer.encode(prompt_text, return_tensors="pt")
>>> output_sequences = model.generate(
    input_ids=encoded_prompt,
    do_sample=False,
    num_return_sequences=1,
    max_new_tokens=110,
    eos_token_id=model.config.eos_token_id,
    pad_token_id=model.config.eos_token_id
)
>>> decoded_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
>>> print(decoded_text)
<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>31 de dezembro do mesmo ano
```



## Model description

More information needed

## Intended uses & limitations

More information needed

## Training and evaluation data

More information needed

## Training procedure

```
git clone -b v4.27-release https://github.com/huggingface/transformers.git
cd transformers/examples/pytorch/language-modeling/
pip install -r requirements.txt
pip install transformers==v4.27.3
python3 run_clm.py \
    --model_name_or_path egonrp/gpt2-wikiwriter-medium-portuguese \
    --train_file /home/egon/dev/gptsquad_data/converted_squad_merged_out_v4c.txt \
    --do_train \
    --num_train_epochs 3 \
    --per_device_train_batch_size 1 \
    --output_dir /home/egon/dev/gptsquad_model/results_v4c_medium_no_eval \
    --fp16
```

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 5e-05
- train_batch_size: 1
- eval_batch_size: 8
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 3.0
- mixed_precision_training: Native AMP

### Training results



### Framework versions

- Transformers 4.26.1
- Pytorch 2.0.0+cu117
- Datasets 2.10.1
- Tokenizers 0.13.2