---
license: mit
datasets:
- wikipedia
language:
- pt
library_name: transformers
pipeline_tag: text-generation
widget:
- text: '"Armored Warfare" é'
- text: 'Columbia é uma empresa'
- text: 'A confederação brasileira foi'
- text: 'São Luís Freitas é'
- text: 'Pedro Díaz de Oliveira foi'
- text: 'O álbum "The Last Man" foi'
---
# GPT-2 WikiWriter Medium Portuguese (345M parameters)
Este modelo foi treinado por Erick Fonseca e apresentado em seu excelente artigo [Ensinando português ao GPT-2](https://medium.com/ensina-ai/ensinando-portugu%C3%AAs-ao-gpt-2-d4aa4aa29e1d).
O modelo original disponibilizado publicamente foi convertido para um formato mais amigável ao HF Transformers para benefício de todos.

Artigo: https://medium.com/ensina-ai/ensinando-portugu%C3%AAs-ao-gpt-2-d4aa4aa29e1d

Modelo original: https://drive.google.com/open?id=1LM3i0Tolure_3IjvZWpgfHZK4aH5EF37

Autor do Modelo: [Erick Rocha Fonseca](https://erickrf.github.io)


Exemplo de uso:
```
$ python.exe
>>> from transformers import pipeline, set_seed
>>> set_seed(42)
>>> generator = pipeline('text-generation', model="egonrp/gpt2-wikiwriter-medium-portuguese")
>>> result = generator('"Armored Warfare" é', max_length=50, num_return_sequences=1)
>>> print(result)
[{'generated_text': '"Armored Warfare" é um jogo eletrônico de ação-aventura desenvolvido pela Rockstar Games e publicado pela Rockstar Games. O jogo é baseado no j'}]
```


Os comandos abaixo foram executados para a conversão do modelo original:
```
# Convertendo o modelo TensorFlow gerado com "gpt_2_simple" para PyTorch:
$ pip install transformers==4.26.1 tensorflow torch==1.13.1
$ transformers-cli convert --model_type gpt2 --tf_checkpoint C:\dev\checkpoint-wiki\run1 --pytorch_dump_output C:\dev\checkpoint-wiki\model_out --config C:\dev\checkpoint-wiki\run1\hparams.json

# Gerando os arquivos "tokenizer.json" e "vocab.json":
$ cd C:\dev\checkpoint-wiki\model_out
$ python.exe
>>> from transformers import GPT2Tokenizer, GPT2TokenizerFast
>>> tokenizer = GPT2Tokenizer(r"C:\dev\checkpoint-wiki\run1\encoder.json", r"C:\dev\checkpoint-wiki\run1\vocab.bpe")
>>> tokenizer.save_vocabulary(r"C:\dev\checkpoint-wiki\model_out")
>>> tokenizer_fast = GPT2TokenizerFast(__slow_tokenizer=tokenizer, from_slow=True)
>>> tokenizer_fast._tokenizer.save("tokenizer.json")
```