egonrp's picture
ajustes
eac15ed
metadata
license: mit
datasets:
  - wikipedia
language:
  - pt
library_name: transformers
pipeline_tag: text-generation
widget:
  - text: '"Armored Warfare" é'
  - text: Columbia é uma empresa
  - text: A confederação brasileira foi
  - text: São Luís Freitas é
  - text: Pedro Díaz de Oliveira foi
  - text: O álbum "The Last Man" foi

GPT-2 WikiWriter Medium Portuguese (345M parameters)

Este modelo foi treinado por Erick Fonseca e apresentado em seu excelente artigo Ensinando português ao GPT-2. O modelo original disponibilizado publicamente foi convertido para um formato mais amigável ao HF Transformers para benefício de todos.

Artigo: https://medium.com/ensina-ai/ensinando-portugu%C3%AAs-ao-gpt-2-d4aa4aa29e1d

Modelo original: https://drive.google.com/open?id=1LM3i0Tolure_3IjvZWpgfHZK4aH5EF37

Autor do Modelo: Erick Rocha Fonseca

Exemplo de uso:

$ python.exe
>>> from transformers import pipeline, set_seed
>>> set_seed(42)
>>> generator = pipeline('text-generation', model="egonrp/gpt2-wikiwriter-medium-portuguese")
>>> result = generator('"Armored Warfare" é', max_length=50, num_return_sequences=1)
>>> print(result)
[{'generated_text': '"Armored Warfare" é um jogo eletrônico de ação-aventura desenvolvido pela Rockstar Games e publicado pela Rockstar Games. O jogo é baseado no j'}]

Os comandos abaixo foram executados para a conversão do modelo original:

# Convertendo o modelo TensorFlow gerado com "gpt_2_simple" para PyTorch:
$ pip install transformers==4.26.1 tensorflow torch==1.13.1
$ transformers-cli convert --model_type gpt2 --tf_checkpoint C:\dev\checkpoint-wiki\run1 --pytorch_dump_output C:\dev\checkpoint-wiki\model_out --config C:\dev\checkpoint-wiki\run1\hparams.json

# Gerando os arquivos "tokenizer.json" e "vocab.json":
$ cd C:\dev\checkpoint-wiki\model_out
$ python.exe
>>> from transformers import GPT2Tokenizer, GPT2TokenizerFast
>>> tokenizer = GPT2Tokenizer(r"C:\dev\checkpoint-wiki\run1\encoder.json", r"C:\dev\checkpoint-wiki\run1\vocab.bpe")
>>> tokenizer.save_vocabulary(r"C:\dev\checkpoint-wiki\model_out")
>>> tokenizer_fast = GPT2TokenizerFast(__slow_tokenizer=tokenizer, from_slow=True)
>>> tokenizer_fast._tokenizer.save("tokenizer.json")