--- license: mit datasets: - wikipedia language: - pt library_name: transformers pipeline_tag: text-generation widget: - text: '"Armored Warfare" é' - text: 'Columbia é uma empresa' - text: 'A confederação brasileira foi' - text: 'São Luís Freitas é' - text: 'Pedro Díaz de Oliveira foi' - text: 'O álbum "The Last Man" foi' --- # GPT-2 WikiWriter Medium Portuguese (345M parameters) Este modelo foi treinado por Erick Fonseca e apresentado em seu excelente artigo [Ensinando português ao GPT-2](https://medium.com/ensina-ai/ensinando-portugu%C3%AAs-ao-gpt-2-d4aa4aa29e1d). O modelo original disponibilizado publicamente foi convertido para um formato mais amigável ao HF Transformers para benefício de todos. Artigo: https://medium.com/ensina-ai/ensinando-portugu%C3%AAs-ao-gpt-2-d4aa4aa29e1d Modelo original: https://drive.google.com/open?id=1LM3i0Tolure_3IjvZWpgfHZK4aH5EF37 Autor do Modelo: [Erick Rocha Fonseca](https://erickrf.github.io) Exemplo de uso: ``` $ python.exe >>> from transformers import pipeline, set_seed >>> set_seed(42) >>> generator = pipeline('text-generation', model="egonrp/gpt2-wikiwriter-medium-portuguese") >>> result = generator('"Armored Warfare" é', max_length=50, num_return_sequences=1) >>> print(result) [{'generated_text': '"Armored Warfare" é um jogo eletrônico de ação-aventura desenvolvido pela Rockstar Games e publicado pela Rockstar Games. O jogo é baseado no j'}] ``` Os comandos abaixo foram executados para a conversão do modelo original: ``` # Convertendo o modelo TensorFlow gerado com "gpt_2_simple" para PyTorch: $ pip install transformers==4.26.1 tensorflow torch==1.13.1 $ transformers-cli convert --model_type gpt2 --tf_checkpoint C:\dev\checkpoint-wiki\run1 --pytorch_dump_output C:\dev\checkpoint-wiki\model_out --config C:\dev\checkpoint-wiki\run1\hparams.json # Gerando os arquivos "tokenizer.json" e "vocab.json": $ cd C:\dev\checkpoint-wiki\model_out $ python.exe >>> from transformers import GPT2Tokenizer, GPT2TokenizerFast >>> tokenizer = GPT2Tokenizer(r"C:\dev\checkpoint-wiki\run1\encoder.json", r"C:\dev\checkpoint-wiki\run1\vocab.bpe") >>> tokenizer.save_vocabulary(r"C:\dev\checkpoint-wiki\model_out") >>> tokenizer_fast = GPT2TokenizerFast(__slow_tokenizer=tokenizer, from_slow=True) >>> tokenizer_fast._tokenizer.save("tokenizer.json") ```