Spaces:

EleutherAI
/

polyglot-ko-1.3b

Build error

jason9693 commited on Sep 13, 2022

Commit

84c1f5e

•

1 Parent(s): dde792a

modified_config

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,9 +15,9 @@ examples = [
     ["2040년 미국은, "]
 ]
-tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-ko-2.7b", use_auth_token=os.environ['TOKEN'])
 model = AutoModelForCausalLM.from_pretrained(
-  "EleutherAI/gpt-neox-ko-2.7b", use_auth_token=os.environ['TOKEN'],
   pad_token_id=tokenizer.pad_token_id,
   eos_token_id=tokenizer.eos_token_id,
   bos_token_id=tokenizer.bos_token_id
@@ -30,7 +30,10 @@ def predict(text):
   stopping_cond = StoppingCriteriaList([tokenizer.encode('<|endoftext|>')])
   with torch.no_grad():
     tokens = tokenizer(text, return_tensors="pt").input_ids
-    gen_tokens = model.generate(tokens, do_sample=True, temperature=0.8, max_new_tokens=64)
     generated = tokenizer.batch_decode(gen_tokens)[0]
     return generated
   # return pipe(text)[0]['generated_text']

     ["2040년 미국은, "]
 ]
+tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-ko-1.3b", use_auth_token=os.environ['TOKEN'])
 model = AutoModelForCausalLM.from_pretrained(
+  "EleutherAI/gpt-neox-ko-1.3b", use_auth_token=os.environ['TOKEN'],
   pad_token_id=tokenizer.pad_token_id,
   eos_token_id=tokenizer.eos_token_id,
   bos_token_id=tokenizer.bos_token_id
   stopping_cond = StoppingCriteriaList([tokenizer.encode('<|endoftext|>')])
   with torch.no_grad():
     tokens = tokenizer(text, return_tensors="pt").input_ids
+    gen_tokens = model.generate(
+      tokens, do_sample=True, temperature=0.8, max_new_tokens=64, top_k=50, top_p=0.8,
+      no_repeat_ngram_size=3, repetition_penalty=1.2
+    )
     generated = tokenizer.batch_decode(gen_tokens)[0]
     return generated
   # return pipe(text)[0]['generated_text']