Spaces:

SaviAnna
/

Extended_GPT_2

Sleeping

App Files Files Community

SaviAnna commited on Sep 20, 2024

Commit

78953d6

verified ·

1 Parent(s): aabd4e2

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -9

app.py CHANGED Viewed

@@ -31,16 +31,32 @@ def generate_text(model, tokenizer, prompt, max_len, temperature):
     input_ids = tokenizer.encode(prompt, return_tensors='pt')
     # Генерация текста
-    output = model.generate(input_ids=input_ids,
-                            max_length=max_len,
-                            do_sample=True,
-                            temperature=temperature,
-                            top_k=50,
-                            top_p=0.6,
-                            no_repeat_ngram_size=3,
-                            num_return_sequences=1)
-    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
     return generated_text
 # Streamlit приложение

     input_ids = tokenizer.encode(prompt, return_tensors='pt')
     # Генерация текста
+    # output = model.generate(input_ids=input_ids,
+    #                         max_length=max_len,
+    #                         do_sample=True,
+    #                         temperature=temperature,
+    #                         top_k=50,
+    #                         top_p=0.6,
+    #                         no_repeat_ngram_size=3,
+    #                         num_return_sequences=1,
+    #                        pad_token_id=tokenizer.eos_token_id)
+        output = model.generate(
+        input_ids,
+        max_length=max_length,
+        temperature=temperature,              # Controls the diversity of the generated text
+        top_k=50,                     # Keeps only the top-k most likely words
+        top_p=0.9,                    # Nucleus sampling (cumulative probability)
+        repetition_penalty=1.2,       # Penalty for repeating words or phrases
+        no_repeat_ngram_size=4,       # Prevents repetition of n-grams (e.g., bigrams)
+        do_sample=True,                # Enables sampling for greater diversity
+        pad_token_id=tokenizer.eos_token_id,
+        max_length=max_len
+    )[0]
+    #generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
+    #Decode the generated token IDs to text
+    generated_text = tokenizer.decode(output, skip_special_tokens=True, clean_up_tokenization_spaces=True)
     return generated_text
 # Streamlit приложение