Spaces:

SaviAnna
/

Extended_GPT_2

Sleeping

App Files Files Community

SaviAnna commited on Sep 20, 2024

Commit

cc91e6e

verified ·

1 Parent(s): f98d493

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -28

app.py CHANGED Viewed

@@ -3,9 +3,7 @@ import streamlit as st
 from transformers import GPT2LMHeadModel, GPT2TokenizerFast
 import torch
-st.title("""
- Fine-tuned GPT-2 for New Language with Custom Tokenizer
- """)
 # Слайдеры для управления температурой и длиной текста
 temperature = st.slider("Temperature", 0.1, 2.0, 1.0)  # Для обеих моделей
@@ -31,30 +29,20 @@ def generate_text(model, tokenizer, prompt, max_len, temperature):
     input_ids = tokenizer.encode(prompt, return_tensors='pt')
     # Генерация текста
-    # output = model.generate(input_ids=input_ids,
-    #                         max_length=max_len,
-    #                         do_sample=True,
-    #                         temperature=temperature,
-    #                         top_k=50,
-    #                         top_p=0.6,
-    #                         no_repeat_ngram_size=3,
-    #                         num_return_sequences=1,
-    #                        pad_token_id=tokenizer.eos_token_id)
     output = model.generate(
-    input_ids,
-    max_length=max_len,
-    temperature=temperature,              # Controls the diversity of the generated text
-    top_k=50,                     # Keeps only the top-k most likely words
-    top_p=0.9,                    # Nucleus sampling (cumulative probability)
-    repetition_penalty=1.2,       # Penalty for repeating words or phrases
-    no_repeat_ngram_size=4,       # Prevents repetition of n-grams (e.g., bigrams)
-    do_sample=True,                # Enables sampling for greater diversity
-    pad_token_id=tokenizer.eos_token_id)[0]
-    #generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
-    #Decode the generated token IDs to text
-    generated_text = tokenizer.decode(output, skip_special_tokens=True, clean_up_tokenization_spaces=True)
     return generated_text
 # Streamlit приложение
@@ -62,9 +50,7 @@ def main():
     model_gpt2, tokenizer_gpt2 = load_gpt2()  # GPT-2 модель
     model_custom, tokenizer_custom = load_custom_model()  # Кастомная модель
-    st.write("""
-    # Fine-tuned GPT-2 for New Language with Custom Tokenizer
-    """)
     # Блок для генерации текста с GPT-2
     st.subheader("GPT-2 Text Generation")

 from transformers import GPT2LMHeadModel, GPT2TokenizerFast
 import torch
+st.title("Fine-tuned GPT-2 for New Language with Custom Tokenizer")
 # Слайдеры для управления температурой и длиной текста
 temperature = st.slider("Temperature", 0.1, 2.0, 1.0)  # Для обеих моделей
     input_ids = tokenizer.encode(prompt, return_tensors='pt')
     # Генерация текста
     output = model.generate(
+        input_ids,
+        max_length=max_len,
+        temperature=temperature,              # Управление разнообразием текста
+        top_k=50,                     # Ограничение топ-50 самых вероятных слов
+        top_p=0.9,                    # Nucleus sampling (суммарная вероятность)
+        repetition_penalty=1.2,       # Штраф за повторение слов или фраз
+        no_repeat_ngram_size=4,       # Запрет на повторение n-грамм (например, биграмм)
+        do_sample=True,                # Включение сэмплинга для большей разнообразности
+        pad_token_id=tokenizer.eos_token_id
+    )
+    # Декодирование сгенерированных токенов в текст
+    generated_text = tokenizer.decode(output[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
     return generated_text
 # Streamlit приложение
     model_gpt2, tokenizer_gpt2 = load_gpt2()  # GPT-2 модель
     model_custom, tokenizer_custom = load_custom_model()  # Кастомная модель
+    st.write("Fine-tuned GPT-2 for New Language with Custom Tokenizer")
     # Блок для генерации текста с GPT-2
     st.subheader("GPT-2 Text Generation")