IlyaGusev
/

rut5_base_sum_gazeta

Summarization Transformers PyTorch

Russian t5 text2text-generation Inference Endpoints text-generation-inference

Model card Files Files and versions Community

IlyaGusev commited on Nov 25, 2021

Commit

4c9d0ca

•

1 Parent(s): d6c98e3

Update README.md

Files changed (1) hide show

README.md +4 -7

README.md CHANGED Viewed

@@ -45,7 +45,7 @@ article_text = "..."
 input_ids = tokenizer(
     [article_text],
-    max_length=400,
     add_special_tokens=True,
     padding="max_length",
     truncation=True,
@@ -116,9 +116,8 @@ def predict(
     model_name,
     input_records,
     output_file,
-    max_source_tokens_count=400,
-    max_target_tokens_count=200,
-    batch_size=16
 ):
     device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -139,9 +138,7 @@ def predict(
         output_ids = model.generate(
             input_ids=input_ids,
-            max_length=max_target_tokens_count,
-            no_repeat_ngram_size=3,
-            early_stopping=True
         )
         summaries = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
         for s in summaries:

 input_ids = tokenizer(
     [article_text],
+    max_length=600,
     add_special_tokens=True,
     padding="max_length",
     truncation=True,
     model_name,
     input_records,
     output_file,
+    max_source_tokens_count=600,
+    batch_size=8
 ):
     device = "cuda" if torch.cuda.is_available() else "cpu"
         output_ids = model.generate(
             input_ids=input_ids,
+            no_repeat_ngram_size=4
         )
         summaries = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
         for s in summaries: