IlyaGusev
/

rut5_base_sum_gazeta

text2text-generation

Inference Endpoints

text-generation-inference

Model card Files Files and versions Community

rut5_base_sum_gazeta / README.md

IlyaGusev's picture

Create README.md

07b334f over 2 years ago

|

raw history blame

No virus

3.34 kB

	---
	language:
	- ru
	- ru-RU
	tags:
	- summarization
	- t5
	datasets:
	- IlyaGusev/gazeta
	license: apache-2.0
	---

	# RuT5SumGazeta

	## Model description

	This is the model for abstractive summarization for Russian based on [rut5-base](https://huggingface.co/cointegrated/rut5-base).


	## Intended uses & limitations

	#### How to use

	```python
	from transformers import T5Tokenizer, T5ForConditionalGeneration

	article_text = "..."

	model_name = "IlyaGusev/rut5-base-sum-gazeta"
	tokenizer = T5Tokenizer.from_pretrained(model_name)
	model = T5ForConditionalGeneration.from_pretrained(model_name)

	input_ids = tokenizer(
	[article_text],
	add_special_tokens=True,
	padding="max_length",
	truncation=True,
	max_length=400,
	return_tensors="pt"
	)["input_ids"]

	output_ids = model.generate(
	input_ids=input_ids,
	max_length=200,
	no_repeat_ngram_size=3,
	num_beams=5,
	early_stopping=True
	)[0]

	summary = tokenizer.decode(output_ids, skip_special_tokens=True)
	print(summary)
	```

	## Training data

	- Dataset: https://github.com/IlyaGusev/gazeta

	## Training procedure

	- Training script: [TBA]

	## Eval results

	\| Model \| R-1-f \| R-2-f \| R-L-f \| chrF \| BLEU \|
	\|:--------------------------\|:------\|:------\|:------\|:-----\|:-----\|
	\| rut5-base-sum-gazeta \| 32.3 \| 14.5 \| 27.9 \| 39.6 \| 11.5 \|

	Predicting all summaries:
	```python
	import json
	import torch
	from transformers import T5Tokenizer, T5ForConditionalGeneration
	from datasets import load_dataset


	def gen_batch(inputs, batch_size):
	batch_start = 0
	while batch_start < len(inputs):
	yield inputs[batch_start: batch_start + batch_size]
	batch_start += batch_size


	def predict(
	model_name,
	input_records,
	output_file,
	max_source_tokens_count=400,
	max_target_tokens_count=200,
	batch_size=16
	):
	device = "cuda" if torch.cuda.is_available() else "cpu"

	tokenizer = MBartTokenizer.from_pretrained(model_name)
	model = MBartForConditionalGeneration.from_pretrained(model_name).to(device)

	predictions = []
	for batch in gen_batch(input_records, batch_size):
	texts = [r["text"] for r in batch]
	input_ids = tokenizer(
	texts,
	add_special_tokens=True,
	max_length=max_source_tokens_count,
	padding="max_length",
	truncation=True,
	return_tensors="pt"
	)["input_ids"].to(device)

	output_ids = model.generate(
	input_ids=input_ids,
	max_length=max_target_tokens_count,
	no_repeat_ngram_size=3,
	num_beams=5,
	early_stopping=True
	)
	summaries = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
	for s in summaries:
	print(s)
	predictions.extend(summaries)
	with open(output_file, "w") as w:
	for p in predictions:
	w.write(p.strip().replace("\n", " ") + "\n")

	gazeta_test = load_dataset('IlyaGusev/gazeta', script_version="v1.0")["test"]
	predict("IlyaGusev/mbart_ru_sum_gazeta", gazeta_test["test"], "t5_predictions.txt")
	```

	Evaluation: https://github.com/IlyaGusev/summarus/blob/master/evaluate.py

	Flags: --language ru --tokenize-after --lower