Данная модель является дообучнной версией "ai-forever/ruT5-base" (ранее"sberbank-ai/ruT5-base") на задаче упрощения текста (text simplification). Набор данных (https://drive.google.com/file/d/14lCIp0TJ78R8E9miVm5Ac88guEjCkgFR) был собран из материалов конференции "Dialog-21" (https://github.com/dialogue-evaluation/RuSimpleSentEval), корпуса "RuAdapt" (https://github.com/Digital-Pushkin-Lab/RuAdapt), а также уникальных данных, предоставленными институтом ИФиЯК СФУ. Параметры обучения: данные из файла "dia_train", Learning Rate = 3e-5, batch size = 1, optimizer = AdamW. Оценка SARI (среднее на файле "dia_test") = 33,14

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "DmitriyVasiliev/ruT5-base-simplification"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

input_text = "Хотя мечте Петра не суждено было сбыться, именно зарубежный опыт лёг в основу дальнейшей застройки."
ml = 2048


import re
def out_gen(input_line):
  WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
  input_ids = tokenizer(
      [WHITESPACE_HANDLER(input_line)],
      return_tensors="pt",
      padding="max_length",
      truncation=True,
      max_length=ml
    )["input_ids"].to(device)
  output_ids = model.generate(
      input_ids=input_ids,
      max_length=ml,
      no_repeat_ngram_size=2,
      num_beams=5,
    )[0].to(device)
  summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
  )
  return summary

answer = out_gen(input_text)
Downloads last month
19
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.