cointegrated
/

rut5-base-labse-decoder

Text2Text Generation

Inference Endpoints

text-generation-inference

Model card Files Files and versions Community

cointegrated commited on Jul 17, 2022

Commit

a237fbd

•

1 Parent(s): 9b2af4a

Create README.md

Files changed (1) hide show

README.md +50 -0

README.md ADDED Viewed

	@@ -0,0 +1,50 @@

+---
+language: ["ru"]
+tags:
+- russian
+license: mit
+---
+This is the [rut5-base](https://huggingface.co/cointegrated/rut5-base) model, with the decoder fine-tuned to recover (approximately) Russian sentences from their [LaBSE](https://huggingface.co/setu4993/LaBSE) embeddings.
+Usage:
+```python
+import torch
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, AutoModel
+from transformers.modeling_outputs import BaseModelOutput
+enc_tokenizer = AutoTokenizer.from_pretrained('cointegrated/LaBSE-en-ru')
+encoder = AutoModel.from_pretrained('cointegrated/LaBSE-en-ru')
+dec_tokenizer = AutoTokenizer.from_pretrained('cointegrated/rut5-base-labse-decoder')
+decoder = AutoModelForSeq2SeqLM.from_pretrained('cointegrated/rut5-base-labse-decoder')
+def encode(texts):
+    encoded_input = enc_tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors='pt')
+    with torch.no_grad():
+        model_output = encoder(**encoded_input.to(encoder.device))
+        embeddings = model_output.pooler_output
+        embeddings = torch.nn.functional.normalize(embeddings)
+    return embeddings
+# encode some texts into vectors
+embeddings = encode([
+    "4 декабря 2000 года",
+    "Давно такого не читала, очень хорошо пишешь!",
+    "Я тогда не понимала, что происходит, не понимаю и сейчас.",
+])
+print(embeddings.shape)
+# torch.Size([3, 768])
+# now try to recover the texts from the vectors
+out = decoder.generate(
+    encoder_outputs=BaseModelOutput(last_hidden_state=embeddings.unsqueeze(1)),
+    max_length=256,
+    repetition_penalty=3.0,
+)
+for tokens in out:
+    print(dec_tokenizer.decode(tokens, skip_special_tokens=True))
+# После 2 декабря 2000 года
+# Не так давно ты это читала, нехорошо!
+# Я не понимала, что происходит сейчас и тогда.
+```