Den4ikAI's picture
Librarian Bot: Update dataset YAML metadata for model (#1)
1a13b6e
|
raw
history blame
1.87 kB
---
language:
- ru
license: mit
datasets: Den4ikAI/fact_detection
widget:
- если вы хотите процитировать поэму или часть из нее, тогда вам следует придерживаться
первоначального формата строк, чтобы передать первоначальный смысл
- ' резко вдавленный газ и знакомый свист шин унес машину прочь, превратив ее в маленькую
постепенно движущуюся точку'
---
Модель rubert-base-cased от Deeppavlov. Обучена на датасете из предложений. В качестве фактов использовались предложения из Википедии, а в качестве негативных - худлит и новости
Датасет: [Den4ikAI/fact_detection](https://huggingface.co/datasets/Den4ikAI/fact_detection)
Простейший код инференса:
```python
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
txt = 'Пулмен — бывший рабочий посёлок вагоностроительной компании «Пульман», построенный в 1880-е годы к югу от Чикаго.'
tokenizer = AutoTokenizer.from_pretrained('Den4ikAI/ruBert_base_fact_detection')
model = AutoModelForSequenceClassification.from_pretrained('Den4ikAI/ruBert_base_fact_detection')
inputs = tokenizer(txt, max_length=128, add_special_tokens=False, return_tensors='pt')
with torch.inference_mode():
logits = model(**inputs).logits
probas = torch.sigmoid(logits)[0].cpu().detach().numpy()
is_fact, no_fact = probas
print(f'[TEXT] --> {txt}')
print(f'[IS_FACT] --> {is_fact}')
print(f'[NO_FACT] --> {no_fact}')
```