File size: 1,866 Bytes
f0ff8fc
1a13b6e
 
f0ff8fc
1a13b6e
a5b7218
1a13b6e
 
 
 
f0ff8fc
6509d3c
 
 
072ebb0
 
a4262a5
 
88ec4ad
a4262a5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
---
language:
- ru
license: mit
datasets: Den4ikAI/fact_detection
widget:
- если вы хотите процитировать поэму или часть из нее, тогда вам следует придерживаться
  первоначального формата строк, чтобы передать первоначальный смысл
- ' резко вдавленный газ и знакомый свист шин унес машину прочь, превратив ее в маленькую
  постепенно движущуюся точку'
---

Модель rubert-base-cased от Deeppavlov. Обучена на датасете из предложений. В качестве фактов использовались предложения из Википедии, а в качестве негативных - худлит и новости

Датасет: [Den4ikAI/fact_detection](https://huggingface.co/datasets/Den4ikAI/fact_detection)

Простейший код инференса:

```python
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

txt = 'Пулмен — бывший рабочий посёлок вагоностроительной компании «Пульман», построенный в 1880-е годы к югу от Чикаго.'
tokenizer = AutoTokenizer.from_pretrained('Den4ikAI/ruBert_base_fact_detection')
model = AutoModelForSequenceClassification.from_pretrained('Den4ikAI/ruBert_base_fact_detection')
inputs = tokenizer(txt, max_length=128, add_special_tokens=False, return_tensors='pt')
with torch.inference_mode():
    logits = model(**inputs).logits
    probas = torch.sigmoid(logits)[0].cpu().detach().numpy()
is_fact, no_fact = probas
print(f'[TEXT] --> {txt}')
print(f'[IS_FACT] --> {is_fact}')
print(f'[NO_FACT] --> {no_fact}')
```