File size: 967 Bytes
4d06fc9
f19fc53
 
 
 
4d06fc9
f19fc53
 
 
4d06fc9
f19fc53
f0ad425
f19fc53
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
---
language:
- hu
tags:
- OCR cleaning
license: apache-2.0
widget:
- text: >-
    trans: Bálvándy szokott kedves modoraval mulattata Dorothea ;rófnőt.
---

# mT5 OCR cleaning model

For further models, scripts and details, see or [our demo site](https://juniper.nytud.hu/demo/nlp).

- Pretrained model used: mT5-base
- Prefix: "trans: "

## Limitations

- max_source_length = 256
- max_target_length = 256


## Citation
If you use this model, please cite the following paper:

```

@inproceedings {laki-ocr,
    title = {OCR hibák javítása neurális technológiák segítségével},
	booktitle = {XVIII. Magyar Számítógépes Nyelvészeti Konferencia},
	year = {2022},
	publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
	address = {Szeged, Magyarország},
	author = {Laki, László and and Kőrös, Ádám and Ligeti-Nagy, Noémi and and Nyéki, Bence and Vadász, Noémi and Yang, Zijian Győző and Váradi Tamás},
	pages = {417--430}
}

```