File size: 2,088 Bytes
b8dd643
b54191f
 
3adaf05
 
b54191f
8294734
3adaf05
b54191f
b8dd643
3adaf05
499d4d7
3adaf05
 
 
1f8f777
3adaf05
1f8f777
313e506
1f8f777
3adaf05
 
 
 
 
 
 
 
 
b8a11c9
 
3adaf05
 
b8a11c9
3adaf05
b8a11c9
 
3adaf05
e9e8268
 
 
 
9a85296
491dd8e
e9e8268
 
491dd8e
e9e8268
 
 
 
 
 
 
 
 
 
 
 
65089b0
 
 
 
491dd8e
65089b0
 
491dd8e
65089b0
 
 
 
441874d
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
---
language:
- hu
tags:
- text-generation
- puli
license: cc-by-nc-4.0
widget:
- text: Elmesélek egy történetet a nyelvtechnológiáról.
---

# PULI GPT-3SX (6.85 billion parameter)

For further details, see [our demo site](https://juniper.nytud.hu/demo/puli).

  - Hungarian GPT-NeoX model (6.7 billion parameter)
  - Trained with EleutherAI's GPT-NeoX [github](https://github.com/EleutherAI/gpt-neox)
  - Dataset: 36.3 billion words
  - Checkpoint: 150 000 steps

## Limitations

- max_seq_length = 2048


## Citation
If you use this model, please cite the following paper:

```
@inproceedings {yang-puli,
    title = {Jönnek a nagyok! BERT-Large, GPT-2 és GPT-3 nyelvmodellek magyar nyelvre},
	booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)},
	year = {2023},
	publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
	address = {Szeged, Hungary},
	author = {Yang, Zijian Győző and Dodé, Réka and Ferenczi, Gergő and Héja, Enikő and Jelencsik-Mátyus, Kinga and Kőrös, Ádám and Laki, László János and Ligeti-Nagy, Noémi and Vadász, Noémi and Váradi, Tamás},
	pages = {247--262}
}
```

## Usage

```python
from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained("NYTK/PULI-GPT-3SX")
tokenizer = AutoTokenizer.from_pretrained("NYTK/PULI-GPT-3SX")
prompt = "Elmesélek egy történetet a nyelvtechnológiáról."
input_ids = tokenizer(prompt, return_tensors="pt").input_ids

gen_tokens = model.generate(
    input_ids,
    do_sample=True,
    temperature=0.9,
    max_length=100,
)

gen_text = tokenizer.batch_decode(gen_tokens)[0]
print(gen_text)
```
## Usage with pipeline

```python
from transformers import pipeline, GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained("NYTK/PULI-GPT-3SX")
tokenizer = AutoTokenizer.from_pretrained("NYTK/PULI-GPT-3SX")
prompt = "Elmesélek egy történetet a nyelvtechnológiáról."
generator = pipeline(task="text-generation", model=model, tokenizer=tokenizer)

print(generator(prompt)[0]["generated_text"])
```