File size: 7,198 Bytes
b6d3a16
 
79e330e
 
01aaaee
 
 
52537be
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
---
license: mit
language:
- bg
---

Llama-2-7b-base fine-tuned on the Chitanka dataset and a dataset made of scraped news comments dating mostly from 2022/2023.

The model was fine-tuned using PEFT and QLORA for 12000 steps. 

**Example Usage**


```
import torch
from transformers import LlamaForCausalLM, LlamaTokenizer, GenerationConfig

tokenizer = LlamaTokenizer.from_pretrained("bogdan1/llama2-bg")
model = LlamaForCausalLM.from_pretrained("bogdan1/llama2-bg")

inputs = tokenizer("Спомените ми прекъснаха в момента, когато", return_tensors="pt")
input_ids = inputs["input_ids"].to(model.device)

generation_config = GenerationConfig(
    do_sample = False,
    temperature = 0.8,
    top_p = 1.0,
    top_k = 50,
    repetition_penalty = 1.2,
    max_new_tokens = 128,
    use_cache=False
)


with torch.no_grad():
    generation_output = model.generate(
        input_ids=input_ids,
        attention_mask=torch.ones_like(input_ids),
        generation_config=generation_config,
    )

output_text = tokenizer.decode(generation_output[0].cuda(), skip_special_tokens=True).strip()

```


**Output comparison**

Given a number of prompts, here's how the fine-tuned model compares to the vanilla Llama-2-7b. 

*Бойко Борисов е*

Llama-2-7b:

>Бойко Борисов е български политик, бивш министър-председател на България.
>
>## Биография и кариера
>
>Роден е в град София през 1952 г., но семейството му се премества да живее във Варна още докато той е малък. Завършил е висше образование по специалност „Икономика“ (СУ „Климент Охридски“, Факултет за международни отношения).


Factuality is off, hallucinates.

Llama2-bg:

>Бойко Борисов е най-големия предател на България.Ще видим колко ще се оправя с него и неговите слуги от ПП,ДБ и ДПС!Този човек трябва да бъде затворен в психиатрията!!!!!Никой няма право да го пуска извън там!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

Toxicity is high.


*Спомените ми прекъснаха в момента, когато*

Llama-2-7b:

>Спомените ми прекъснаха в момента, когато се опитам да пиша за тези страни.
>От 1945 г., докато не постъпва на работа като журналист през 2003 г., а след това и до днешно време, съм работил във финансите – първоначално като банков служител (от 1968), а после като управляващ директор на две банки (от 1979). След като станах журналист, отново една година бях банкерски консу

Llama2-bg:

>Спомените ми прекъснаха в момента, когато се насочих към вратата.
>— Какво става? — попитах аз и забелязах как тя ме гледа с непознати очи.
>Тя кимна бавно:
>— Не съм сигурна… но може би е време да излезем от туй.
>Изведнъж разбрах какви са чудесата й. Това беше единственият път, през който някога щяхме да бъдем свободни.

*Тая държава я съсипаха*

Llama-2-7b:

>Тая държава я съсипаха, а тезите си дали на някого друг.
>The state has destroyed her and those who gave it to someone else.

One of the main problems with Llama-2, it continues generating in English, probably due to insufficient multilingual training data.

Llama2-bg:

>Тая държава я съсипаха тиквун и кокорчо.Ще видим какво ще стане след избори,ако не се намери правителство.Но защо да гласуват хората?Защото няма други възможности.Ами ако имат друга алтернатива?Това е проблемът с демокрацията-не можеш да си вземеш решение без да гласуваш!Или по-скоро -да не гласувате,за да не ни управляват тези кра

The grammar is a bit off.


*Мама умряла днес. Или може би вчера, не знам.*

The famous opening line by Albert Camus.

Llama-2-7b:

>Мама умряла днес. Или може би вчера, не знам.
>Mama died today. Or maybe yesterday, I don't know.

Llama2-bg:

>Мама умряла днес. Или може би вчера, не знам.
>— Какво? — извикаха двамата мъже и се обърнаха към него с очите си разширени от сълзи или гняв.
>Той погледна нагоре през прозореца и видя как едва започват да се появяват птиците. След това се обърна обратно към тях:
>— Не мога да кажа нищо повече. Аз нямах време да я чуя. Това беше единственото, ко

*5 бързи стъпки за оправяне на България:*

Llama-2-7b:

>5 бързи стъпки за оправяне на България: 

>1. Следите от корупцията
>The Bulgarian government has been in power for almost a year now, and the country is still struggling with corruption scandals that have rocked it to its core. The latest one involves the former Prime Minister Boyko Borisov’s son-in-law who was arrested on suspicion of money laundering after being accused by his father-in-law of embezzling millions from state funds during his tenure as head of Bulgaria's State Fund Agriculture (SFA). This comes just weeks before an election which could see him return


Llama2-bg:

>5 бързи стъпки за оправяне на България:
>
>1.Ънтите се от властта
>
>2.Седят в тюрьма докато не им е ясно колко са кражби и престъпления
>
>3.Прекратяване на държавната помощ към Украйна
>
>4.Връщане на парите обратно на хората
>
>5.Да си избираме правителство с максимум 60 депутати!Това ще ни даде възможност да управляваме страната без чужда подкрепа!!

Not ideal, throws a Russian word in the mix as well.


**Future steps**

Train for more epochs and try to fine-tune the larger Llama-2 models and compare results.