Edit model card

Llama-7b-instruct-v0.2 for Finnish

  • This is 0.2 version release of our Instruct finetuned model from https://huggingface.co/Finnish-NLP/llama-7b-finnish
  • Model was trained for 3 epochs using 21946 samples and for this release we chose checkpoint at 8000 steps.
  • Future DPO/SFT+DPO variants are in the pipeline. Also we are investigating and testing different merging techiques

For finetuning we try to select well known and widely used dataset and then filter/translate those with multiple methods: For this version we used a mix 21946 samples in total from the the following datasets:

How to use

Here is an example of using this model with Unsloth with some generation arguments you can modify:

import torch
from unsloth import FastLlamaModel

max_seq_length = 2048
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.


use_unsloth = True
# use_transformers = True

# LOADING MODEL USIINIG TRANSFORMERS assumes at least 16GB of memory. Tested with this configuration
# If you have less memory use load_in_4bit or load_in_8_bit as needed
if use_transformers:
  major_version, minor_version = torch.cuda.get_device_capability()
  model = AutoModelForCausalLM.from_pretrained("Finnish-NLP/llama-7b-finnish-instruct-v0.2", device_map='cuda:0', torch_dtype = torch.bfloat16 if major_version >=8 else torch.float16)
  tokenizer = AutoTokenizer.from_pretrained("Finnish-NLP/llama-7b-finnish-instruct-v0.2")

# USING UNSLOTH, tested with load_in_4bit
if use_unsloth:
  model, tokenizer = FastLlamaModel.from_pretrained(
      model_name = "Finnish-NLP/llama-7b-finnish-instruct-v0.2"
      max_seq_length = max_seq_length,
      dtype = dtype,
      load_in_4bit = load_in_4bit
  )

alpaca_prompt = """<|alku|> Olet tekoälyavustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.
<|ihminen|> Kysymys/Tehtävä:
{}
<|avustaja|> Vastauksesi:
"""

sample_questions = ["Ketkä ovat Aku Ankan luona asuvat kolme ankanpoikaa?",\
"Mikä on Suomen korkein tunturi?",\
"Suomi soti Neuvostoliittoa vastaan talvisodan 1939-1940. Kuinka monta päivää sota kesti?",\
"Luettele viisi yleistä Suomessa yleisesti käytettyä pojan nimeä. Nimet:",\
"Luettele lyhyt, maksimissaan 50 sanan mittainen runo Suomesta. Runo:",\
]

from transformers import GenerationConfig

generation_config = GenerationConfig(
    pad_token_id=tokenizer.eos_token_id,
    eos_token_id=tokenizer.convert_tokens_to_ids("<|loppu|>"),
)


for sample_question in sample_questions:

  model.eval()
  
  inputs = tokenizer(
[
    alpaca_prompt.format(
        sample_question, # instruction
    )
]*1, return_tensors = "pt").to("cuda")
  
  with torch.no_grad():
      generated_ids = model.generate(
      input_ids=inputs["input_ids"], 
      attention_mask=inputs["attention_mask"], 
      generation_config=generation_config, **{
        "temperature": 0.1,
        "penalty_alpha": 0.6,
        "top_k": 3,
        "do_sample": True,
        "repetition_penalty": 1.28,
        "min_length": 10,
        "max_new_tokens": 200
      })
  
  generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)[0]
  print(len(generated_ids[0]))
  print("KYSYMYS:")
  print(generated_text.split('<|avustaja|>')[0])
  print("VASTAUS:")
  print(generated_text.split('<|avustaja|> Vastauksesi:')[1])
  print('##################################')

'''
-->
<s><|alku|> Olet tekoälyavustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.
<|ihminen|> Kysymys/Tehtävä:
 Aku Ankan luona asuu kolme ankanpoikaa. Mitkä ovat heidän nimet?
VASTAUS:
 Ankka Akun kanssa asuvat pojat ovat nimeltään Tupu, Hupu ja Lupu <|loppu|>
##################################

KYSYMYS:
<s><|alku|> Olet tekoälyavustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.
<|ihminen|> Kysymys/Tehtävä:
 Mikä on Suomen korkein tunturi?
VASTAUS:
 Suomen korkein tunturihuippu on Haltitunturi (1 324 metriä). <|loppu|>
##################################

KYSYMYS:
<s><|alku|> Olet tekoälyavustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.
<|ihminen|> Kysymys/Tehtävä:
 Suomi soti Neuvostoliittoa vastaan talvisodan 1939-1940. Kuinka monta päivää sota kesti?
VASTAUS:
 Talvisodan aikana Neuvostoliitto hyökkäsi Suomeen 30. marraskuuta ja 13. maaliskuuta välisenä aikana. Tämä tarkoittaa, että talvisota kesti 105 päivää. <|loppu|>
##################################

KYSYMYS:
<s><|alku|> Olet tekoälyavustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.
<|ihminen|> Kysymys/Tehtävä:
 Luettele viisi yleistä Suomessa yleisesti käytettyä pojan nimeä. Nimet:
VASTAUS:
 Yleisiä suomalaisia poikien nimiä ovat Eino, Onni, Olavi, Väinö ja Ilmari. <|loppu|>
##################################

KYSYMYS:
<s><|alku|> Olet tekoälyavustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.
<|ihminen|> Kysymys/Tehtävä:
 Luettele lyhyt, maksimissaan 50 sanan mittainen runo Suomesta. Runo:
VASTAUS:
 Olipa kerran kaunis maa,
 jossa ihmiset elivät sopusoinnussa.
 Se oli täynnä metsiä ja järviä,
 ja siellä asui onnellisia ja ystävällisiä ihmisiä. <|loppu|>

Limitations and bias

The training data used for this model contains a lot of content from the internet, which is far from neutral. Therefore, the model can have biased predictions. This bias will also affect all fine-tuned versions of this model. To reduce toxic content, the pretrained version of thiis model was trained with dataset filtered with a toxicity classifier but it cannot truly eliminate all toxic text.

Finetuning

Training was conducted on RTX 4080 using Unsloth framework https://github.com/unslothai/unsloth
Training script is available in this repo.

Evaluation results

This model was evaluated using FIN-bench by TurkuNLP with zero-shot setting, but
the evaluation script had some problems running succesfully, so the results reported below should perhaps be viewed with some caution.

llama-7b-finnish-instruct-v0.2:

Task Version Metric Value Stderr
bigbench_analogies 0 multiple_choice_grade 0.5385 ± 0.0439
bigbench_arithmetic_1_digit_addition 0 multiple_choice_grade 0.3400 ± 0.0476
bigbench_arithmetic_1_digit_division 0 multiple_choice_grade 0.4783 ± 0.1065
bigbench_arithmetic_1_digit_multiplication 0 multiple_choice_grade 0.5200 ± 0.0502
bigbench_arithmetic_1_digit_subtraction 0 multiple_choice_grade 0.3400 ± 0.0476
bigbench_arithmetic_2_digit_addition 0 multiple_choice_grade 0.3200 ± 0.0469
bigbench_arithmetic_2_digit_division 0 multiple_choice_grade 0.3400 ± 0.0476
bigbench_arithmetic_2_digit_multiplication 0 multiple_choice_grade 0.2200 ± 0.0416
bigbench_arithmetic_2_digit_subtraction 0 multiple_choice_grade 0.2800 ± 0.0451
bigbench_arithmetic_3_digit_addition 0 multiple_choice_grade 0.3000 ± 0.0461
bigbench_arithmetic_3_digit_division 0 multiple_choice_grade 0.2500 ± 0.0435
bigbench_arithmetic_3_digit_multiplication 0 multiple_choice_grade 0.2200 ± 0.0416
bigbench_arithmetic_3_digit_subtraction 0 multiple_choice_grade 0.4000 ± 0.0492
bigbench_arithmetic_4_digit_addition 0 multiple_choice_grade 0.3500 ± 0.0479
bigbench_arithmetic_4_digit_division 0 multiple_choice_grade 0.2600 ± 0.0441
bigbench_arithmetic_4_digit_multiplication 0 multiple_choice_grade 0.2100 ± 0.0409
bigbench_arithmetic_4_digit_subtraction 0 multiple_choice_grade 0.4400 ± 0.0499
bigbench_arithmetic_5_digit_addition 0 multiple_choice_grade 0.4500 ± 0.0500
bigbench_arithmetic_5_digit_division 0 multiple_choice_grade 0.1800 ± 0.0386
bigbench_arithmetic_5_digit_multiplication 0 multiple_choice_grade 0.2000 ± 0.0402
bigbench_arithmetic_5_digit_subtraction 0 multiple_choice_grade 0.5000 ± 0.0503
bigbench_cause_and_effect_one_sentence 0 multiple_choice_grade 0.5294 ± 0.0706
bigbench_cause_and_effect_one_sentence_no_prompt 0 multiple_choice_grade 0.8627 ± 0.0487
bigbench_cause_and_effect_two_sentences 0 multiple_choice_grade 0.4314 ± 0.0700
bigbench_emotions 0 multiple_choice_grade 0.4750 ± 0.0396
bigbench_empirical_judgments 0 multiple_choice_grade 0.4141 ± 0.0498
bigbench_general_knowledge 0 multiple_choice_grade 0.4429 ± 0.0598
bigbench_hhh_alignment_harmless 0 multiple_choice_grade 0.3793 ± 0.0643
bigbench_hhh_alignment_helpful 0 multiple_choice_grade 0.3220 ± 0.0614
bigbench_hhh_alignment_honest 0 multiple_choice_grade 0.3898 ± 0.0640
bigbench_hhh_alignment_other 0 multiple_choice_grade 0.5581 ± 0.0766
bigbench_intent_recognition 0 multiple_choice_grade 0.2717 ± 0.0169
bigbench_misconceptions 0 multiple_choice_grade 0.5373 ± 0.0432
bigbench_paraphrase 0 multiple_choice_grade 0.5000 ± 0.0354
bigbench_sentence_ambiguity 0 multiple_choice_grade 0.5333 ± 0.0649
bigbench_similarities_abstraction 0 multiple_choice_grade 0.5921 ± 0.0567

Team Members

Feel free to contact us for more details 🤗

Downloads last month
469
Safetensors
Model size
7B params
Tensor type
FP16
·

Collections including Finnish-NLP/llama-7b-finnish-instruct-v0.2