from peft import PeftModel from transformers import LlamaTokenizer, LlamaForCausalLM, GenerationConfig import gradio as gr from torch.cuda import is_available from torch import bfloat16 if is_available(): options = dict( load_in_8bit=True, device_map="auto", ) else: options = { "torch_dtype": bfloat16 #"low_cpu_mem_usage": True, #"offload_state_dict": True, #"offload_folder": "offload", #"device_map": "auto", } tokenizer = LlamaTokenizer.from_pretrained("openlm-research/open_llama_3b_v2") model = LlamaForCausalLM.from_pretrained( "openlm-research/open_llama_3b_v2", **options ) model = PeftModel.from_pretrained(model, "robinhad/open_llama_3b_uk", )#offload_state_dict=True, offload_folder=".") def generate_prompt(instruction, input=None, output=""): if input: return f"""Унизу надається інструкція, яка описує завдання разом із вхідними даними, які надають додатковий контекст. Напиши відповідь, яка правильно доповнює запит. ### Інструкція: {instruction} ### Вхідні дані: {input} ### Відповідь: {output}""" else: return f"""Унизу надається інструкція, яка описує завдання. Напиши відповідь, яка правильно доповнює запит. ### Інструкція: {instruction} ### Відповідь: {output}""" generation_config = GenerationConfig( temperature=0.2, top_p=0.75, num_beams=4, ) def evaluate(instruction, input=None): if input.strip() == "": input = None prompt = generate_prompt(instruction, input) inputs = tokenizer(prompt, return_tensors="pt") input_ids = inputs["input_ids"] if is_available(): input_ids = input_ids.cuda() generation_output = model.generate( input_ids=input_ids, generation_config=generation_config, return_dict_in_generate=True, output_scores=True, max_new_tokens=64 ) for s in generation_output.sequences: output = tokenizer.decode(s, skip_special_tokens=True) print("============") print(output) return output.split("### Відповідь:")[1].strip() gr.Interface( evaluate, [ gr.inputs.Textbox(lines=5, label="Інструкція"), gr.inputs.Textbox(lines=5, label="Вхідні дані (необов'язково)"), ], gr.outputs.Textbox(label="Відповідь"), title="Kruk", description="Open Llama is a Ukrainian language model trained on the machine-translated Dolly dataset.", examples=[ [ "Яка найвища гора в Україні?", "", ], [ "Розкажи історію про Івасика-Телесика.", "", ], [ "Яка з цих гір не знаходиться у Європі?", "Говерла, Монблан, Гран-Парадізо, Еверест" ], [ "Чому качки жовтоногі?", "", ], [ "Чому у качки жовті ноги?", "", ], ] ).launch()