--- datasets: - IlyaGusev/ru_turbo_alpaca - yahma/alpaca-cleaned language: - ru - en pipeline_tag: text2text-generation inference: false --- # LLaMA 13B trained on the ru_turbo_alpaca, Russian instructions dataset Based on [LLaMA 13B](https://huggingface.co/decapoda-research/llama-13b-hf). * This is an adapter-only version. * llama.cpp version: [link](https://huggingface.co/IlyaGusev/llama_13b_ru_turbo_alpaca_lora_llamacpp). Colab: [link](https://colab.research.google.com/drive/18GG-zwxyGAHoVXghlOQONkxb_GpR7USj) Training code: [link](https://github.com/IlyaGusev/rulm/tree/master/self_instruct) Versions: - v2, April 8, 2023: A model trained with outputs capped at 800 tokens instead of 400. - `revision="3dff86a20f80ba203fec6e986a3422b83822ca70"` - Final loss: 0.995 - Time: 38 hours, 35 minutes - Hardware: 1x RTX 3090Ti - Wandb link: [link](https://wandb.ai/ilyagusev/rulm_self_instruct/runs/wy66bwim/overview?workspace=user-ilyagusev) - v1, April 2, 2023: Original model trained with 400 max tokens in outputs. Both Russian and English are supported, trained on the ru_turbo_alpaca and alpaca-cleaned. - `revision="97209c36c9261eb9527371a341c70f90c39ee158"` - Final loss: 1.074 - Time: 53 hours, 53 minutes - Hardware: 1x RTX 3090 ```python from peft import PeftModel, PeftConfig from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig MODEL_NAME = "IlyaGusev/llama_13b_ru_turbo_alpaca_lora" config = PeftConfig.from_pretrained(MODEL_NAME) model = AutoModelForCausalLM.from_pretrained( config.base_model_name_or_path, load_in_8bit=True, device_map="auto" ) model = PeftModel.from_pretrained(model, MODEL_NAME, device_map={'': 0}) tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) ``` Examples: ``` Вопрос: Почему трава зеленая? Выход: Траву зеленую можно объяснить на основе физиологических и биохимических процессов, которые происходят в растениях. В ходе фотосинтеза растения используют солнечную энергию для преобразования углекислого газа и воды в органические вещества, такие как сахара и крахмал. В процессе фотосинолиза растения выделяют зеленый пигмент хлорофилл, который ответственен за зеленую окраску листьев и других частей растения. Таким образом, траву зеленой можно объяснять наличием большого количества этого пигмента в растительных тканях. ``` ``` Задание: Сочини длинный рассказ, обязательно упоминая следующие объекты. Вход: Таня, мяч Выход: Таня любила играть в футбол. Ее любимым мячом был старый мяч, который она получила в подарок от своего дяди. Он был такой же старый, как и она сама, и они вместе росли. Однажды, когда Таня играла в футбол со своими друзьями, ее мяч пропал. Они искали его по всему парку, но ничего не нашли. Таня была очень расстроена, потому что это был ее самый любимый мяч. Ночью, когда все были спящими, Таня услышала голос, который говорил ей: "Таня, я могу вернуть тебе свой мяч". Таня выглянула на улицу и увидела старую женщину, которая держала в руках ее старый футбол. "Здравствуйте, матушка", - сказала Таня. "Как вы знаете, где мой мяч?" "Я знаю", - ответила старая женщина. "Я видел, как он упал в воду, и я смог его вытащить. Я думаю, что он теперь готов к игре". Таня была счастлива, что ее любимой игрушеке удалось спастись ```