--- license: apache-2.0 datasets: - Manual-Dataset-Creation-Project/Malum-130 - sudy-super/CoTangent - llm-jp/oasst1-21k-ja - llm-jp/oasst2-33k-ja - Aratako/Rosebleu-1on1-Dialogues-RP - baobab-trees/wikipedia-human-retrieval-ja - aixsatoshi/Longcontext-aozora-summary - aixsatoshi/Longcontext-aozora-instruction - kunishou/amenokaku-code-instruct - HachiML/Evol-hh-rlhf-gen3-1k - minnade/chat-daily - HachiML/Hachi-Alpaca - Kendamarron/jimba-wiki-instruction-calm3 --- # Raicho-7B ### Description Raicho-7Bは、[RakutenAI-7B](https://huggingface.co/Rakuten/RakutenAI-7B)をベースとして[Malum-130](https://huggingface.co/datasets/Manual-Dataset-Creation-Project/Malum-130)を含む約11万件のデータでFine-tuningを行ったモデルです。 ### Usage ```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer B_INST, E_INST = "[INST]", "[/INST]" text = "旅行に行くと高層ビルがたくさん建っていました。これからどのようなことが推測できますか?" model_name = "Manual-Dataset-Creation-Project/Raicho-7B-v0.1" tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16) if torch.cuda.is_available(): model = model.to("cuda") prompt = "{bos_token}{b_inst}{prompt}{e_inst}".format( bos_token=tokenizer.bos_token, b_inst=B_INST, prompt=text, e_inst=E_INST, ) with torch.no_grad(): token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt") output_ids = model.generate( token_ids.to(model.device), max_new_tokens=256, pad_token_id=tokenizer.pad_token_id, eos_token_id=tokenizer.eos_token_id, ) output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1) :], skip_special_tokens=True) print(output) """ 高層ビルが多く存在する場所は、都市部である可能性が高いです。旅行先の町や地方で高層ビルが多い場合、その地域は大都市であると推測できます。 もし大都市だと仮定すると、公共交通機関が発達しており、駅周辺にオフィスビルが立ち並ぶことが見込めます。よって、旅行先の町や地方で高層ビルが多い場合、その地域は大都市であると推測できます。 """ ``` ### Chat Template #### use_fast = False ``` [INST]明日の東京の天気は何ですか?[/INST]晴れです。[INST]大阪はどうですか?[/INST]雨です。 ``` #### use_fast = True ``` [INST]明日の東京の天気は何ですか?[/INST]晴れです。 [INST]大阪はどうですか?[/INST]雨です。 ``` ### Hyperparameter ``` num_train_epochs: 5 per_device_train_batch_size: 4 per_device_eval_batch_size: 4 gradient_accumulation_steps: 64 learning_rate: 2.5e-5 lr_scheduler_kwargs={"min_lr": 2.5e-6} lr_scheduler_type: "cosine_with_min_lr" warmup_ratio: 0.1 dataloader_pin_memory: True gradient_checkpointing: True bf16: True optim: "adamw_torch_fused" weight_decay: 0.0 max_grad_norm: 1.0 adam_beta2: 0.99 label_smoothing_factor: 0.0 seed: 42 ``` ### Author [Rakuto Suda](https://huggingface.co/sudy-super)