Edit model card

モデルについて

Qwen/Qwen1.5-0.5Bを日英データ5Bトークンで継続事前学習したモデルです。

ベンチマークのスコアは低下していますが、ベースモデルよりも安定して日本語を出力するようになっています。

詳細はこちらをご覧ください。

ベンチマーク

Stability-AI/lm-evaluation-harnessの3項目で評価

モデル jsquad(1-shot) jcommonsenseqa(1-shot) jnli(1-shot)
Kendamarron/Tokara-0.5B-v0.1 26.4295 0.2663 0.5509
Qwen/Qwen1.5-0.5B 31.3597 0.2556 0.5534

名前について

日本の在来馬であるトカラ馬から

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

model = AutoModelForCausalLM.from_pretrained('Kendamarron/Tokara-0.5B-v0.1')
tokenizer = AutoTokenizer.from_pretrained('Kendamarron/Tokara-0.5B-v0.1')

pipe = pipeline('text-generation', model=model, tokenizer=tokenizer)

prompt = "大規模言語モデルとは、"

print(pipe(prompt, max_length=128, repetition_penalty=1.1, temperature=0.7, top_p=0.95))
Downloads last month
67
Safetensors
Model size
464M params
Tensor type
BF16
·
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Datasets used to train Kendamarron/Tokara-0.5B-v0.1

Collection including Kendamarron/Tokara-0.5B-v0.1