mmnga
/

llm-jp-13b-v1.0-4bit-g128-GPTQ-calib-ja-1k

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

mmnga commited on Oct 20, 2023

Commit

73b89a9

•

1 Parent(s): 13e90e9

Create README.md

Files changed (1) hide show

README.md +35 -0

README.md ADDED Viewed

	@@ -0,0 +1,35 @@

+---
+license: apache-2.0
+---
+# llm-jp-13b-v1.0-4bit-g128-GPTQ-calib-ja-1k
+llm-jpさんが公開している、[llm-jp-13b-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-v1.0)を、
+日本語のキャリブレーションセットで生成したGPTQモデルになります。
+キャリブレーションセットは[izumi-lab/wikipedia-ja-20230720](https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720)から、
+1kほどランダムサンプリングしたものと、
+[ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100)のinput/outputを計200ほど追加しています。
+[mmnga/wikipedia-ja-20230720-1k](https://huggingface.co/datasets/mmnga/wikipedia-ja-20230720-1k)
+# Usage
+~~~Bash
+pip install auto-gptq transformers
+~~~
+~~~python
+from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
+from transformers import AutoTokenizer
+model_name_or_path = "mmnga/llm-jp-13b-v1.0-4bit-g128-GPTQ-calib-ja-1k"
+# Tokenizer
+tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)
+# Model
+model = AutoGPTQForCausalLM.from_quantized(model_name_or_path, use_safetensors=True, device="cuda:0", use_auth_token=False)
+#Your test prompt
+prompt = """今日の晩御飯のレシピをご紹介します。"""
+print(tokenizer.decode(model.generate(**tokenizer(prompt, return_tensors="pt").to(model.device), max_length=128)[0]))
+~~~