--- license: apache-2.0 --- # japanese-stablelm-base-gamma-7b-AWQ-calib-ja-1k stabilityaiさんが公開している、[japanese-stablelm-base-gamma-7b](https://huggingface.co/stabilityai/japanese-stablelm-base-gamma-7b)を、 日本語のキャリブレーションセットで生成したAWQモデルになります。 キャリブレーションセットは[izumi-lab/wikipedia-ja-20230720](https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720)から、 1kほどランダムサンプリングしています。 [mmnga/wikipedia-ja-20230720-1k](https://huggingface.co/datasets/mmnga/wikipedia-ja-20230720-1k) # AWQモデル [Paper arxiv:2306.00978](https://arxiv.org/abs/2306.00978) キャリブレーションセットからActivationを行うことによって、量子化する際に重要な重みを検出し、f16で保護します。 日本語のキャリブレーションセットを使用して生成すると、どれくらい変化があるのか検証する為に作成しました。 他のモデルはこちら AWQ [mmnga/japanese-stablelm-base-gamma-7b-AWQ-calib-ja-1k](https://huggingface.co/mmnga/japanese-stablelm-base-gamma-7b-AWQ-calib-ja-1k) [mmnga/japanese-stablelm-instruct-gamma-7b-AWQ-calib-ja-1k](https://huggingface.co/mmnga/japanese-stablelm-instruct-gamma-7b-AWQ-calib-ja-1k) GPTQ [mmnga/japanese-stablelm-base-gamma-7b-GPTQ-calib-ja-1k](https://huggingface.co/mmnga/japanese-stablelm-base-gamma-7b-GPTQ-calib-ja-1k) [mmnga/japanese-stablelm-instruct-gamma-7b-GPTQ-calib-ja-1k](https://huggingface.co/mmnga/japanese-stablelm-instruct-gamma-7b-GPTQ-calib-ja-1k) GGUF 3bモデル [mmnga/japanese-stablelm-3b-4e1t-base-gguf](https://huggingface.co/mmnga/japanese-stablelm-3b-4e1t-base-gguf) [mmnga/japanese-stablelm-3b-4e1t-instruct-gguf](https://huggingface.co/mmnga/japanese-stablelm-3b-4e1t-instruct-gguf) 7bモデル [mmnga/japanese-stablelm-base-gamma-7b-gguf](https://huggingface.co/mmnga/japanese-stablelm-base-gamma-7b-gguf) [mmnga/japanese-stablelm-instruct-gamma-7b-gguf](https://huggingface.co/mmnga/japanese-stablelm-instruct-gamma-7b-gguf) # Usage *google colabを利用する場合、A100でのみ動作します。ご注意ください。* ~~~Bash pip install autoawq transformers ~~~ ~~~python from awq import AutoAWQForCausalLM from transformers import AutoTokenizer model_name_or_path = "mmnga/japanese-stablelm-base-gamma-7b-AWQ-calib-ja-1k" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True) model = AutoAWQForCausalLM.from_quantized(model_name_or_path, safetensors=True, device_map="auto", fuse_layers=True) prompt = """今日の晩御飯のレシピを紹介します。""" tokens = tokenizer( prompt, return_tensors='pt' ).input_ids.cuda() # Generate output generation_output = model.generate( tokens, do_sample=True, temperature=0.7, top_p=0.95, top_k=40, max_new_tokens=128 ) print(tokenizer.decode(generation_output[0])) ~~~