kishizaki-sci
commited on
Commit
•
c488176
1
Parent(s):
59d3d4c
Update README.md
Browse files
README.md
CHANGED
@@ -2,4 +2,50 @@
|
|
2 |
license: mit
|
3 |
base_model:
|
4 |
- meta-llama/Llama-3.3-70B-Instruct
|
5 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
license: mit
|
3 |
base_model:
|
4 |
- meta-llama/Llama-3.3-70B-Instruct
|
5 |
+
---
|
6 |
+
|
7 |
+
# kishizaki-sci/Llama-3.3-70B-Instruct-AWQ-4bit-JP-EN
|
8 |
+
|
9 |
+
## モデル情報
|
10 |
+
[Llama-3.3-70B-Instruct](https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct)を[AutoAWQ](https://github.com/casper-hansen/AutoAWQ)で4bit 量子化したモデル。量子化の際のキャリブレーションデータに日本語と英語を含むデータを使用。
|
11 |
+
|
12 |
+
## 使い方
|
13 |
+
### transformers
|
14 |
+
```python
|
15 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
|
16 |
+
|
17 |
+
tokenizer = AutoTokenizer.from_pretrained("kishizaki-sci/Llama-3.3-70B-Instruct-AWQ-4bit-JP-EN")
|
18 |
+
model = AutoModelForCausalLM.from_pretrained("kishizaki-sci/Llama-3.3-70B-Instruct-AWQ-4bit-JP-EN")
|
19 |
+
model.to("cuda")
|
20 |
+
|
21 |
+
chat = [
|
22 |
+
{"role": "system", "content": "あなたは日本語で応答するAIチャットボットです。ユーザをサポートしてください。"},
|
23 |
+
{"role": "user", "content": "plotly.graph_objectsを使って散布図を作るサンプルコードを書いてください。"}
|
24 |
+
]
|
25 |
+
prompt = tokenizer.apply_chat_template(
|
26 |
+
chat,
|
27 |
+
tokenize=False,
|
28 |
+
add_generation_prompt=True
|
29 |
+
)
|
30 |
+
inputs = tokenizer(prompt, return_tensors="pt")
|
31 |
+
inputs = inputs.to("cuda")
|
32 |
+
streamer = TextStreamer(tokenizer)
|
33 |
+
|
34 |
+
output = model.generate(**inputs, streamer=streamer, max_new_tokens=1024)
|
35 |
+
```
|
36 |
+
このコードはA100インスタンスの[Google Colab](https://colab.research.google.com/drive/1NSWV6MMisTlN5ELN42VPMLRH9ahAfNrJ?usp=sharing) でも動かせます。
|
37 |
+
|
38 |
+
### vLLM
|
39 |
+
```python
|
40 |
+
```
|
41 |
+
|
42 |
+
## キャリブレーションデータ
|
43 |
+
以下のデータセットから512個のデータ,プロンプトを抽出。1つのデータのトークン数は最大350制限。
|
44 |
+
- [TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)
|
45 |
+
- [meta-math/MetaMathQA](https://huggingface.co/datasets/meta-math/MetaMathQA)
|
46 |
+
- [m-a-p/CodeFeedback-Filtered-Instruction](https://huggingface.co/datasets/m-a-p/CodeFeedback-Filtered-Instruction)
|
47 |
+
- [kunishou/databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja)
|
48 |
+
- その他日本語版・英語版のwikipedia記事から作成したオリジナルデータ,有害プロンプト回避のためのオリジナルデータを使用。
|
49 |
+
|
50 |
+
## License
|
51 |
+
[MIT License]を適用する。ただし量子化のベースモデルに適用されている[Llama 3.3 Community License Agreement](https://github.com/meta-llama/llama-models/blob/main/models/llama3_3/LICENSE)を遵守すること。
|