ebisuke commited on
Commit
ce42fdb
1 Parent(s): 27728f9

initial commit

Browse files
README.md CHANGED
@@ -1,3 +1,62 @@
1
  ---
2
- license: mit
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ language:
3
+ - ja
4
+ datasets:
5
+ - ebisuke/liz-nojaloli-ja-ds
6
  ---
7
+ # ebisuke/liz-nojaloli-nxja-ja
8
+
9
+ ## License
10
+ [MIT](https://opensource.org/licenses/MIT)
11
+ ベースとして[abeja/gpt-neox-japanese-2.7b](https://huggingface.co/abeja/gpt-neox-japanese-2.7b)を使用しています。
12
+
13
+ ## Description
14
+ のじゃロリ風味チャットモデルです。
15
+ [ebisuke/liz-nojaloli-ja](ebisuke/liz-nojaloli-ja)のバリアントです。
16
+
17
+ [abeja/gpt-neox-japanese-2.7b](https://huggingface.co/abeja/gpt-neox-japanese-2.7b)をベースとしてファインチューンしています。
18
+ 開発者の趣味と個人的な勉強用の為に作成しました。
19
+
20
+ いろいろと不足しているのであまり会話は通じません。
21
+ __本モデルは開発中のため、データセットの更新により逐次アップデートされる可能性があります。__
22
+
23
+
24
+ ## Datasets
25
+ ファインチューンでは以下のデータセットのみ使用しています。
26
+ [ebisuke/liz-nojaloli-ja-ds](https://huggingface.co/datasets/ebisuke/liz-nojaloli-ja-ds)
27
+
28
+ ## Usage
29
+
30
+ ユーザーの入力を"`相手は言いました。「(内容)」\n`"で括ってください。
31
+ モデルは"`あなたは言いました。「`"以降の文脈を生成します。
32
+ それ以降も続く場合があるので必要に応じて"`」`"の文字までで打ち切ってください。
33
+ ```python
34
+ import torch
35
+ from transformers import AutoTokenizer, AutoModelForCausalLM
36
+
37
+ tokenizer = AutoTokenizer.from_pretrained("ebisuke/liz-nojaloli-nxja-ja", use_fast=True)
38
+ model = AutoModelForCausalLM.from_pretrained("ebisuke/liz-nojaloli-nxja-ja", load_in_8bit=True, device_map='auto')
39
+
40
+ text = "相手は言いました。「眠いにゃ・・・」 \nあなたは言いました。「"
41
+ token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")
42
+
43
+ with torch.no_grad():
44
+ output_ids = model.generate(
45
+ input_ids=token_ids.to(model.device),
46
+ max_new_tokens=1000,
47
+ do_sample=True,
48
+ temperature=0.7,
49
+ pad_token_id=tokenizer.pad_token_id,
50
+ bos_token_id=tokenizer.bos_token_id,
51
+ eos_token_id=tokenizer.eos_token_id,
52
+ )
53
+
54
+ output = tokenizer.decode(output_ids.tolist()[0],skip_special_tokens=True)
55
+ print(output)
56
+ ```
57
+
58
+
59
+ ## Plan
60
+ - RLHFとかに挑戦してみる。
61
+ - プロンプトの記述方法を、既存のチャットモデルのフォーマットに合わせるか検討中。
62
+ - 指示をあまり受け付けない・物を知らない方が好みなので、そういうチューニングは限定的です。
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "abeja/gpt-neox-japanese-2.7b",
3
+ "architectures": [
4
+ "GPTNeoXJapaneseForCausalLM"
5
+ ],
6
+ "attention_dropout": 0.1,
7
+ "bos_token_id": 31999,
8
+ "eos_token_id": 31999,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout": 0.0,
11
+ "hidden_size": 2560,
12
+ "initializer_range": 0.02,
13
+ "intermediate_multiple_size": 4,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 2048,
16
+ "model_type": "gpt_neox_japanese",
17
+ "num_attention_heads": 32,
18
+ "num_hidden_layers": 32,
19
+ "rotary_emb_base": 10000,
20
+ "rotary_pct": 1.0,
21
+ "tokenizer_class": "GPTNeoXJapaneseTokenizer",
22
+ "torch_dtype": "bfloat16",
23
+ "transformers_version": "4.29.2",
24
+ "use_cache": false,
25
+ "vocab_size": 32000
26
+ }
emoji.json ADDED
The diff for this file is too large to render. See raw diff
 
generation_config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 31999,
4
+ "eos_token_id": 31999,
5
+ "transformers_version": "4.29.2"
6
+ }
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0e15d1d42af14e6c4693768b63f738c0cec0f05a1484c622688d8af3bec3e729
3
+ size 5197782249
special_tokens_map.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<|startoftext|>",
3
+ "eos_token": "<|endoftext|>",
4
+ "pad_token": "<|endoftext|>",
5
+ "unk_token": "<|endoftext|>"
6
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<|startoftext|>",
3
+ "clean_up_tokenization_spaces": true,
4
+ "do_clean_text": false,
5
+ "eos_token": "<|endoftext|>",
6
+ "model_max_length": 2048,
7
+ "pad_token": "<|endoftext|>",
8
+ "tokenizer_class": "GPTNeoXJapaneseTokenizer",
9
+ "unk_token": "<|endoftext|>"
10
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1ac67086803289b2d9688cd5aad0b4c3d7220b506be19228cfa7a288651d85bf
3
+ size 3899
vocab.txt ADDED
The diff for this file is too large to render. See raw diff