cstorm125 commited on
Commit
e77e386
1 Parent(s): 4c72dd1

trained with chimera_qa

Browse files
README.md CHANGED
@@ -3,19 +3,20 @@ widget:
3
  - text: "สวนกุหลาบเป็นโรงเรียนอะไร"
4
  context: "โรงเรียนสวนกุหลาบวิทยาลัย (Suankularb Wittayalai School) (อักษรย่อ : ส.ก. / S.K.) เป็นโรงเรียนชายล้วน ระดับชั้นมัธยมศึกษาขนาดใหญ่พิเศษ สังกัดสำนักงานเขตพื้นที่การศึกษามัธยมศึกษาเขต 1 สำนักงานคณะกรรมการการศึกษาขั้นพื้นฐาน (ชื่อเดิม: กรมสามัญศึกษา) กระทรวงศึกษาธิการ ก่อตั้งโดย พระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัว ได้รับการสถาปนาขึ้นในวันที่ 8 มีนาคม พ.ศ. 2424 (ขณะนั้นนับวันที่ 1 เมษายน เป็นวันขึ้นปีใหม่ เมื่อนับอย่างสากลถือเป็น พ.ศ. 2425) โดยเป็นโรงเรียนรัฐบาลแห่งแรกของประเทศไทย"
5
  ---
 
6
  # bert-base-multilingual-cased
7
 
8
- Finetuning `bert-base-multilingual-cased` with the training set of `iapp_wiki_qa_squad`, `thaiqa`, `xquad` (removed examples which have cosine similarity with validation and test examples over 0.8). Benchmarks shared on [wandb](https://wandb.ai/cstorm125/wangchanberta-qa) using validation and test sets of `iapp_wiki_qa_squad`.
9
- Trained with [thai2transformers](https://github.com/vistec-AI/thai2transformers/blob/dev/scripts/downstream/train_question_answering_lm_finetuning.py). Combined benchmark datasets downloadable at [vistec-ai/thai2transformers](https://github.com/vistec-AI/thai2transformers/releases/tag/qa-v0.2).
10
 
11
  Run with:
12
  ```
13
  export MODEL_NAME=bert-base-multilingual-cased
14
  python train_question_answering_lm_finetuning.py \
15
  --model_name $MODEL_NAME \
16
- --dataset_name iapp_thaiqa_xquad \
17
- --output_dir $MODEL_NAME-finetune-iapp_thaiqa_xquad-model \
18
- --log_dir $MODEL_NAME-finetune-iapp_thaiqa_xquad-log \
19
  --pad_on_right \
20
  --fp16
21
- ```
3
  - text: "สวนกุหลาบเป็นโรงเรียนอะไร"
4
  context: "โรงเรียนสวนกุหลาบวิทยาลัย (Suankularb Wittayalai School) (อักษรย่อ : ส.ก. / S.K.) เป็นโรงเรียนชายล้วน ระดับชั้นมัธยมศึกษาขนาดใหญ่พิเศษ สังกัดสำนักงานเขตพื้นที่การศึกษามัธยมศึกษาเขต 1 สำนักงานคณะกรรมการการศึกษาขั้นพื้นฐาน (ชื่อเดิม: กรมสามัญศึกษา) กระทรวงศึกษาธิการ ก่อตั้งโดย พระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัว ได้รับการสถาปนาขึ้นในวันที่ 8 มีนาคม พ.ศ. 2424 (ขณะนั้นนับวันที่ 1 เมษายน เป็นวันขึ้นปีใหม่ เมื่อนับอย่างสากลถือเป็น พ.ศ. 2425) โดยเป็นโรงเรียนรัฐบาลแห่งแรกของประเทศไทย"
5
  ---
6
+
7
  # bert-base-multilingual-cased
8
 
9
+ Finetuning `bert-base-multilingual-cased` with the training set of `iapp_wiki_qa_squad`, `thaiqa_squad`, and `nsc_qa` (removed examples which have cosine similarity with validation and test examples over 0.8; contexts of the latter two are trimmed to be around 300 `newmm` words). Benchmarks shared on [wandb](https://wandb.ai/cstorm125/wangchanberta-qa) using validation and test sets of `iapp_wiki_qa_squad`.
10
+ Trained with [thai2transformers](https://github.com/vistec-AI/thai2transformers/blob/dev/scripts/downstream/train_question_answering_lm_finetuning.py).
11
 
12
  Run with:
13
  ```
14
  export MODEL_NAME=bert-base-multilingual-cased
15
  python train_question_answering_lm_finetuning.py \
16
  --model_name $MODEL_NAME \
17
+ --dataset_name chimera_qa \
18
+ --output_dir $MODEL_NAME-finetune-chimera_qa-model \
19
+ --log_dir $MODEL_NAME-finetune-chimera_qa-log \
20
  --pad_on_right \
21
  --fp16
22
+ ```
config.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "_name_or_path": "bert-base-multilingual-cased-finetune-iapp_thaiqa-model/checkpoint-6972",
3
  "architectures": [
4
  "BertForQuestionAnswering"
5
  ],
@@ -23,7 +23,7 @@
23
  "pooler_size_per_head": 128,
24
  "pooler_type": "first_token_transform",
25
  "position_embedding_type": "absolute",
26
- "transformers_version": "4.4.0",
27
  "type_vocab_size": 2,
28
  "use_cache": true,
29
  "vocab_size": 119547
1
  {
2
+ "_name_or_path": "bert-base-multilingual-cased",
3
  "architectures": [
4
  "BertForQuestionAnswering"
5
  ],
23
  "pooler_size_per_head": 128,
24
  "pooler_type": "first_token_transform",
25
  "position_embedding_type": "absolute",
26
+ "transformers_version": "4.8.2",
27
  "type_vocab_size": 2,
28
  "use_cache": true,
29
  "vocab_size": 119547
flax_model.msgpack DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:3b361280e0813772116a5fffa54d2aa89f84b3e25c6ec4a2ec047f663968e68b
3
- size 709064688
 
 
 
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d15f8b5483aedbfe45a66a4b6729c40de019fdb9a9af2e76e1915112aac35ae1
3
- size 709146103
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e0a839efa214a99e50dda6a3c40a94d299111e809c52b917d5b16a5ed868b58d
3
+ size 709140913
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
tokenizer_config.json CHANGED
@@ -1 +1 @@
1
- {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 416, "special_tokens_map_file": null, "name_or_path": "bert-base-multilingual-cased"}
1
+ {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 416, "special_tokens_map_file": null, "name_or_path": "bert-base-multilingual-cased", "tokenizer_class": "BertTokenizer"}
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:602f32498b4db5fa6ffaaca4d0dc17b1ffdacb9e9893534d17cef85d21f3c14a
3
- size 2351
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2ff1a9466f343a18bf847325ac69ddd4161d81bd12bd5c945f0c2e5a5921ffbb
3
+ size 2671