KoichiYasuoka commited on
Commit
2adf0cf
1 Parent(s): 9c7558d

model improved

Browse files
Files changed (6) hide show
  1. README.md +1 -1
  2. config.json +1 -1
  3. maker.py +3 -3
  4. pytorch_model.bin +2 -2
  5. tokenizer_config.json +0 -1
  6. vocab.txt +469 -0
README.md CHANGED
@@ -16,7 +16,7 @@ pipeline_tag: "token-classification"
16
 
17
  ## Model Description
18
 
19
- This is a RoBERTa model pre-trained on Chinese texts (both simplified and traditional) for POS-tagging and dependency-parsing (using `goeswith` for subwords), derived from [roberta_chinese_base](https://huggingface.co/clue/roberta_chinese_base).
20
 
21
  ## How to Use
22
 
 
16
 
17
  ## Model Description
18
 
19
+ This is a RoBERTa model pre-trained on Chinese texts (both simplified and traditional) for POS-tagging and dependency-parsing (using `goeswith` for subwords), derived from [roberta-base-chinese-upos](https://huggingface.co/KoichiYasuoka/roberta-base-chinese-upos).
20
 
21
  ## How to Use
22
 
config.json CHANGED
@@ -644,5 +644,5 @@
644
  "transformers_version": "4.22.1",
645
  "type_vocab_size": 2,
646
  "use_cache": true,
647
- "vocab_size": 21128
648
  }
 
644
  "transformers_version": "4.22.1",
645
  "type_vocab_size": 2,
646
  "use_cache": true,
647
+ "vocab_size": 21597
648
  }
maker.py CHANGED
@@ -1,5 +1,5 @@
1
  #! /usr/bin/python3
2
- src="clue/roberta_chinese_base"
3
  tgt="KoichiYasuoka/roberta-base-chinese-ud-goeswith"
4
  import os
5
  for d in ["UD_Chinese-GSD","UD_Chinese-GSDSimp"]:
@@ -45,9 +45,9 @@ trainDS=UDgoeswithDataset("train.conllu",tkz)
45
  devDS=UDgoeswithDataset("dev.conllu",tkz)
46
  testDS=UDgoeswithDataset("test.conllu",tkz)
47
  lid=trainDS(devDS,testDS)
48
- cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()})
49
  arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=32,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1)
50
- trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg),train_dataset=trainDS,eval_dataset=devDS)
51
  trn.train()
52
  trn.save_model(tgt)
53
  tkz.save_pretrained(tgt)
 
1
  #! /usr/bin/python3
2
+ src="KoichiYasuoka/roberta-base-chinese-upos"
3
  tgt="KoichiYasuoka/roberta-base-chinese-ud-goeswith"
4
  import os
5
  for d in ["UD_Chinese-GSD","UD_Chinese-GSDSimp"]:
 
45
  devDS=UDgoeswithDataset("dev.conllu",tkz)
46
  testDS=UDgoeswithDataset("test.conllu",tkz)
47
  lid=trainDS(devDS,testDS)
48
+ cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()},ignore_mismatched_sizes=True)
49
  arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=32,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1)
50
+ trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg,ignore_mismatched_sizes=True),train_dataset=trainDS,eval_dataset=devDS)
51
  trn.train()
52
  trn.save_model(tgt)
53
  tkz.save_pretrained(tgt)
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dfb7b516490a2a111a771d186112e9a33f9aa9c39c54514a0db029382159fd45
3
- size 407711217
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d46ab28f34d65e8cd28c870bc9ca6e8d10d012e9a900df272620a292b67f5825
3
+ size 409151985
tokenizer_config.json CHANGED
@@ -7,7 +7,6 @@
7
  "never_split": null,
8
  "pad_token": "[PAD]",
9
  "sep_token": "[SEP]",
10
- "special_tokens_map_file": null,
11
  "strip_accents": null,
12
  "tokenize_chinese_chars": true,
13
  "tokenizer_class": "BertTokenizerFast",
 
7
  "never_split": null,
8
  "pad_token": "[PAD]",
9
  "sep_token": "[SEP]",
 
10
  "strip_accents": null,
11
  "tokenize_chinese_chars": true,
12
  "tokenizer_class": "BertTokenizerFast",
vocab.txt CHANGED
@@ -21126,3 +21126,472 @@ fishbase
21126
  ##🔥
21127
  ##😂
21128
  ##😎
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
21126
  ##🔥
21127
  ##😂
21128
  ##😎
21129
+ 𫍟
21130
+ 𧦧
21131
+ 𰾵
21132
+ 𨬟
21133
+ 𫮃
21134
+
21135
+ 𪪼
21136
+
21137
+ 𢭏
21138
+
21139
+ 𥐟
21140
+
21141
+ 𬘝
21142
+
21143
+ 𫄨
21144
+
21145
+ 𮉪
21146
+
21147
+ 𰬸
21148
+
21149
+ 𫄸
21150
+
21151
+ 𮉡
21152
+
21153
+ 𫄥
21154
+
21155
+ 𦰏
21156
+
21157
+ 𫉁
21158
+
21159
+
21160
+ 𫍥
21161
+
21162
+ 𬤊
21163
+
21164
+ 𬤣
21165
+
21166
+ 𫐄
21167
+
21168
+ 𫐐
21169
+
21170
+ 𬨎
21171
+
21172
+ 𫓧
21173
+
21174
+ 𨱂
21175
+
21176
+ 𬱙
21177
+
21178
+ 𫖹
21179
+
21180
+ 𫗞
21181
+
21182
+ 𫗦
21183
+
21184
+ 𮩝
21185
+
21186
+ 𮩞
21187
+
21188
+ 𫗴
21189
+
21190
+ 𬶍
21191
+
21192
+ 𫚈
21193
+
21194
+ 𫛞
21195
+
21196
+ 𫜁
21197
+
21198
+
21199
+
21200
+
21201
+
21202
+
21203
+
21204
+
21205
+
21206
+
21207
+
21208
+
21209
+
21210
+
21211
+
21212
+
21213
+
21214
+
21215
+
21216
+
21217
+
21218
+
21219
+
21220
+
21221
+
21222
+
21223
+
21224
+ 倀
21225
+
21226
+
21227
+
21228
+
21229
+
21230
+
21231
+
21232
+
21233
+
21234
+
21235
+
21236
+
21237
+
21238
+
21239
+
21240
+
21241
+
21242
+
21243
+
21244
+
21245
+
21246
+
21247
+
21248
+
21249
+
21250
+
21251
+
21252
+
21253
+
21254
+
21255
+
21256
+
21257
+
21258
+
21259
+
21260
+
21261
+
21262
+
21263
+
21264
+
21265
+
21266
+
21267
+
21268
+
21269
+
21270
+
21271
+
21272
+
21273
+
21274
+
21275
+
21276
+
21277
+
21278
+
21279
+
21280
+
21281
+
21282
+
21283
+
21284
+
21285
+
21286
+
21287
+
21288
+
21289
+
21290
+
21291
+
21292
+
21293
+
21294
+
21295
+
21296
+
21297
+
21298
+
21299
+ 憎
21300
+
21301
+
21302
+
21303
+
21304
+
21305
+
21306
+
21307
+
21308
+
21309
+
21310
+
21311
+
21312
+
21313
+
21314
+
21315
+
21316
+
21317
+
21318
+
21319
+
21320
+
21321
+
21322
+
21323
+
21324
+
21325
+
21326
+
21327
+
21328
+
21329
+
21330
+
21331
+
21332
+
21333
+
21334
+
21335
+
21336
+
21337
+
21338
+
21339
+
21340
+
21341
+
21342
+
21343
+
21344
+ 歿
21345
+
21346
+
21347
+
21348
+
21349
+
21350
+
21351
+
21352
+
21353
+
21354
+
21355
+
21356
+
21357
+
21358
+
21359
+
21360
+
21361
+
21362
+
21363
+
21364
+
21365
+
21366
+
21367
+
21368
+
21369
+
21370
+
21371
+
21372
+
21373
+
21374
+
21375
+
21376
+
21377
+
21378
+
21379
+
21380
+
21381
+
21382
+
21383
+
21384
+
21385
+
21386
+
21387
+
21388
+
21389
+
21390
+
21391
+
21392
+
21393
+
21394
+
21395
+
21396
+
21397
+
21398
+
21399
+
21400
+
21401
+
21402
+
21403
+
21404
+
21405
+
21406
+
21407
+
21408
+
21409
+
21410
+
21411
+
21412
+ 紿
21413
+
21414
+
21415
+
21416
+
21417
+
21418
+
21419
+
21420
+
21421
+
21422
+
21423
+
21424
+
21425
+
21426
+
21427
+
21428
+
21429
+
21430
+
21431
+
21432
+
21433
+
21434
+
21435
+
21436
+
21437
+
21438
+
21439
+
21440
+
21441
+
21442
+
21443
+
21444
+
21445
+
21446
+
21447
+
21448
+
21449
+
21450
+
21451
+
21452
+
21453
+ 覿
21454
+
21455
+
21456
+
21457
+
21458
+
21459
+
21460
+
21461
+
21462
+
21463
+
21464
+
21465
+
21466
+
21467
+
21468
+
21469
+
21470
+
21471
+
21472
+
21473
+
21474
+
21475
+
21476
+
21477
+
21478
+
21479
+
21480
+
21481
+
21482
+
21483
+
21484
+
21485
+
21486
+
21487
+
21488
+
21489
+
21490
+
21491
+
21492
+
21493
+
21494
+
21495
+
21496
+
21497
+
21498
+
21499
+
21500
+
21501
+
21502
+
21503
+
21504
+
21505
+
21506
+
21507
+
21508
+
21509
+
21510
+
21511
+
21512
+
21513
+
21514
+
21515
+
21516
+
21517
+
21518
+
21519
+
21520
+
21521
+
21522
+
21523
+
21524
+
21525
+
21526
+
21527
+
21528
+
21529
+
21530
+
21531
+
21532
+
21533
+
21534
+
21535
+
21536
+
21537
+
21538
+
21539
+
21540
+
21541
+
21542
+
21543
+
21544
+
21545
+
21546
+
21547
+
21548
+
21549
+
21550
+
21551
+
21552
+
21553
+
21554
+
21555
+
21556
+
21557
+
21558
+
21559
+
21560
+
21561
+
21562
+
21563
+
21564
+
21565
+
21566
+
21567
+
21568
+
21569
+
21570
+
21571
+
21572
+
21573
+
21574
+
21575
+
21576
+
21577
+
21578
+
21579
+
21580
+
21581
+
21582
+
21583
+
21584
+
21585
+ 黿
21586
+
21587
+
21588
+
21589
+
21590
+
21591
+
21592
+
21593
+
21594
+
21595
+
21596
+
21597
+