wav2vec2-xls-r-300m-ja-syllable-cv-14
This model is a fine-tuned version of facebook/wav2vec2-xls-r-300m on Japanese using the train, dev, and validation splits of Common Voice 14.0. It achieves the following results on the evaluation set:
- Loss: 0.2005
- Wer: 0.0438
Model description
More information needed
Intended uses & limitations
More information needed
Training and evaluation data
Training: Common Voice 14.0 ja train, dev, validated
Test: Common Voice 14.0 ja test[:20%]
Training procedure
Reference | Prediction |
---|---|
オヤ ノ セダイイ カラ スル ト ドンナ ギキ モ カミコン ダ | オヤ ノ セダイ カラ スル ト ドンナ ゲーム キ モ ファミコン ダ |
ソコデ キミ ト シリアッ タ | ソコデ キミ ト シリアッ タ |
ケイサツ ガ マエ ノ コト サガシ テル ヨ | ケイサツ ガ オマエ ノ コト サガシ テル ヨ |
デカケル トキ ハンカチ ヲ モッ テ イキ マス | デカケル トキ ハンカチ ヲ モッ テ イキ マス |
ソー ナ ン デス | ソー ナ ン デス |
タナカ サン ニ テガミ ヲ ダシ マス | タナカ サン ニ テガミ ヲ ダシ マス |
イモート ワ チチ ニ オ ベント ヲ ツクッ テ アゲ マシ タ | イモート ワ チチ ニ オ ベントー ヲ ツクッ テ アゲ マシ タ |
イエ ニ ツイ タラ レンラク シ マス | イエ ニ ツイ タラ レンラク シ マス |
クセ ノ ナイ シカイ ガ ナツ アズ ニ ナッ テ | クセ ノ ナイ シカイ ガ モチアジ ニ ナッ テル |
バカ デ イミ | バカ デ イイ ン ダ ヨ |
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 0.0001
- train_batch_size: 2
- eval_batch_size: 1
- seed: 42
- gradient_accumulation_steps: 4
- total_train_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 500
- num_epochs: 30
Training results
Training Loss | Epoch | Step | Validation Loss | Wer |
---|---|---|---|---|
3.9103 | 0.37 | 2000 | 0.6143 | 0.1658 |
0.5883 | 0.75 | 4000 | 0.4720 | 0.1340 |
0.4759 | 1.12 | 6000 | 0.4080 | 0.1193 |
0.4115 | 1.49 | 8000 | 0.3758 | 0.1173 |
0.3833 | 1.87 | 10000 | 0.3591 | 0.1134 |
0.3351 | 2.24 | 12000 | 0.3440 | 0.1011 |
0.3129 | 2.61 | 14000 | 0.3550 | 0.1001 |
0.3016 | 2.99 | 16000 | 0.3041 | 0.0949 |
0.262 | 3.36 | 18000 | 0.2885 | 0.0853 |
0.2571 | 3.73 | 20000 | 0.2825 | 0.0874 |
0.2382 | 4.1 | 22000 | 0.2816 | 0.0848 |
0.2171 | 4.48 | 24000 | 0.2732 | 0.0770 |
0.2116 | 4.85 | 26000 | 0.2665 | 0.0773 |
0.1964 | 5.22 | 28000 | 0.2703 | 0.0819 |
0.1905 | 5.6 | 30000 | 0.2748 | 0.0822 |
0.1855 | 5.97 | 32000 | 0.2572 | 0.0757 |
0.1653 | 6.34 | 34000 | 0.2964 | 0.0803 |
0.1684 | 6.72 | 36000 | 0.2744 | 0.0745 |
0.1661 | 7.09 | 38000 | 0.2640 | 0.0790 |
0.1504 | 7.46 | 40000 | 0.2803 | 0.0785 |
0.1555 | 7.84 | 42000 | 0.2459 | 0.0703 |
0.1408 | 8.21 | 44000 | 0.2666 | 0.0736 |
0.1343 | 8.58 | 46000 | 0.2546 | 0.0711 |
0.1358 | 8.96 | 48000 | 0.2582 | 0.0691 |
0.1256 | 9.33 | 50000 | 0.2616 | 0.0709 |
0.1245 | 9.7 | 52000 | 0.2621 | 0.0712 |
0.1195 | 10.07 | 54000 | 0.2819 | 0.0692 |
0.1122 | 10.45 | 56000 | 0.2666 | 0.0699 |
0.1094 | 10.82 | 58000 | 0.2504 | 0.0666 |
0.1062 | 11.19 | 60000 | 0.2610 | 0.0666 |
0.1023 | 11.57 | 62000 | 0.2586 | 0.0656 |
0.1036 | 11.94 | 64000 | 0.2463 | 0.0646 |
0.096 | 12.31 | 66000 | 0.2677 | 0.0676 |
0.0942 | 12.69 | 68000 | 0.2284 | 0.0607 |
0.0939 | 13.06 | 70000 | 0.2663 | 0.0658 |
0.0857 | 13.43 | 72000 | 0.2583 | 0.0653 |
0.0889 | 13.81 | 74000 | 0.2215 | 0.0616 |
0.0832 | 14.18 | 76000 | 0.2502 | 0.0631 |
0.0813 | 14.55 | 78000 | 0.2472 | 0.0638 |
0.0796 | 14.93 | 80000 | 0.2218 | 0.0600 |
0.0774 | 15.3 | 82000 | 0.2376 | 0.0600 |
0.0754 | 15.67 | 84000 | 0.2361 | 0.0588 |
0.0745 | 16.04 | 86000 | 0.2578 | 0.0618 |
0.0722 | 16.42 | 88000 | 0.2468 | 0.0604 |
0.0709 | 16.79 | 90000 | 0.2268 | 0.0597 |
0.0688 | 17.16 | 92000 | 0.2270 | 0.0555 |
0.0665 | 17.54 | 94000 | 0.2320 | 0.0565 |
0.0651 | 17.91 | 96000 | 0.2408 | 0.0600 |
0.062 | 18.28 | 98000 | 0.2286 | 0.0550 |
0.0609 | 18.66 | 100000 | 0.2314 | 0.0558 |
0.0598 | 19.03 | 102000 | 0.2275 | 0.0547 |
0.057 | 19.4 | 104000 | 0.2359 | 0.0547 |
0.0559 | 19.78 | 106000 | 0.2501 | 0.0565 |
0.0557 | 20.15 | 108000 | 0.2186 | 0.0530 |
0.0519 | 20.52 | 110000 | 0.2281 | 0.0520 |
0.0532 | 20.9 | 112000 | 0.2342 | 0.0525 |
0.0521 | 21.27 | 114000 | 0.2265 | 0.0527 |
0.0513 | 21.64 | 116000 | 0.2263 | 0.0528 |
0.0485 | 22.01 | 118000 | 0.2343 | 0.0535 |
0.0454 | 22.39 | 120000 | 0.2393 | 0.0517 |
0.0454 | 22.76 | 122000 | 0.2314 | 0.0520 |
0.0448 | 23.13 | 124000 | 0.2395 | 0.0493 |
0.0444 | 23.51 | 126000 | 0.2299 | 0.0509 |
0.0434 | 23.88 | 128000 | 0.2300 | 0.0499 |
0.0402 | 24.25 | 130000 | 0.2314 | 0.0498 |
0.0395 | 24.63 | 132000 | 0.2259 | 0.0478 |
0.0383 | 25.0 | 134000 | 0.2202 | 0.0481 |
0.0374 | 25.37 | 136000 | 0.2158 | 0.0484 |
0.0375 | 25.75 | 138000 | 0.2165 | 0.0471 |
0.0366 | 26.12 | 140000 | 0.2142 | 0.0469 |
0.0347 | 26.49 | 142000 | 0.2139 | 0.0468 |
0.0337 | 26.87 | 144000 | 0.2152 | 0.0477 |
0.0343 | 27.24 | 146000 | 0.2059 | 0.0463 |
0.0328 | 27.61 | 148000 | 0.2108 | 0.0469 |
0.0324 | 27.99 | 150000 | 0.2061 | 0.0453 |
0.0302 | 28.36 | 152000 | 0.2026 | 0.0450 |
0.0316 | 28.73 | 154000 | 0.2057 | 0.0450 |
0.0298 | 29.1 | 156000 | 0.2005 | 0.0439 |
0.0301 | 29.48 | 158000 | 0.1983 | 0.0440 |
0.0296 | 29.85 | 160000 | 0.2005 | 0.0438 |
Framework versions
- Transformers 4.31.0
- Pytorch 2.0.1+cu117
- Datasets 2.14.3
- Tokenizers 0.13.3
- Downloads last month
- 18
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for pinot/wav2vec2-xls-r-300m-ja-syllable-cv-14
Base model
facebook/wav2vec2-xls-r-300m