Spaces:

Mahiruoshi
/

MyGO_VIts-bert

Running

App Files Files Community

Mahiruoshi commited on Jan 30, 2024

Commit

5f275a8

verified ·

1 Parent(s): db74c3c

Upload 103 files

Browse files

Files changed (35) hide show

Data/BangDream/config.json +203 -0
Data/BangDream/models/G_60000.pth +3 -0
configs/config.json +771 -767
monotonic_align/__pycache__/__init__.cpython-311.pyc +0 -0
monotonic_align/__pycache__/core.cpython-311.pyc +0 -0
slm/wavlm-base-plus/.gitattributes +27 -0
slm/wavlm-base-plus/README.md +65 -0
slm/wavlm-base-plus/config.json +99 -0
slm/wavlm-base-plus/preprocessor_config.json +9 -0
slm/wavlm-base-plus/pytorch_model.bin +3 -0
text/__init__.py +4 -2
text/__pycache__/__init__.cpython-311.pyc +0 -0
text/__pycache__/bert_utils.cpython-311.pyc +0 -0
text/__pycache__/chinese.cpython-311.pyc +0 -0
text/__pycache__/chinese_bert.cpython-311.pyc +0 -0
text/__pycache__/cleaner.cpython-311.pyc +0 -0
text/__pycache__/english.cpython-311.pyc +0 -0
text/__pycache__/english_bert_mock.cpython-311.pyc +0 -0
text/__pycache__/japanese.cpython-311.pyc +0 -0
text/__pycache__/japanese_bert.cpython-311.pyc +0 -0
text/__pycache__/symbols.cpython-311.pyc +0 -0
text/__pycache__/tone_sandhi.cpython-311.pyc +0 -0
text/chinese.py +11 -4
text/chinese_bert.py +21 -3
text/cleaner.py +2 -2
text/english.py +71 -29
text/english_bert_mock.py +21 -2
text/japanese.py +338 -50
text/japanese_bert.py +23 -2
text/tone_sandhi.py +7 -3
tools/__pycache__/__init__.cpython-311.pyc +0 -0
tools/__pycache__/classify_language.cpython-311.pyc +0 -0
tools/__pycache__/sentence.cpython-311.pyc +0 -0
tools/__pycache__/translate.cpython-311.pyc +0 -0
tools/sentence.py +262 -164

Data/BangDream/config.json ADDED Viewed

	@@ -0,0 +1,203 @@

+{
+  "train": {
+    "log_interval": 200,
+    "eval_interval": 20000,
+    "seed": 42,
+    "epochs": 1000,
+    "learning_rate": 0.0001,
+    "betas": [
+      0.8,
+      0.99
+    ],
+    "eps": 1e-09,
+    "batch_size": 14,
+    "bf16_run": true,
+    "lr_decay": 0.99995,
+    "segment_size": 16384,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "c_commit": 100,
+    "skip_optimizer": true,
+    "freeze_ZH_bert": false,
+    "freeze_JP_bert": false,
+    "freeze_EN_bert": true,
+    "freeze_emo": false
+  },
+  "data": {
+    "training_files": "Data/test/filelists/train.list",
+    "validation_files": "Data/test/filelists/val.list",
+    "max_wav_value": 32768.0,
+    "sampling_rate": 44100,
+    "filter_length": 2048,
+    "hop_length": 512,
+    "win_length": 2048,
+    "n_mel_channels": 128,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 96,
+    "cleaned_text": true,
+    "spk2id": {
+      "紗夜": 0,
+      "有咲": 1,
+      "たえ": 2,
+      "りみ": 3,
+      "香澄": 4,
+      "ロック": 5,
+      "パレオ": 6,
+      "レイヤ": 7,
+      "千聖": 8,
+      "イヴ": 9,
+      "蘭": 10,
+      "巴": 11,
+      "ひまり": 12,
+      "つぐみ": 13,
+      "華戀": 14,
+      "晶": 15,
+      "光": 16,
+      "未知留": 17,
+      "香子": 18,
+      "雙葉": 19,
+      "真晝": 20,
+      "艾露": 21,
+      "珠緒": 22,
+      "艾露露": 23,
+      "純那": 24,
+      "克洛迪娜": 25,
+      "真矢": 26,
+      "奈奈": 27,
+      "壘": 28,
+      "文": 29,
+      "一愛": 30,
+      "菈樂菲": 31,
+      "司": 32,
+      "美空": 33,
+      "靜羽": 34,
+      "悠悠子": 35,
+      "八千代": 36,
+      "栞": 37,
+      "美帆": 38,
+      "安德露": 39,
+      "瑪莉亞貝菈": 40,
+      "克拉迪亞": 41,
+      "桃樂西": 42,
+      "瑪麗安": 43,
+      "花音": 44,
+      "はぐみ": 45,
+      "こころ": 46,
+      "美咲": 47,
+      "沙綾": 48,
+      "つくし": 49,
+      "瑠唯": 50,
+      "透子": 51,
+      "七深": 52,
+      "ましろ": 53,
+      "友希那": 54,
+      "リサ": 55,
+      "あこ": 56,
+      "チュチュ": 57,
+      "薫": 58,
+      "麻弥": 59,
+      "彩": 60,
+      "日菜": 61,
+      "愛音": 62,
+      "楽奈": 63,
+      "そよ": 64,
+      "立希": 65,
+      "燐子": 66,
+      "モカ": 67,
+      "燈": 68,
+      "ますき": 69,
+      "祥子": 70,
+      "睦": 71,
+      "海鈴": 72,
+      "にゃむ": 73,
+      "初華": 74,
+      "三月七1": 75,
+      "八重神子1": 76,
+      "娜塔莎": 77,
+      "宵宫": 78,
+      "派蒙11": 79,
+      "派蒙13": 80,
+      "派蒙3": 81,
+      "派蒙7": 82,
+      "派蒙8": 83,
+      "派蒙9": 84,
+      "派蒙10": 85,
+      "派蒙6": 86,
+      "派蒙4": 87,
+      "派蒙1": 88,
+      "派蒙2": 89,
+      "派蒙15": 90,
+      "派蒙16": 91,
+      "派蒙14": 92,
+      "派蒙12": 93,
+      "派蒙5": 94,
+      "纳西妲1": 95
+    }
+  },
+  "model": {
+    "use_spk_conditioned_encoder": true,
+    "use_noise_scaled_mas": true,
+    "use_mel_posterior_encoder": false,
+    "use_duration_discriminator": true,
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [
+      3,
+      7,
+      11
+    ],
+    "resblock_dilation_sizes": [
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ]
+    ],
+    "upsample_rates": [
+      8,
+      8,
+      2,
+      2,
+      2
+    ],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [
+      16,
+      16,
+      8,
+      2,
+      2
+    ],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 512,
+    "slm": {
+      "model": "./slm/wavlm-base-plus",
+      "sr": 16000,
+      "hidden": 768,
+      "nlayers": 13,
+      "initial_channel": 64
+    }
+  },
+  "version": "2.3"
+}

Data/BangDream/models/G_60000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bcf80ed1889191cb6fe1af0b61643ad9ec1c8648a8c39c7575b351d98b09554
+size 727387388

configs/config.json CHANGED Viewed

@@ -10,18 +10,20 @@
       0.99
     ],
     "eps": 1e-09,
-    "batch_size": 12,
-    "fp16_run": false,
     "lr_decay": 0.99995,
     "segment_size": 16384,
     "init_lr_ratio": 1,
     "warmup_epochs": 0,
     "c_mel": 45,
     "c_kl": 1.0,
     "skip_optimizer": true,
     "freeze_ZH_bert": false,
     "freeze_JP_bert": false,
-    "freeze_EN_bert": false
   },
   "data": {
     "training_files": "filelists/train.list",
@@ -35,7 +37,7 @@
     "mel_fmin": 0.0,
     "mel_fmax": null,
     "add_blank": true,
-    "n_speakers": 896,
     "cleaned_text": true,
     "spk2id": {
       "派蒙_ZH": 0,
@@ -119,203 +121,203 @@
       "伊迪娅_ZH": 78,
       "留云借风真君_ZH": 79,
       "绮良良_ZH": 80,
-      "七七_ZH": 81,
-      "式大将_ZH": 82,
-      "瑶瑶_ZH": 83,
-      "奥兹_ZH": 84,
-      "菲米尼_ZH": 85,
-      "米卡_ZH": 86,
-      "哲平_ZH": 87,
-      "大肉丸_ZH": 88,
-      "托克_ZH": 89,
-      "蒂玛乌斯_ZH": 90,
-      "昆钧_ZH": 91,
-      "欧菲妮_ZH": 92,
-      "塞琉斯_ZH": 93,
-      "仆人_ZH": 94,
-      "迈勒斯_ZH": 95,
-      "希格雯_ZH": 96,
-      "阿守_ZH": 97,
-      "拉赫曼_ZH": 98,
-      "杜拉夫_ZH": 99,
-      "伊利亚斯_ZH": 100,
-      "阿晃_ZH": 101,
-      "旁白_ZH": 102,
-      "爱德琳_ZH": 103,
-      "埃洛伊_ZH": 104,
-      "德沃沙克_ZH": 105,
-      "玛乔丽_ZH": 106,
-      "塞塔蕾_ZH": 107,
-      "柊千里_ZH": 108,
-      "海芭夏_ZH": 109,
-      "九条镰治_ZH": 110,
-      "阿娜耶_ZH": 111,
-      "笼钓瓶一心_ZH": 112,
-      "回声海螺_ZH": 113,
-      "劳维克_ZH": 114,
-      "元太_ZH": 115,
-      "阿扎尔_ZH": 116,
-      "查尔斯_ZH": 117,
-      "阿洛瓦_ZH": 118,
-      "埃勒曼_ZH": 119,
-      "纳比尔_ZH": 120,
-      "莎拉_ZH": 121,
-      "康纳_ZH": 122,
-      "博来_ZH": 123,
-      "玛塞勒_ZH": 124,
-      "阿祇_ZH": 125,
-      "博士_ZH": 126,
-      "玛格丽特_ZH": 127,
-      "迪尔菲_ZH": 128,
-      "宛烟_ZH": 129,
-      "羽生田千鹤_ZH": 130,
-      "海妮耶_ZH": 131,
-      "旅行者_ZH": 132,
-      "霍夫曼_ZH": 133,
-      "佐西摩斯_ZH": 134,
-      "鹿野奈奈_ZH": 135,
-      "舒伯特_ZH": 136,
-      "天叔_ZH": 137,
-      "艾莉丝_ZH": 138,
-      "龙二_ZH": 139,
-      "莺儿_ZH": 140,
-      "嘉良_ZH": 141,
-      "一心传名刀_ZH": 142,
-      "费迪南德_ZH": 143,
-      "珊瑚_ZH": 144,
-      "言笑_ZH": 145,
-      "久利须_ZH": 146,
-      "嘉玛_ZH": 147,
-      "艾文_ZH": 148,
-      "克洛琳德_ZH": 149,
-      "丹吉尔_ZH": 150,
-      "女士_ZH": 151,
-      "白老先生_ZH": 152,
-      "天目十五_ZH": 153,
-      "老孟_ZH": 154,
-      "巴达维_ZH": 155,
-      "长生_ZH": 156,
-      "吴船长_ZH": 157,
-      "拉齐_ZH": 158,
-      "艾伯特_ZH": 159,
-      "松浦_ZH": 160,
-      "埃泽_ZH": 161,
-      "阿圆_ZH": 162,
-      "莫塞伊思_ZH": 163,
-      "阿拉夫_ZH": 164,
-      "杜吉耶_ZH": 165,
-      "石头_ZH": 166,
-      "百闻_ZH": 167,
-      "波洛_ZH": 168,
-      "斯坦利_ZH": 169,
-      "博易_ZH": 170,
-      "迈蒙_ZH": 171,
-      "掇星攫辰天君_ZH": 172,
-      "毗伽尔_ZH": 173,
-      "芙卡洛斯_ZH": 174,
-      "恶龙_ZH": 175,
-      "恕筠_ZH": 176,
-      "知易_ZH": 177,
-      "克列门特_ZH": 178,
-      "大慈树王_ZH": 179,
-      "西拉杰_ZH": 180,
-      "上杉_ZH": 181,
-      "阿尔卡米_ZH": 182,
-      "纯水精灵_ZH": 183,
-      "常九爷_ZH": 184,
-      "沙扎曼_ZH": 185,
-      "田铁嘴_ZH": 186,
-      "克罗索_ZH": 187,
-      "阿巴图伊_ZH": 188,
-      "悦_ZH": 189,
       "阿佩普_ZH": 190,
       "埃尔欣根_ZH": 191,
       "萨赫哈蒂_ZH": 192,
       "塔杰·拉德卡尼_ZH": 193,
       "安西_ZH": 194,
-      "埃舍尔_ZH": 195,
-      "萨齐因_ZH": 196,
-      "派蒙_JP": 197,
-      "纳西妲_JP": 198,
-      "凯亚_JP": 199,
-      "阿贝多_JP": 200,
-      "温迪_JP": 201,
-      "枫原万叶_JP": 202,
-      "钟离_JP": 203,
-      "荒泷一斗_JP": 204,
-      "八重神子_JP": 205,
-      "艾尔海森_JP": 206,
-      "提纳里_JP": 207,
-      "迪希雅_JP": 208,
-      "卡维_JP": 209,
-      "宵宫_JP": 210,
-      "那维莱特_JP": 211,
-      "莱依拉_JP": 212,
-      "赛诺_JP": 213,
-      "莫娜_JP": 214,
-      "诺艾尔_JP": 215,
-      "托马_JP": 216,
-      "凝光_JP": 217,
-      "林尼_JP": 218,
-      "北斗_JP": 219,
-      "柯莱_JP": 220,
-      "神里绫华_JP": 221,
-      "可莉_JP": 222,
-      "芭芭拉_JP": 223,
-      "雷电将军_JP": 224,
-      "娜维娅_JP": 225,
-      "芙宁娜_JP": 226,
-      "珊瑚宫心海_JP": 227,
-      "鹿野院平藏_JP": 228,
-      "迪奥娜_JP": 229,
-      "琴_JP": 230,
-      "五郎_JP": 231,
-      "班尼特_JP": 232,
-      "达达利亚_JP": 233,
-      "安柏_JP": 234,
-      "莱欧斯利_JP": 235,
-      "夜兰_JP": 236,
-      "妮露_JP": 237,
-      "辛焱_JP": 238,
-      "丽莎_JP": 239,
-      "珐露珊_JP": 240,
-      "魈_JP": 241,
-      "香菱_JP": 242,
-      "迪卢克_JP": 243,
-      "砂糖_JP": 244,
-      "烟绯_JP": 245,
-      "早柚_JP": 246,
-      "云堇_JP": 247,
-      "刻晴_JP": 248,
-      "重云_JP": 249,
-      "优菈_JP": 250,
-      "胡桃_JP": 251,
-      "流浪者_JP": 252,
-      "久岐忍_JP": 253,
-      "神里绫人_JP": 254,
-      "甘雨_JP": 255,
-      "戴因斯雷布_JP": 256,
-      "菲谢尔_JP": 257,
-      "白术_JP": 258,
-      "行秋_JP": 259,
-      "九条裟罗_JP": 260,
-      "夏洛蒂_JP": 261,
-      "雷泽_JP": 262,
-      "申鹤_JP": 263,
-      "空_JP": 264,
-      "荧_JP": 265,
-      "迪娜泽黛_JP": 266,
-      "凯瑟琳_JP": 267,
-      "多莉_JP": 268,
-      "坎蒂丝_JP": 269,
-      "琳妮特_JP": 270,
-      "萍姥姥_JP": 271,
-      "罗莎莉亚_JP": 272,
-      "埃德_JP": 273,
-      "爱贝尔_JP": 274,
-      "伊迪娅_JP": 275,
-      "留云借风真君_JP": 276,
-      "绮良良_JP": 277,
       "七七_JP": 278,
       "式大将_JP": 279,
       "瑶瑶_JP": 280,
@@ -323,576 +325,571 @@
       "菲米尼_JP": 282,
       "米卡_JP": 283,
       "哲平_JP": 284,
-      "大肉丸_JP": 285,
-      "托克_JP": 286,
-      "蒂玛乌斯_JP": 287,
-      "昆钧_JP": 288,
-      "欧菲妮_JP": 289,
-      "塞琉斯_JP": 290,
-      "仆人_JP": 291,
-      "迈勒斯_JP": 292,
-      "希格雯_JP": 293,
-      "阿守_JP": 294,
-      "拉赫曼_JP": 295,
-      "杜拉夫_JP": 296,
-      "伊利亚斯_JP": 297,
-      "阿晃_JP": 298,
-      "旁白_JP": 299,
-      "爱德琳_JP": 300,
-      "埃洛伊_JP": 301,
-      "德沃沙克_JP": 302,
-      "玛乔丽_JP": 303,
-      "塞塔蕾_JP": 304,
-      "柊千里_JP": 305,
-      "海芭夏_JP": 306,
-      "九条镰治_JP": 307,
-      "阿娜耶_JP": 308,
-      "笼钓瓶一心_JP": 309,
-      "回声海螺_JP": 310,
-      "劳维克_JP": 311,
-      "元太_JP": 312,
-      "阿扎尔_JP": 313,
-      "查尔斯_JP": 314,
-      "阿洛瓦_JP": 315,
-      "埃勒曼_JP": 316,
-      "纳比尔_JP": 317,
-      "莎拉_JP": 318,
-      "康纳_JP": 319,
-      "博来_JP": 320,
-      "玛塞勒_JP": 321,
-      "阿祇_JP": 322,
-      "博士_JP": 323,
-      "迪尔菲_JP": 324,
-      "玛格丽特_JP": 325,
-      "宛烟_JP": 326,
-      "羽生田千鹤_JP": 327,
-      "海妮耶_JP": 328,
-      "霍夫曼_JP": 329,
-      "旅行者_JP": 330,
-      "佐西摩斯_JP": 331,
-      "舒伯特_JP": 332,
-      "鹿野奈奈_JP": 333,
-      "天叔_JP": 334,
-      "龙二_JP": 335,
-      "艾莉丝_JP": 336,
-      "莺儿_JP": 337,
-      "嘉良_JP": 338,
-      "珊瑚_JP": 339,
-      "言笑_JP": 340,
-      "一心传名刀_JP": 341,
-      "费迪南德_JP": 342,
-      "久利须_JP": 343,
-      "嘉玛_JP": 344,
-      "艾文_JP": 345,
-      "克洛琳德_JP": 346,
-      "丹吉尔_JP": 347,
-      "天目十五_JP": 348,
-      "女士_JP": 349,
-      "老孟_JP": 350,
-      "白老先生_JP": 351,
-      "舍利夫_JP": 352,
-      "巴达维_JP": 353,
-      "拉齐_JP": 354,
-      "长生_JP": 355,
-      "吴船长_JP": 356,
-      "艾伯特_JP": 357,
-      "松浦_JP": 358,
-      "埃泽_JP": 359,
-      "阿圆_JP": 360,
-      "阿拉夫_JP": 361,
-      "莫塞伊思_JP": 362,
-      "石头_JP": 363,
-      "百闻_JP": 364,
-      "杜吉耶_JP": 365,
-      "波洛_JP": 366,
-      "掇星攫辰天君_JP": 367,
-      "迈蒙_JP": 368,
-      "博易_JP": 369,
-      "诗筠_JP": 370,
-      "斯坦利_JP": 371,
-      "毗伽尔_JP": 372,
-      "芙卡洛斯_JP": 373,
-      "恶龙_JP": 374,
-      "小仓澪_JP": 375,
-      "恕筠_JP": 376,
-      "知易_JP": 377,
-      "克列门特_JP": 378,
-      "大慈树王_JP": 379,
-      "望雅_JP": 380,
-      "黑田_JP": 381,
-      "卡莉娜_JP": 382,
-      "马姆杜_JP": 383,
-      "科林斯_JP": 384,
-      "上杉_JP": 385,
-      "西拉杰_JP": 386,
-      "菲尔戈黛特_JP": 387,
-      "一平_JP": 388,
-      "纯水精灵_JP": 389,
-      "阿尔卡米_JP": 390,
-      "老戴_JP": 391,
-      "谢赫祖拜尔_JP": 392,
-      "沙扎曼_JP": 393,
-      "田铁嘴_JP": 394,
-      "小野寺_JP": 395,
-      "百识_JP": 396,
-      "克罗索_JP": 397,
-      "莱斯格_JP": 398,
-      "芷巧_JP": 399,
-      "加藤洋平_JP": 400,
-      "阿巴图伊_JP": 401,
-      "埃尔欣根_JP": 402,
-      "斯嘉莉_JP": 403,
-      "阿佩普_JP": 404,
-      "巫女_JP": 405,
-      "卡布斯_JP": 406,
-      "洛伦佐_JP": 407,
-      "萨赫哈蒂_JP": 408,
-      "娜德瓦_JP": 409,
-      "塞德娜_JP": 410,
-      "塔杰·拉德卡尼_JP": 411,
-      "绘星_JP": 412,
-      "泽田_JP": 413,
-      "安西_JP": 414,
-      "拉���德_JP": 415,
-      "亚卡巴_JP": 416,
-      "有乐斋_JP": 417,
-      "莱昂_JP": 418,
-      "尤苏波夫_JP": 419,
-      "夏妮_JP": 420,
-      "埃舍尔_JP": 421,
-      "萨齐因_JP": 422,
-      "古山_JP": 423,
-      "自称渊上之物_JP": 424,
-      "丹羽_JP": 425,
-      "塞萨尔的日记_JP": 426,
-      "派蒙_EN": 427,
-      "纳西妲_EN": 428,
-      "凯亚_EN": 429,
-      "阿贝多_EN": 430,
-      "温迪_EN": 431,
-      "枫原万叶_EN": 432,
-      "钟离_EN": 433,
-      "荒泷一斗_EN": 434,
-      "八重神子_EN": 435,
-      "艾尔海森_EN": 436,
-      "提纳里_EN": 437,
-      "迪希雅_EN": 438,
-      "卡维_EN": 439,
-      "宵宫_EN": 440,
-      "莱依拉_EN": 441,
-      "那维莱特_EN": 442,
-      "赛诺_EN": 443,
-      "莫娜_EN": 444,
-      "诺艾尔_EN": 445,
-      "托马_EN": 446,
-      "凝光_EN": 447,
-      "林尼_EN": 448,
-      "北斗_EN": 449,
-      "柯莱_EN": 450,
-      "神里绫华_EN": 451,
-      "可莉_EN": 452,
-      "芭芭拉_EN": 453,
-      "雷电将军_EN": 454,
-      "娜维娅_EN": 455,
-      "芙宁娜_EN": 456,
-      "珊瑚宫心海_EN": 457,
-      "鹿野院平藏_EN": 458,
-      "迪奥娜_EN": 459,
-      "五郎_EN": 460,
-      "琴_EN": 461,
-      "班尼特_EN": 462,
-      "达达利亚_EN": 463,
-      "安柏_EN": 464,
-      "莱欧斯利_EN": 465,
-      "夜兰_EN": 466,
-      "妮露_EN": 467,
-      "辛焱_EN": 468,
-      "珐露珊_EN": 469,
-      "丽莎_EN": 470,
-      "魈_EN": 471,
-      "香菱_EN": 472,
-      "迪卢克_EN": 473,
-      "砂糖_EN": 474,
-      "烟绯_EN": 475,
-      "早柚_EN": 476,
-      "云堇_EN": 477,
-      "刻晴_EN": 478,
-      "重云_EN": 479,
-      "优菈_EN": 480,
-      "胡桃_EN": 481,
-      "流浪者_EN": 482,
-      "久岐忍_EN": 483,
-      "神里绫人_EN": 484,
-      "甘雨_EN": 485,
-      "戴因斯雷布_EN": 486,
-      "菲谢尔_EN": 487,
-      "白术_EN": 488,
-      "行秋_EN": 489,
-      "九条裟罗_EN": 490,
-      "夏洛蒂_EN": 491,
-      "雷泽_EN": 492,
-      "申鹤_EN": 493,
-      "荧_EN": 494,
-      "空_EN": 495,
-      "迪娜泽黛_EN": 496,
-      "凯瑟琳_EN": 497,
-      "多莉_EN": 498,
-      "坎蒂丝_EN": 499,
-      "琳妮特_EN": 500,
-      "萍姥姥_EN": 501,
-      "罗莎莉亚_EN": 502,
-      "埃德_EN": 503,
-      "爱贝尔_EN": 504,
-      "伊迪娅_EN": 505,
-      "留云借风真君_EN": 506,
-      "绮良良_EN": 507,
-      "七七_EN": 508,
-      "式大将_EN": 509,
-      "瑶瑶_EN": 510,
-      "奥兹_EN": 511,
-      "菲米尼_EN": 512,
-      "米卡_EN": 513,
-      "哲平_EN": 514,
-      "大肉丸_EN": 515,
-      "托克_EN": 516,
-      "蒂玛乌斯_EN": 517,
-      "昆钧_EN": 518,
-      "欧菲妮_EN": 519,
-      "塞琉斯_EN": 520,
-      "仆人_EN": 521,
-      "迈勒斯_EN": 522,
-      "希格雯_EN": 523,
-      "阿守_EN": 524,
-      "拉赫曼_EN": 525,
-      "杜拉夫_EN": 526,
-      "伊利亚斯_EN": 527,
-      "阿晃_EN": 528,
-      "旁白_EN": 529,
-      "爱德琳_EN": 530,
-      "埃洛伊_EN": 531,
-      "德沃沙克_EN": 532,
-      "玛乔丽_EN": 533,
-      "塞塔蕾_EN": 534,
-      "柊千里_EN": 535,
-      "海芭夏_EN": 536,
-      "九条镰治_EN": 537,
-      "阿娜耶_EN": 538,
-      "笼钓瓶一心_EN": 539,
-      "回声海螺_EN": 540,
-      "劳维克_EN": 541,
-      "元太_EN": 542,
-      "阿扎尔_EN": 543,
-      "查尔斯_EN": 544,
-      "阿洛瓦_EN": 545,
-      "埃勒曼_EN": 546,
-      "纳比尔_EN": 547,
-      "莎拉_EN": 548,
-      "康纳_EN": 549,
-      "博来_EN": 550,
-      "玛塞勒_EN": 551,
-      "阿祇_EN": 552,
-      "博士_EN": 553,
-      "迪尔菲_EN": 554,
-      "宛烟_EN": 555,
-      "玛格丽特_EN": 556,
-      "羽生田千鹤_EN": 557,
-      "海妮耶_EN": 558,
-      "霍夫曼_EN": 559,
-      "旅行者_EN": 560,
-      "佐西摩斯_EN": 561,
-      "鹿野奈奈_EN": 562,
-      "舒伯特_EN": 563,
-      "天叔_EN": 564,
-      "艾莉丝_EN": 565,
-      "龙二_EN": 566,
-      "莺儿_EN": 567,
-      "嘉良_EN": 568,
-      "珊瑚_EN": 569,
-      "费迪南德_EN": 570,
-      "言笑_EN": 571,
-      "一心传名刀_EN": 572,
-      "久利须_EN": 573,
-      "嘉玛_EN": 574,
-      "艾文_EN": 575,
-      "克洛琳德_EN": 576,
-      "丹吉尔_EN": 577,
-      "女士_EN": 578,
-      "天目十五_EN": 579,
-      "老孟_EN": 580,
-      "白老先生_EN": 581,
-      "舍利夫_EN": 582,
-      "巴达维_EN": 583,
-      "拉齐_EN": 584,
-      "长生_EN": 585,
-      "吴船长_EN": 586,
-      "艾伯特_EN": 587,
-      "松浦_EN": 588,
-      "埃泽_EN": 589,
-      "阿圆_EN": 590,
-      "阿拉夫_EN": 591,
-      "莫塞伊思_EN": 592,
-      "石头_EN": 593,
-      "百闻_EN": 594,
-      "杜吉耶_EN": 595,
-      "波洛_EN": 596,
-      "斯坦利_EN": 597,
-      "掇星攫辰天君_EN": 598,
-      "迈蒙_EN": 599,
-      "博易_EN": 600,
-      "诗筠_EN": 601,
-      "毗伽尔_EN": 602,
-      "慧心_EN": 603,
-      "芙卡洛斯_EN": 604,
-      "恶龙_EN": 605,
-      "小仓澪_EN": 606,
-      "恕筠_EN": 607,
-      "知易_EN": 608,
-      "克列门特_EN": 609,
-      "大慈树王_EN": 610,
-      "维多利亚_EN": 611,
-      "黑田_EN": 612,
-      "马姆杜_EN": 613,
-      "科林斯_EN": 614,
-      "上杉_EN": 615,
-      "西拉杰_EN": 616,
-      "宁禄_EN": 617,
-      "纯水精灵_EN": 618,
-      "常九爷_EN": 619,
-      "阿尔卡米_EN": 620,
-      "沙扎曼_EN": 621,
-      "田铁嘴_EN": 622,
-      "加萨尼_EN": 623,
-      "克罗索_EN": 624,
-      "星稀_EN": 625,
-      "莱斯格_EN": 626,
-      "阿巴图伊_EN": 627,
-      "悦_EN": 628,
-      "德田_EN": 629,
-      "埃尔欣根_EN": 630,
-      "阿佩普_EN": 631,
-      "萨赫哈蒂_EN": 632,
-      "洛伦佐_EN": 633,
-      "塔杰·拉德卡尼_EN": 634,
-      "泽田_EN": 635,
-      "安西_EN": 636,
-      "理水叠山真君_EN": 637,
       "埃舍尔_EN": 638,
-      "萨齐因_EN": 639,
-      "古田_EN": 640,
-      "三月七_ZH": 641,
-      "丹恒_ZH": 642,
-      "希儿_ZH": 643,
-      "娜塔莎_ZH": 644,
-      "希露瓦_ZH": 645,
-      "瓦尔特_ZH": 646,
-      "佩拉_ZH": 647,
-      "布洛妮娅_ZH": 648,
-      "虎克_ZH": 649,
-      "素裳_ZH": 650,
-      "克拉拉_ZH": 651,
-      "符玄_ZH": 652,
-      "白露_ZH": 653,
-      "杰帕德_ZH": 654,
-      "景元_ZH": 655,
-      "藿藿_ZH": 656,
-      "姬子_ZH": 657,
-      "穹_ZH": 658,
-      "星_ZH": 659,
-      "卡芙卡_ZH": 660,
-      "桂乃芬_ZH": 661,
-      "艾丝妲_ZH": 662,
-      "玲可_ZH": 663,
-      "彦卿_ZH": 664,
-      "托帕_ZH": 665,
-      "驭空_ZH": 666,
-      "浮烟_ZH": 667,
-      "停云_ZH": 668,
-      "镜流_ZH": 669,
-      "罗刹_ZH": 670,
-      "卢卡_ZH": 671,
-      "史瓦罗_ZH": 672,
-      "黑塔_ZH": 673,
-      "桑博_ZH": 674,
-      "伦纳德_ZH": 675,
-      "明曦_ZH": 676,
-      "银狼_ZH": 677,
-      "帕姆_ZH": 678,
-      "青雀_ZH": 679,
-      "乔瓦尼_ZH": 680,
-      "公输师傅_ZH": 681,
-      "晴霓_ZH": 682,
-      "螺丝咕姆_ZH": 683,
-      "阿兰_ZH": 684,
-      "奥列格_ZH": 685,
-      "丹枢_ZH": 686,
-      "尾巴_ZH": 687,
-      "寒鸦_ZH": 688,
-      "雪衣_ZH": 689,
-      "可可利亚_ZH": 690,
-      "青镞_ZH": 691,
-      "半夏_ZH": 692,
-      "银枝_ZH": 693,
-      "大毫_ZH": 694,
-      "霄翰_ZH": 695,
-      "信使_ZH": 696,
-      "费斯曼_ZH": 697,
-      "绿芙蓉_ZH": 698,
-      "dev_成男_ZH": 699,
-      "金人会长_ZH": 700,
-      "维利特_ZH": 701,
-      "维尔德_ZH": 702,
-      "斯科特_ZH": 703,
-      "卡波特_ZH": 704,
-      "刃_ZH": 705,
-      "岩明_ZH": 706,
-      "浣溪_ZH": 707,
-      "三月七_JP": 708,
-      "丹恒_JP": 709,
-      "希儿_JP": 710,
-      "娜塔莎_JP": 711,
-      "希露瓦_JP": 712,
-      "瓦尔特_JP": 713,
-      "佩拉_JP": 714,
-      "布洛妮娅_JP": 715,
-      "虎克_JP": 716,
-      "素裳_JP": 717,
-      "克拉拉_JP": 718,
-      "符玄_JP": 719,
-      "白露_JP": 720,
-      "杰帕德_JP": 721,
-      "景元_JP": 722,
-      "藿藿_JP": 723,
-      "姬子_JP": 724,
-      "卡芙卡_JP": 725,
-      "穹_JP": 726,
-      "星_JP": 727,
-      "桂乃芬_JP": 728,
-      "艾丝妲_JP": 729,
-      "彦卿_JP": 730,
-      "玲可_JP": 731,
-      "托帕_JP": 732,
-      "驭空_JP": 733,
-      "浮烟_JP": 734,
-      "停云_JP": 735,
-      "镜流_JP": 736,
-      "罗刹_JP": 737,
-      "卢卡_JP": 738,
-      "史瓦罗_JP": 739,
-      "黑塔_JP": 740,
-      "桑博_JP": 741,
-      "伦纳德_JP": 742,
-      "明曦_JP": 743,
-      "银狼_JP": 744,
-      "帕姆_JP": 745,
-      "青雀_JP": 746,
-      "乔瓦尼_JP": 747,
-      "公输师傅_JP": 748,
-      "晴霓_JP": 749,
-      "螺丝咕姆_JP": 750,
-      "阿兰_JP": 751,
-      "奥列格_JP": 752,
-      "丹枢_JP": 753,
-      "尾巴_JP": 754,
-      "寒鸦_JP": 755,
-      "雪衣_JP": 756,
-      "可可利亚_JP": 757,
-      "青镞_JP": 758,
-      "半夏_JP": 759,
-      "银枝_JP": 760,
-      "大毫_JP": 761,
-      "霄翰_JP": 762,
-      "信使_JP": 763,
-      "费斯曼_JP": 764,
-      "绿芙蓉_JP": 765,
-      "dev_成男_JP": 766,
-      "金人会长_JP": 767,
-      "维利特_JP": 768,
-      "维尔德_JP": 769,
-      "斯科特_JP": 770,
-      "刃_JP": 771,
-      "卡波特_JP": 772,
-      "岩明_JP": 773,
-      "浣溪_JP": 774,
-      "净砚_JP": 775,
-      "紫月季_JP": 776,
-      "歌蒂_JP": 777,
-      "奇怪的云骑_JP": 778,
-      "幻胧_JP": 779,
-      "斯薇塔_JP": 780,
-      "隐书_JP": 781,
-      "三月七_EN": 782,
-      "丹恒_EN": 783,
-      "希儿_EN": 784,
-      "娜塔莎_EN": 785,
-      "希露瓦_EN": 786,
-      "瓦尔特_EN": 787,
-      "佩拉_EN": 788,
-      "布洛妮娅_EN": 789,
-      "虎克_EN": 790,
-      "素裳_EN": 791,
-      "克拉拉_EN": 792,
-      "符玄_EN": 793,
-      "白露_EN": 794,
-      "杰帕德_EN": 795,
-      "景元_EN": 796,
-      "藿藿_EN": 797,
-      "姬子_EN": 798,
-      "卡芙卡_EN": 799,
-      "穹_EN": 800,
-      "星_EN": 801,
-      "桂乃芬_EN": 802,
-      "艾丝妲_EN": 803,
-      "彦卿_EN": 804,
-      "玲可_EN": 805,
-      "托帕_EN": 806,
-      "驭空_EN": 807,
-      "浮烟_EN": 808,
-      "停云_EN": 809,
-      "镜流_EN": 810,
-      "罗刹_EN": 811,
-      "卢卡_EN": 812,
-      "史瓦罗_EN": 813,
-      "黑塔_EN": 814,
-      "桑博_EN": 815,
-      "伦纳德_EN": 816,
-      "明曦_EN": 817,
-      "银狼_EN": 818,
-      "帕姆_EN": 819,
-      "青雀_EN": 820,
-      "乔瓦尼_EN": 821,
-      "公输师傅_EN": 822,
-      "晴霓_EN": 823,
-      "螺丝咕姆_EN": 824,
-      "阿兰_EN": 825,
-      "奥列格_EN": 826,
-      "丹枢_EN": 827,
-      "尾巴_EN": 828,
-      "寒鸦_EN": 829,
-      "雪衣_EN": 830,
-      "可可利亚_EN": 831,
-      "青镞_EN": 832,
-      "半夏_EN": 833,
-      "银枝_EN": 834,
-      "大毫_EN": 835,
-      "霄翰_EN": 836,
-      "信使_EN": 837,
-      "费斯曼_EN": 838,
-      "绿芙蓉_EN": 839,
-      "dev_成男_EN": 840,
-      "金人会长_EN": 841,
-      "维利特_EN": 842,
-      "维尔德_EN": 843,
-      "刃_EN": 844,
-      "卡波特_EN": 845,
-      "岩明_EN": 846,
-      "浣溪_EN": 847,
-      "紫月季_EN": 848,
-      "幻胧_EN": 849,
-      "女声_EN": 850,
-      "陆景和": 851,
-      "莫弈": 852,
-      "左然": 853,
-      "夏彦": 854
     }
   },
   "model": {
@@ -947,7 +944,14 @@
     ],
     "n_layers_q": 3,
     "use_spectral_norm": false,
-    "gin_channels": 256
   },
-  "version": "2.2"
 }

       0.99
     ],
     "eps": 1e-09,
+    "batch_size": 16,
+    "bf16_run": false,
     "lr_decay": 0.99995,
     "segment_size": 16384,
     "init_lr_ratio": 1,
     "warmup_epochs": 0,
     "c_mel": 45,
     "c_kl": 1.0,
+    "c_commit": 100,
     "skip_optimizer": true,
     "freeze_ZH_bert": false,
     "freeze_JP_bert": false,
+    "freeze_EN_bert": false,
+    "freeze_emo": false
   },
   "data": {
     "training_files": "filelists/train.list",
     "mel_fmin": 0.0,
     "mel_fmax": null,
     "add_blank": true,
+    "n_speakers": 850,
     "cleaned_text": true,
     "spk2id": {
       "派蒙_ZH": 0,
       "伊迪娅_ZH": 78,
       "留云借风真君_ZH": 79,
       "绮良良_ZH": 80,
+      "陌生人_ZH": 81,
+      "七七_ZH": 82,
+      "式大将_ZH": 83,
+      "瑶瑶_ZH": 84,
+      "奥兹_ZH": 85,
+      "菲米尼_ZH": 86,
+      "米卡_ZH": 87,
+      "哲平_ZH": 88,
+      "浮游水蕈兽·元素生命_ZH": 89,
+      "大肉丸_ZH": 90,
+      "托克_ZH": 91,
+      "蒂玛乌斯_ZH": 92,
+      "昆钧_ZH": 93,
+      "欧菲妮_ZH": 94,
+      "塞琉斯_ZH": 95,
+      "仆人_ZH": 96,
+      "迈勒斯_ZH": 97,
+      "希格雯_ZH": 98,
+      "阿守_ZH": 99,
+      "拉赫曼_ZH": 100,
+      "杜拉夫_ZH": 101,
+      "伊利亚斯_ZH": 102,
+      "阿晃_ZH": 103,
+      "旁白_ZH": 104,
+      "爱德琳_ZH": 105,
+      "埃洛伊_ZH": 106,
+      "德沃沙克_ZH": 107,
+      "玛乔丽_ZH": 108,
+      "塞塔蕾_ZH": 109,
+      "柊千里_ZH": 110,
+      "海芭夏_ZH": 111,
+      "九条镰治_ZH": 112,
+      "阿娜耶_ZH": 113,
+      "笼钓瓶一心_ZH": 114,
+      "回声海螺_ZH": 115,
+      "劳维克_ZH": 116,
+      "元太_ZH": 117,
+      "阿扎尔_ZH": 118,
+      "查尔斯_ZH": 119,
+      "阿洛瓦_ZH": 120,
+      "埃勒曼_ZH": 121,
+      "纳比尔_ZH": 122,
+      "莎拉_ZH": 123,
+      "康纳_ZH": 124,
+      "博来_ZH": 125,
+      "玛塞勒_ZH": 126,
+      "阿祇_ZH": 127,
+      "博士_ZH": 128,
+      "玛格丽特_ZH": 129,
+      "迪尔菲_ZH": 130,
+      "宛烟_ZH": 131,
+      "羽生田千鹤_ZH": 132,
+      "海妮耶_ZH": 133,
+      "旅行者_ZH": 134,
+      "霍夫曼_ZH": 135,
+      "佐西摩斯_ZH": 136,
+      "鹿野奈奈_ZH": 137,
+      "舒伯特_ZH": 138,
+      "天叔_ZH": 139,
+      "艾莉丝_ZH": 140,
+      "龙二_ZH": 141,
+      "莺儿_ZH": 142,
+      "嘉良_ZH": 143,
+      "一心传名刀_ZH": 144,
+      "珊瑚_ZH": 145,
+      "言笑_ZH": 146,
+      "久利须_ZH": 147,
+      "嘉玛_ZH": 148,
+      "艾文_ZH": 149,
+      "克洛琳德_ZH": 150,
+      "丹吉尔_ZH": 151,
+      "女士_ZH": 152,
+      "白老先生_ZH": 153,
+      "天目十五_ZH": 154,
+      "老孟_ZH": 155,
+      "巴达维_ZH": 156,
+      "长生_ZH": 157,
+      "吴船长_ZH": 158,
+      "拉齐_ZH": 159,
+      "艾伯特_ZH": 160,
+      "松浦_ZH": 161,
+      "埃泽_ZH": 162,
+      "阿圆_ZH": 163,
+      "莫塞伊思_ZH": 164,
+      "阿拉夫_ZH": 165,
+      "杜吉耶_ZH": 166,
+      "石头_ZH": 167,
+      "百闻_ZH": 168,
+      "波洛_ZH": 169,
+      "斯坦利_ZH": 170,
+      "博易_ZH": 171,
+      "迈蒙_ZH": 172,
+      "掇星攫辰天君_ZH": 173,
+      "毗伽尔_ZH": 174,
+      "芙卡洛斯_ZH": 175,
+      "恶龙_ZH": 176,
+      "恕筠_ZH": 177,
+      "知易_ZH": 178,
+      "克列门特_ZH": 179,
+      "大慈树王_ZH": 180,
+      "西拉杰_ZH": 181,
+      "上杉_ZH": 182,
+      "阿尔卡米_ZH": 183,
+      "纯水精灵_ZH": 184,
+      "常九爷_ZH": 185,
+      "沙扎曼_ZH": 186,
+      "田铁嘴_ZH": 187,
+      "克罗索_ZH": 188,
+      "阿巴图伊_ZH": 189,
       "阿佩普_ZH": 190,
       "埃尔欣根_ZH": 191,
       "萨赫哈蒂_ZH": 192,
       "塔杰·拉德卡尼_ZH": 193,
       "安西_ZH": 194,
+      "陆行岩本真蕈·元素生命_ZH": 195,
+      "派蒙_JP": 196,
+      "纳西妲_JP": 197,
+      "凯亚_JP": 198,
+      "阿贝多_JP": 199,
+      "温迪_JP": 200,
+      "枫原万叶_JP": 201,
+      "钟离_JP": 202,
+      "荒泷一斗_JP": 203,
+      "八重神子_JP": 204,
+      "艾尔海森_JP": 205,
+      "提纳里_JP": 206,
+      "迪希雅_JP": 207,
+      "卡维_JP": 208,
+      "宵宫_JP": 209,
+      "那维莱特_JP": 210,
+      "莱依拉_JP": 211,
+      "赛诺_JP": 212,
+      "莫娜_JP": 213,
+      "诺艾尔_JP": 214,
+      "托马_JP": 215,
+      "凝光_JP": 216,
+      "林尼_JP": 217,
+      "北斗_JP": 218,
+      "柯莱_JP": 219,
+      "神里绫华_JP": 220,
+      "可莉_JP": 221,
+      "芭芭拉_JP": 222,
+      "雷电将军_JP": 223,
+      "娜维娅_JP": 224,
+      "芙宁娜_JP": 225,
+      "珊瑚宫心海_JP": 226,
+      "鹿野院平藏_JP": 227,
+      "迪奥娜_JP": 228,
+      "琴_JP": 229,
+      "五郎_JP": 230,
+      "班尼特_JP": 231,
+      "达达利亚_JP": 232,
+      "安柏_JP": 233,
+      "莱欧斯利_JP": 234,
+      "夜兰_JP": 235,
+      "妮露_JP": 236,
+      "辛焱_JP": 237,
+      "丽莎_JP": 238,
+      "珐露珊_JP": 239,
+      "魈_JP": 240,
+      "香菱_JP": 241,
+      "迪卢克_JP": 242,
+      "砂糖_JP": 243,
+      "烟绯_JP": 244,
+      "早柚_JP": 245,
+      "云堇_JP": 246,
+      "刻晴_JP": 247,
+      "重云_JP": 248,
+      "优菈_JP": 249,
+      "胡桃_JP": 250,
+      "流浪者_JP": 251,
+      "久岐忍_JP": 252,
+      "神里绫人_JP": 253,
+      "甘雨_JP": 254,
+      "戴因斯雷布_JP": 255,
+      "菲谢尔_JP": 256,
+      "白术_JP": 257,
+      "行秋_JP": 258,
+      "九条裟罗_JP": 259,
+      "夏洛蒂_JP": 260,
+      "雷泽_JP": 261,
+      "申鹤_JP": 262,
+      "空_JP": 263,
+      "荧_JP": 264,
+      "迪娜泽黛_JP": 265,
+      "凯瑟琳_JP": 266,
+      "多莉_JP": 267,
+      "坎蒂丝_JP": 268,
+      "琳妮特_JP": 269,
+      "萍姥姥_JP": 270,
+      "罗莎莉亚_JP": 271,
+      "埃德_JP": 272,
+      "爱贝尔_JP": 273,
+      "伊迪娅_JP": 274,
+      "留云借风真君_JP": 275,
+      "绮良良_JP": 276,
+      "陌生人_JP": 277,
       "七七_JP": 278,
       "式大将_JP": 279,
       "瑶瑶_JP": 280,
       "菲米尼_JP": 282,
       "米卡_JP": 283,
       "哲平_JP": 284,
+      "浮游水蕈兽·元素生命_JP": 285,
+      "大肉丸_JP": 286,
+      "托克_JP": 287,
+      "蒂玛乌斯_JP": 288,
+      "昆钧_JP": 289,
+      "欧菲妮_JP": 290,
+      "塞琉斯_JP": 291,
+      "仆人_JP": 292,
+      "迈勒斯_JP": 293,
+      "希格雯_JP": 294,
+      "阿守_JP": 295,
+      "拉赫曼_JP": 296,
+      "杜拉夫_JP": 297,
+      "伊利亚斯_JP": 298,
+      "阿晃_JP": 299,
+      "旁白_JP": 300,
+      "爱德琳_JP": 301,
+      "埃洛伊_JP": 302,
+      "德沃沙克_JP": 303,
+      "玛乔丽_JP": 304,
+      "塞塔蕾_JP": 305,
+      "柊千里_JP": 306,
+      "海芭夏_JP": 307,
+      "九条镰治_JP": 308,
+      "阿娜耶_JP": 309,
+      "笼钓瓶一心_JP": 310,
+      "回声海螺_JP": 311,
+      "劳维克_JP": 312,
+      "元太_JP": 313,
+      "阿扎尔_JP": 314,
+      "查尔斯_JP": 315,
+      "阿洛瓦_JP": 316,
+      "埃勒曼_JP": 317,
+      "纳比尔_JP": 318,
+      "莎拉_JP": 319,
+      "康纳_JP": 320,
+      "博来_JP": 321,
+      "玛塞勒_JP": 322,
+      "阿祇_JP": 323,
+      "博士_JP": 324,
+      "迪尔菲_JP": 325,
+      "玛格丽特_JP": 326,
+      "宛烟_JP": 327,
+      "羽生田千鹤_JP": 328,
+      "海妮耶_JP": 329,
+      "霍夫曼_JP": 330,
+      "旅行者_JP": 331,
+      "佐西摩斯_JP": 332,
+      "舒伯特_JP": 333,
+      "鹿野奈奈_JP": 334,
+      "天叔_JP": 335,
+      "龙二_JP": 336,
+      "艾莉丝_JP": 337,
+      "莺儿_JP": 338,
+      "嘉良_JP": 339,
+      "珊瑚_JP": 340,
+      "言笑_JP": 341,
+      "一心传名刀_JP": 342,
+      "费迪南德_JP": 343,
+      "久利须_JP": 344,
+      "嘉玛_JP": 345,
+      "艾文_JP": 346,
+      "克洛琳德_JP": 347,
+      "丹吉尔_JP": 348,
+      "天目十五_JP": 349,
+      "女士_JP": 350,
+      "老孟_JP": 351,
+      "白老先生_JP": 352,
+      "舍利夫_JP": 353,
+      "巴达维_JP": 354,
+      "拉齐_JP": 355,
+      "长生_JP": 356,
+      "吴船长_JP": 357,
+      "艾伯特_JP": 358,
+      "松浦_JP": 359,
+      "埃泽_JP": 360,
+      "阿圆_JP": 361,
+      "阿拉夫_JP": 362,
+      "莫塞伊思_JP": 363,
+      "石头_JP": 364,
+      "百闻_JP": 365,
+      "杜吉耶_JP": 366,
+      "波洛_JP": 367,
+      "掇星攫辰天君_JP": 368,
+      "迈蒙_JP": 369,
+      "博易_JP": 370,
+      "诗筠_JP": 371,
+      "斯坦利_JP": 372,
+      "毗伽尔_JP": 373,
+      "芙卡洛斯_JP": 374,
+      "恶龙_JP": 375,
+      "小仓澪_JP": 376,
+      "恕筠_JP": 377,
+      "知易_JP": 378,
+      "克列门特_JP": 379,
+      "大慈树王_JP": 380,
+      "望雅_JP": 381,
+      "黑田_JP": 382,
+      "卡莉娜_JP": 383,
+      "马姆杜_JP": 384,
+      "科林斯_JP": 385,
+      "上杉_JP": 386,
+      "西拉杰_JP": 387,
+      "菲尔戈黛特_JP": 388,
+      "一平_JP": 389,
+      "纯水精灵_JP": 390,
+      "阿尔卡米_JP": 391,
+      "老戴_JP": 392,
+      "谢赫祖拜尔_JP": 393,
+      "沙扎曼_JP": 394,
+      "田铁嘴_JP": 395,
+      "小野寺_JP": 396,
+      "百识_JP": 397,
+      "克罗索_JP": 398,
+      "莱斯格_JP": 399,
+      "芷巧_JP": 400,
+      "加藤洋平_JP": 401,
+      "阿巴图伊_JP": 402,
+      "埃尔欣根_JP": 403,
+      "斯嘉莉_JP": 404,
+      "阿佩普_JP": 405,
+      "巫女_JP": 406,
+      "卡布斯_JP": 407,
+      "洛伦佐_JP": 408,
+      "萨赫哈蒂_JP": 409,
+      "娜德瓦_JP": 410,
+      "塞德娜_JP": 411,
+      "塔杰·拉德卡尼_JP": 412,
+      "绘星_JP": 413,
+      "泽田_JP": 414,
+      "安西_JP": 415,
+      "拉伊德_JP": 416,
+      "亚卡巴_JP": 417,
+      "有乐斋_JP": 418,
+      "莱昂_JP": 419,
+      "尤苏波夫_JP": 420,
+      "夏妮_JP": 421,
+      "埃舍尔_JP": 422,
+      "萨齐因_JP": 423,
+      "古山_JP": 424,
+      "自称渊上之物_JP": 425,
+      "丹羽_JP": 426,
+      "塞萨尔的日记_JP": 427,
+      "派蒙_EN": 428,
+      "纳西妲_EN": 429,
+      "凯亚_EN": 430,
+      "阿贝多_EN": 431,
+      "温迪_EN": 432,
+      "枫原万叶_EN": 433,
+      "钟离_EN": 434,
+      "荒泷一斗_EN": 435,
+      "八重神子_EN": 436,
+      "艾尔海森_EN": 437,
+      "提纳里_EN": 438,
+      "迪希雅_EN": 439,
+      "卡维_EN": 440,
+      "宵宫_EN": 441,
+      "莱依拉_EN": 442,
+      "那维莱特_EN": 443,
+      "赛诺_EN": 444,
+      "莫娜_EN": 445,
+      "诺艾尔_EN": 446,
+      "托马_EN": 447,
+      "凝光_EN": 448,
+      "林尼_EN": 449,
+      "北斗_EN": 450,
+      "柯莱_EN": 451,
+      "神里绫华_EN": 452,
+      "可莉_EN": 453,
+      "芭芭拉_EN": 454,
+      "雷电将军_EN": 455,
+      "娜维娅_EN": 456,
+      "芙宁娜_EN": 457,
+      "珊瑚宫心海_EN": 458,
+      "鹿野院平藏_EN": 459,
+      "迪奥娜_EN": 460,
+      "五郎_EN": 461,
+      "琴_EN": 462,
+      "班尼特_EN": 463,
+      "达达利亚_EN": 464,
+      "安柏_EN": 465,
+      "莱欧斯利_EN": 466,
+      "夜兰_EN": 467,
+      "妮露_EN": 468,
+      "辛焱_EN": 469,
+      "珐露珊_EN": 470,
+      "丽莎_EN": 471,
+      "魈_EN": 472,
+      "香菱_EN": 473,
+      "迪卢克_EN": 474,
+      "砂糖_EN": 475,
+      "烟绯_EN": 476,
+      "早柚_EN": 477,
+      "云堇_EN": 478,
+      "刻晴_EN": 479,
+      "重云_EN": 480,
+      "优菈_EN": 481,
+      "胡桃_EN": 482,
+      "流浪者_EN": 483,
+      "久岐忍_EN": 484,
+      "神里绫人_EN": 485,
+      "甘雨_EN": 486,
+      "戴因斯雷布_EN": 487,
+      "菲谢尔_EN": 488,
+      "白术_EN": 489,
+      "行秋_EN": 490,
+      "九条裟罗_EN": 491,
+      "夏洛蒂_EN": 492,
+      "雷泽_EN": 493,
+      "申鹤_EN": 494,
+      "荧_EN": 495,
+      "空_EN": 496,
+      "迪娜泽黛_EN": 497,
+      "凯瑟琳_EN": 498,
+      "多莉_EN": 499,
+      "坎蒂丝_EN": 500,
+      "琳妮特_EN": 501,
+      "萍姥姥_EN": 502,
+      "罗莎莉亚_EN": 503,
+      "埃德_EN": 504,
+      "爱贝尔_EN": 505,
+      "伊迪娅_EN": 506,
+      "留云借风真君_EN": 507,
+      "绮良良_EN": 508,
+      "陌生人_EN": 509,
+      "七七_EN": 510,
+      "式大将_EN": 511,
+      "瑶瑶_EN": 512,
+      "奥兹_EN": 513,
+      "菲米尼_EN": 514,
+      "米卡_EN": 515,
+      "哲平_EN": 516,
+      "浮游水蕈兽·元素生命_EN": 517,
+      "大肉丸_EN": 518,
+      "托克_EN": 519,
+      "蒂玛乌斯_EN": 520,
+      "昆钧_EN": 521,
+      "欧菲妮_EN": 522,
+      "塞琉斯_EN": 523,
+      "仆人_EN": 524,
+      "迈勒斯_EN": 525,
+      "希格雯_EN": 526,
+      "阿守_EN": 527,
+      "拉赫曼_EN": 528,
+      "杜拉夫_EN": 529,
+      "伊利亚斯_EN": 530,
+      "阿晃_EN": 531,
+      "旁白_EN": 532,
+      "爱德琳_EN": 533,
+      "埃洛伊_EN": 534,
+      "德沃沙克_EN": 535,
+      "玛乔丽_EN": 536,
+      "塞塔蕾_EN": 537,
+      "柊千里_EN": 538,
+      "海芭夏_EN": 539,
+      "九条镰治_EN": 540,
+      "阿娜耶_EN": 541,
+      "笼钓瓶一心_EN": 542,
+      "回声海螺_EN": 543,
+      "劳维克_EN": 544,
+      "元太_EN": 545,
+      "阿扎尔_EN": 546,
+      "查尔斯_EN": 547,
+      "阿洛瓦_EN": 548,
+      "埃勒曼_EN": 549,
+      "纳比尔_EN": 550,
+      "莎拉_EN": 551,
+      "康纳_EN": 552,
+      "博来_EN": 553,
+      "玛塞勒_EN": 554,
+      "阿祇_EN": 555,
+      "博士_EN": 556,
+      "迪尔菲_EN": 557,
+      "宛烟_EN": 558,
+      "玛格丽特_EN": 559,
+      "羽生田千鹤_EN": 560,
+      "海妮耶_EN": 561,
+      "霍夫曼_EN": 562,
+      "旅行者_EN": 563,
+      "佐西摩斯_EN": 564,
+      "鹿野奈奈_EN": 565,
+      "舒伯特_EN": 566,
+      "天叔_EN": 567,
+      "艾莉丝_EN": 568,
+      "龙二_EN": 569,
+      "莺儿_EN": 570,
+      "嘉良_EN": 571,
+      "珊瑚_EN": 572,
+      "费迪南德_EN": 573,
+      "言笑_EN": 574,
+      "一心传名刀_EN": 575,
+      "久利须_EN": 576,
+      "嘉玛_EN": 577,
+      "艾文_EN": 578,
+      "克洛琳德_EN": 579,
+      "丹吉尔_EN": 580,
+      "女士_EN": 581,
+      "天目十五_EN": 582,
+      "老孟_EN": 583,
+      "白老先生_EN": 584,
+      "舍利夫_EN": 585,
+      "巴达维_EN": 586,
+      "拉齐_EN": 587,
+      "长生_EN": 588,
+      "吴船长_EN": 589,
+      "艾伯特_EN": 590,
+      "松浦_EN": 591,
+      "埃泽_EN": 592,
+      "阿圆_EN": 593,
+      "阿拉夫_EN": 594,
+      "莫塞伊思_EN": 595,
+      "石头_EN": 596,
+      "百闻_EN": 597,
+      "杜吉耶_EN": 598,
+      "波洛_EN": 599,
+      "斯坦利_EN": 600,
+      "掇星攫辰天君_EN": 601,
+      "迈蒙_EN": 602,
+      "博易_EN": 603,
+      "诗筠_EN": 604,
+      "毗伽尔_EN": 605,
+      "慧心_EN": 606,
+      "芙卡洛斯_EN": 607,
+      "恶龙_EN": 608,
+      "小仓澪_EN": 609,
+      "恕筠_EN": 610,
+      "知易_EN": 611,
+      "克列门特_EN": 612,
+      "大慈树王_EN": 613,
+      "维多利亚_EN": 614,
+      "黑田_EN": 615,
+      "马姆杜_EN": 616,
+      "科林斯_EN": 617,
+      "上杉_EN": 618,
+      "西拉杰_EN": 619,
+      "宁禄_EN": 620,
+      "纯水精灵_EN": 621,
+      "常九爷_EN": 622,
+      "阿尔卡米_EN": 623,
+      "沙扎曼_EN": 624,
+      "田铁嘴_EN": 625,
+      "加萨尼_EN": 626,
+      "克罗索_EN": 627,
+      "星稀_EN": 628,
+      "莱斯格_EN": 629,
+      "阿巴图伊_EN": 630,
+      "埃尔欣根_EN": 631,
+      "阿佩普_EN": 632,
+      "萨赫哈蒂_EN": 633,
+      "洛伦佐_EN": 634,
+      "塔杰·拉德卡尼_EN": 635,
+      "泽田_EN": 636,
+      "安西_EN": 637,
       "埃舍尔_EN": 638,
+      "三月七_ZH": 639,
+      "丹恒_ZH": 640,
+      "希儿_ZH": 641,
+      "娜塔莎_ZH": 642,
+      "希露瓦_ZH": 643,
+      "瓦尔特_ZH": 644,
+      "佩拉_ZH": 645,
+      "布洛妮娅_ZH": 646,
+      "虎克_ZH": 647,
+      "素裳_ZH": 648,
+      "克拉拉_ZH": 649,
+      "符玄_ZH": 650,
+      "白露_ZH": 651,
+      "杰帕德_ZH": 652,
+      "景元_ZH": 653,
+      "藿藿_ZH": 654,
+      "姬子_ZH": 655,
+      "穹_ZH": 656,
+      "星_ZH": 657,
+      "卡芙卡_ZH": 658,
+      "桂乃芬_ZH": 659,
+      "艾丝妲_ZH": 660,
+      "玲可_ZH": 661,
+      "彦卿_ZH": 662,
+      "托帕_ZH": 663,
+      "驭空_ZH": 664,
+      "浮烟_ZH": 665,
+      "停云_ZH": 666,
+      "镜流_ZH": 667,
+      "罗刹_ZH": 668,
+      "卢卡_ZH": 669,
+      "史瓦罗_ZH": 670,
+      "黑塔_ZH": 671,
+      "桑博_ZH": 672,
+      "伦纳德_ZH": 673,
+      "明曦_ZH": 674,
+      "银狼_ZH": 675,
+      "帕姆_ZH": 676,
+      "青雀_ZH": 677,
+      "乔瓦尼_ZH": 678,
+      "公输师傅_ZH": 679,
+      "晴霓_ZH": 680,
+      "螺丝咕姆_ZH": 681,
+      "阿兰_ZH": 682,
+      "奥列格_ZH": 683,
+      "丹枢_ZH": 684,
+      "尾巴_ZH": 685,
+      "寒鸦_ZH": 686,
+      "雪衣_ZH": 687,
+      "可可利亚_ZH": 688,
+      "青镞_ZH": 689,
+      "半夏_ZH": 690,
+      "银枝_ZH": 691,
+      "大毫_ZH": 692,
+      "霄翰_ZH": 693,
+      "信使_ZH": 694,
+      "费斯曼_ZH": 695,
+      "绿芙蓉_ZH": 696,
+      "金人会长_ZH": 697,
+      "维利特_ZH": 698,
+      "维尔德_ZH": 699,
+      "斯科特_ZH": 700,
+      "卡波特_ZH": 701,
+      "刃_ZH": 702,
+      "岩明_ZH": 703,
+      "浣溪_ZH": 704,
+      "三月七_JP": 705,
+      "丹恒_JP": 706,
+      "希儿_JP": 707,
+      "娜塔莎_JP": 708,
+      "希露瓦_JP": 709,
+      "瓦尔特_JP": 710,
+      "佩拉_JP": 711,
+      "布洛妮娅_JP": 712,
+      "虎克_JP": 713,
+      "素裳_JP": 714,
+      "克拉拉_JP": 715,
+      "符玄_JP": 716,
+      "白露_JP": 717,
+      "杰帕德_JP": 718,
+      "景元_JP": 719,
+      "藿藿_JP": 720,
+      "姬子_JP": 721,
+      "卡芙卡_JP": 722,
+      "穹_JP": 723,
+      "星_JP": 724,
+      "桂乃芬_JP": 725,
+      "艾丝妲_JP": 726,
+      "彦卿_JP": 727,
+      "玲可_JP": 728,
+      "托帕_JP": 729,
+      "驭空_JP": 730,
+      "浮烟_JP": 731,
+      "停云_JP": 732,
+      "镜流_JP": 733,
+      "罗刹_JP": 734,
+      "卢卡_JP": 735,
+      "史瓦罗_JP": 736,
+      "黑塔_JP": 737,
+      "桑博_JP": 738,
+      "伦纳德_JP": 739,
+      "明曦_JP": 740,
+      "银狼_JP": 741,
+      "帕姆_JP": 742,
+      "青雀_JP": 743,
+      "乔瓦尼_JP": 744,
+      "公输师傅_JP": 745,
+      "晴霓_JP": 746,
+      "螺丝咕姆_JP": 747,
+      "阿兰_JP": 748,
+      "奥列格_JP": 749,
+      "丹枢_JP": 750,
+      "尾巴_JP": 751,
+      "寒鸦_JP": 752,
+      "雪衣_JP": 753,
+      "可可利亚_JP": 754,
+      "青镞_JP": 755,
+      "半夏_JP": 756,
+      "银枝_JP": 757,
+      "大毫_JP": 758,
+      "霄翰_JP": 759,
+      "信使_JP": 760,
+      "费斯曼_JP": 761,
+      "绿芙蓉_JP": 762,
+      "金人会长_JP": 763,
+      "维利特_JP": 764,
+      "维尔德_JP": 765,
+      "斯科特_JP": 766,
+      "刃_JP": 767,
+      "卡波特_JP": 768,
+      "岩明_JP": 769,
+      "浣溪_JP": 770,
+      "净砚_JP": 771,
+      "紫月季_JP": 772,
+      "歌蒂_JP": 773,
+      "奇怪的云骑_JP": 774,
+      "幻胧_JP": 775,
+      "斯薇塔_JP": 776,
+      "隐书_JP": 777,
+      "三月七_EN": 778,
+      "丹恒_EN": 779,
+      "希儿_EN": 780,
+      "娜塔莎_EN": 781,
+      "希露瓦_EN": 782,
+      "瓦尔特_EN": 783,
+      "佩拉_EN": 784,
+      "布洛妮娅_EN": 785,
+      "虎克_EN": 786,
+      "素裳_EN": 787,
+      "克拉拉_EN": 788,
+      "符玄_EN": 789,
+      "白露_EN": 790,
+      "杰帕德_EN": 791,
+      "景元_EN": 792,
+      "藿藿_EN": 793,
+      "姬子_EN": 794,
+      "卡芙卡_EN": 795,
+      "穹_EN": 796,
+      "星_EN": 797,
+      "桂乃芬_EN": 798,
+      "艾丝妲_EN": 799,
+      "彦卿_EN": 800,
+      "玲可_EN": 801,
+      "托帕_EN": 802,
+      "驭空_EN": 803,
+      "浮烟_EN": 804,
+      "停云_EN": 805,
+      "镜流_EN": 806,
+      "罗刹_EN": 807,
+      "卢卡_EN": 808,
+      "史瓦罗_EN": 809,
+      "黑塔_EN": 810,
+      "桑博_EN": 811,
+      "伦纳德_EN": 812,
+      "明曦_EN": 813,
+      "银狼_EN": 814,
+      "帕姆_EN": 815,
+      "青雀_EN": 816,
+      "乔瓦尼_EN": 817,
+      "公输师傅_EN": 818,
+      "晴霓_EN": 819,
+      "螺丝咕姆_EN": 820,
+      "阿兰_EN": 821,
+      "奥列格_EN": 822,
+      "丹枢_EN": 823,
+      "尾巴_EN": 824,
+      "寒鸦_EN": 825,
+      "雪衣_EN": 826,
+      "可可利亚_EN": 827,
+      "青镞_EN": 828,
+      "半夏_EN": 829,
+      "银枝_EN": 830,
+      "大毫_EN": 831,
+      "霄翰_EN": 832,
+      "信使_EN": 833,
+      "费斯曼_EN": 834,
+      "绿芙蓉_EN": 835,
+      "金人会长_EN": 836,
+      "维利特_EN": 837,
+      "维尔德_EN": 838,
+      "刃_EN": 839,
+      "卡波特_EN": 840,
+      "岩明_EN": 841,
+      "浣溪_EN": 842,
+      "紫月季_EN": 843,
+      "幻胧_EN": 844,
+      "女声_EN": 845,
+      "陆景和": 846,
+      "莫弈": 847,
+      "左然": 848,
+      "夏彦": 849
     }
   },
   "model": {
     ],
     "n_layers_q": 3,
     "use_spectral_norm": false,
+    "gin_channels": 512,
+    "slm": {
+        "model": "./slm/wavlm-base-plus",
+        "sr": 16000,
+        "hidden": 768,
+        "nlayers": 13,
+        "initial_channel": 64
+    }
   },
+  "version": "2.3"
 }

monotonic_align/__pycache__/__init__.cpython-311.pyc CHANGED Viewed

Binary files a/monotonic_align/__pycache__/__init__.cpython-311.pyc and b/monotonic_align/__pycache__/__init__.cpython-311.pyc differ

monotonic_align/__pycache__/core.cpython-311.pyc CHANGED Viewed

Binary files a/monotonic_align/__pycache__/core.cpython-311.pyc and b/monotonic_align/__pycache__/core.cpython-311.pyc differ

slm/wavlm-base-plus/.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

slm/wavlm-base-plus/README.md ADDED Viewed

	@@ -0,0 +1,65 @@

+---
+language:
+- en
+datasets:
+tags:
+- speech
+inference: false
+---
+# WavLM-Base-Plus
+[Microsoft's WavLM](https://github.com/microsoft/unilm/tree/master/wavlm)
+The base model pretrained on 16kHz sampled speech audio. When using the model, make sure that your speech input is also sampled at 16kHz.
+**Note**: This model does not have a tokenizer as it was pretrained on audio alone. In order to use this model **speech recognition**, a tokenizer should be created and the model should be fine-tuned on labeled text data. Check out [this blog](https://huggingface.co/blog/fine-tune-wav2vec2-english) for more in-detail explanation of how to fine-tune the model.
+The model was pre-trained on:
+- 60,000 hours of [Libri-Light](https://arxiv.org/abs/1912.07875)
+- 10,000 hours of [GigaSpeech](https://arxiv.org/abs/2106.06909)
+- 24,000 hours of [VoxPopuli](https://arxiv.org/abs/2101.00390)
+[Paper: WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900)
+Authors: Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei
+**Abstract**
+*Self-supervised learning (SSL) achieves great success in speech recognition, while limited exploration has been attempted for other speech processing tasks. As speech signal contains multi-faceted information including speaker identity, paralinguistics, spoken content, etc., learning universal representations for all speech tasks is challenging. In this paper, we propose a new pre-trained model, WavLM, to solve full-stack downstream speech tasks. WavLM is built based on the HuBERT framework, with an emphasis on both spoken content modeling and speaker identity preservation. We first equip the Transformer structure with gated relative position bias to improve its capability on recognition tasks. For better speaker discrimination, we propose an utterance mixing training strategy, where additional overlapped utterances are created unsupervisely and incorporated during model training. Lastly, we scale up the training dataset from 60k hours to 94k hours. WavLM Large achieves state-of-the-art performance on the SUPERB benchmark, and brings significant improvements for various speech processing tasks on their representative benchmarks.*
+The original model can be found under https://github.com/microsoft/unilm/tree/master/wavlm.
+# Usage
+This is an English pre-trained speech model that has to be fine-tuned on a downstream task like speech recognition or audio classification before it can be
+used in inference. The model was pre-trained in English and should therefore perform well only in English. The model has been shown to work well on the [SUPERB benchmark](https://superbbenchmark.org/).
+**Note**: The model was pre-trained on phonemes rather than characters. This means that one should make sure that the input text is converted to a sequence
+of phonemes before fine-tuning.
+## Speech Recognition
+To fine-tune the model for speech recognition, see [the official speech recognition example](https://github.com/huggingface/transformers/tree/master/examples/pytorch/speech-recognition).
+## Speech Classification
+To fine-tune the model for speech classification, see [the official audio classification example](https://github.com/huggingface/transformers/tree/master/examples/pytorch/audio-classification).
+## Speaker Verification
+TODO
+## Speaker Diarization
+TODO
+# Contribution
+The model was contributed by [cywang](https://huggingface.co/cywang) and [patrickvonplaten](https://huggingface.co/patrickvonplaten).
+# License
+The official license can be found [here](https://github.com/microsoft/UniSpeech/blob/main/LICENSE)
+![design](https://raw.githubusercontent.com/patrickvonplaten/scientific_images/master/wavlm.png)

slm/wavlm-base-plus/config.json ADDED Viewed

	@@ -0,0 +1,99 @@

+{
+  "_name_or_path": "wavlm-base-plus",
+  "activation_dropout": 0.0,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "WavLMModel"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "freeze_feat_extract_train": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.05,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wavlm",
+  "no_mask_channel_overlap": false,
+  "no_mask_time_overlap": false,
+  "num_adapter_layers": 3,
+  "num_attention_heads": 12,
+  "num_buckets": 320,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_ctc_classes": 80,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 12,
+  "num_negatives": 100,
+  "output_hidden_size": 768,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 256,
+  "replace_prob": 0.5,
+  "torch_dtype": "float32",
+  "transformers_version": "4.13.0.dev0",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "tokenizer_class": "Wav2Vec2CTCTokenizer"
+}

slm/wavlm-base-plus/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": false,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

slm/wavlm-base-plus/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bb273a6ace99408b50cfc81afdbb7ef2de02da2eab0234e18db608ce692fe51
+size 377617425

text/__init__.py CHANGED Viewed

@@ -18,13 +18,15 @@ def cleaned_text_to_sequence(cleaned_text, tones, language):
     return phones, tones, lang_ids
-def get_bert(norm_text, word2ph, language, device):
     from .chinese_bert import get_bert_feature as zh_bert
     from .english_bert_mock import get_bert_feature as en_bert
     from .japanese_bert import get_bert_feature as jp_bert
     lang_bert_func_map = {"ZH": zh_bert, "EN": en_bert, "JP": jp_bert}
-    bert = lang_bert_func_map[language](norm_text, word2ph, device)
     return bert

     return phones, tones, lang_ids
+def get_bert(norm_text, word2ph, language, device, style_text=None, style_weight=0.7):
     from .chinese_bert import get_bert_feature as zh_bert
     from .english_bert_mock import get_bert_feature as en_bert
     from .japanese_bert import get_bert_feature as jp_bert
     lang_bert_func_map = {"ZH": zh_bert, "EN": en_bert, "JP": jp_bert}
+    bert = lang_bert_func_map[language](
+        norm_text, word2ph, device, style_text, style_weight
+    )
     return bert

text/__pycache__/__init__.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/__init__.cpython-311.pyc and b/text/__pycache__/__init__.cpython-311.pyc differ

text/__pycache__/bert_utils.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/bert_utils.cpython-311.pyc and b/text/__pycache__/bert_utils.cpython-311.pyc differ

text/__pycache__/chinese.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/chinese.cpython-311.pyc and b/text/__pycache__/chinese.cpython-311.pyc differ

text/__pycache__/chinese_bert.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/chinese_bert.cpython-311.pyc and b/text/__pycache__/chinese_bert.cpython-311.pyc differ

text/__pycache__/cleaner.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/cleaner.cpython-311.pyc and b/text/__pycache__/cleaner.cpython-311.pyc differ

text/__pycache__/english.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/english.cpython-311.pyc and b/text/__pycache__/english.cpython-311.pyc differ

text/__pycache__/english_bert_mock.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/english_bert_mock.cpython-311.pyc and b/text/__pycache__/english_bert_mock.cpython-311.pyc differ

text/__pycache__/japanese.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/japanese.cpython-311.pyc and b/text/__pycache__/japanese.cpython-311.pyc differ

text/__pycache__/japanese_bert.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/japanese_bert.cpython-311.pyc and b/text/__pycache__/japanese_bert.cpython-311.pyc differ

text/__pycache__/symbols.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/symbols.cpython-311.pyc and b/text/__pycache__/symbols.cpython-311.pyc differ

text/__pycache__/tone_sandhi.cpython-311.pyc CHANGED Viewed

Binary files a/text/__pycache__/tone_sandhi.cpython-311.pyc and b/text/__pycache__/tone_sandhi.cpython-311.pyc differ

text/chinese.py CHANGED Viewed

@@ -1,12 +1,21 @@
 import os
 import re
-import cn2an
 from pypinyin import lazy_pinyin, Style
 from text.symbols import punctuation
 from text.tone_sandhi import ToneSandhi
 current_file_path = os.path.dirname(__file__)
 pinyin_to_symbol_map = {
     line.split("\t")[0]: line.strip().split("\t")[1]
@@ -169,9 +178,7 @@ def _g2p(segments):
 def text_normalize(text):
-    numbers = re.findall(r"\d+(?:\.?\d+)?", text)
-    for number in numbers:
-        text = text.replace(number, cn2an.an2cn(number), 1)
     text = replace_punctuation(text)
     return text

 import os
 import re
 from pypinyin import lazy_pinyin, Style
 from text.symbols import punctuation
 from text.tone_sandhi import ToneSandhi
+try:
+    from tn.chinese.normalizer import Normalizer
+    normalizer = Normalizer().normalize
+except ImportError:
+    import cn2an
+    print("tn.chinese.normalizer not found, use cn2an normalizer")
+    normalizer = lambda x: cn2an.transform(x, "an2cn")
 current_file_path = os.path.dirname(__file__)
 pinyin_to_symbol_map = {
     line.split("\t")[0]: line.strip().split("\t")[1]
 def text_normalize(text):
+    text = normalizer(text)
     text = replace_punctuation(text)
     return text

text/chinese_bert.py CHANGED Viewed

@@ -12,7 +12,13 @@ tokenizer = AutoTokenizer.from_pretrained(LOCAL_PATH)
 models = dict()
-def get_bert_feature(text, word2ph, device=config.bert_gen_config.device):
     if (
         sys.platform == "darwin"
         and torch.backends.mps.is_available()
@@ -29,12 +35,24 @@ def get_bert_feature(text, word2ph, device=config.bert_gen_config.device):
             inputs[i] = inputs[i].to(device)
         res = models[device](**inputs, output_hidden_states=True)
         res = torch.cat(res["hidden_states"][-3:-2], -1)[0].cpu()
     assert len(word2ph) == len(text) + 2
     word2phone = word2ph
     phone_level_feature = []
     for i in range(len(word2phone)):
-        repeat_feature = res[i].repeat(word2phone[i], 1)
         phone_level_feature.append(repeat_feature)
     phone_level_feature = torch.cat(phone_level_feature, dim=0)

 models = dict()
+def get_bert_feature(
+    text,
+    word2ph,
+    device=config.bert_gen_config.device,
+    style_text=None,
+    style_weight=0.7,
+):
     if (
         sys.platform == "darwin"
         and torch.backends.mps.is_available()
             inputs[i] = inputs[i].to(device)
         res = models[device](**inputs, output_hidden_states=True)
         res = torch.cat(res["hidden_states"][-3:-2], -1)[0].cpu()
+        if style_text:
+            style_inputs = tokenizer(style_text, return_tensors="pt")
+            for i in style_inputs:
+                style_inputs[i] = style_inputs[i].to(device)
+            style_res = models[device](**style_inputs, output_hidden_states=True)
+            style_res = torch.cat(style_res["hidden_states"][-3:-2], -1)[0].cpu()
+            style_res_mean = style_res.mean(0)
     assert len(word2ph) == len(text) + 2
     word2phone = word2ph
     phone_level_feature = []
     for i in range(len(word2phone)):
+        if style_text:
+            repeat_feature = (
+                res[i].repeat(word2phone[i], 1) * (1 - style_weight)
+                + style_res_mean.repeat(word2phone[i], 1) * style_weight
+            )
+        else:
+            repeat_feature = res[i].repeat(word2phone[i], 1)
         phone_level_feature.append(repeat_feature)
     phone_level_feature = torch.cat(phone_level_feature, dim=0)

text/cleaner.py CHANGED Viewed

@@ -1,7 +1,7 @@
-from text import chinese, japanese, cleaned_text_to_sequence
-language_module_map = {"ZH": chinese, "JP": japanese}
 def clean_text(text, language):

+from text import chinese, japanese, english, cleaned_text_to_sequence
+language_module_map = {"ZH": chinese, "JP": japanese, "EN": english}
 def clean_text(text, language):

text/english.py CHANGED Viewed

@@ -5,6 +5,7 @@ from g2p_en import G2p
 from transformers import DebertaV2Tokenizer
 from text import symbols
 current_file_path = os.path.dirname(__file__)
 CMU_DICT_PATH = os.path.join(current_file_path, "cmudict.rep")
@@ -217,6 +218,8 @@ def refine_ph(phn):
     if re.search(r"\d$", phn):
         tone = int(phn[-1]) + 1
         phn = phn[:-1]
     return phn.lower(), tone
@@ -389,45 +392,84 @@ def sep_text(text):
     return words
 def g2p(text):
     phones = []
     tones = []
-    # word2ph = []
-    words = sep_text(text)
-    tokens = [tokenizer.tokenize(i) for i in words]
     for word in words:
-        if word.upper() in eng_dict:
-            phns, tns = refine_syllables(eng_dict[word.upper()])
-            phones.append([post_replace_ph(i) for i in phns])
-            tones.append(tns)
-            # word2ph.append(len(phns))
-        else:
-            phone_list = list(filter(lambda p: p != " ", _g2p(word)))
-            phns = []
-            tns = []
-            for ph in phone_list:
-                if ph in arpa:
-                    ph, tn = refine_ph(ph)
-                    phns.append(ph)
-                    tns.append(tn)
-                else:
-                    phns.append(ph)
-                    tns.append(0)
-            phones.append([post_replace_ph(i) for i in phns])
-            tones.append(tns)
-            # word2ph.append(len(phns))
-    # phones = [post_replace_ph(i) for i in phones]
     word2ph = []
-    for token, phoneme in zip(tokens, phones):
-        phone_len = len(phoneme)
         word_len = len(token)
-        aaa = distribute_phone(phone_len, word_len)
         word2ph += aaa
-    phones = ["_"] + [j for i in phones for j in i] + ["_"]
-    tones = [0] + [j for i in tones for j in i] + [0]
     word2ph = [1] + word2ph + [1]
     assert len(phones) == len(tones), text
     assert len(phones) == sum(word2ph), text

 from transformers import DebertaV2Tokenizer
 from text import symbols
+from text.symbols import punctuation
 current_file_path = os.path.dirname(__file__)
 CMU_DICT_PATH = os.path.join(current_file_path, "cmudict.rep")
     if re.search(r"\d$", phn):
         tone = int(phn[-1]) + 1
         phn = phn[:-1]
+    else:
+        tone = 3
     return phn.lower(), tone
     return words
+def text_to_words(text):
+    tokens = tokenizer.tokenize(text)
+    words = []
+    for idx, t in enumerate(tokens):
+        if t.startswith("▁"):
+            words.append([t[1:]])
+        else:
+            if t in punctuation:
+                if idx == len(tokens) - 1:
+                    words.append([f"{t}"])
+                else:
+                    if (
+                        not tokens[idx + 1].startswith("▁")
+                        and tokens[idx + 1] not in punctuation
+                    ):
+                        if idx == 0:
+                            words.append([])
+                        words[-1].append(f"{t}")
+                    else:
+                        words.append([f"{t}"])
+            else:
+                if idx == 0:
+                    words.append([])
+                words[-1].append(f"{t}")
+    return words
 def g2p(text):
     phones = []
     tones = []
+    phone_len = []
+    # words = sep_text(text)
+    # tokens = [tokenizer.tokenize(i) for i in words]
+    words = text_to_words(text)
     for word in words:
+        temp_phones, temp_tones = [], []
+        if len(word) > 1:
+            if "'" in word:
+                word = ["".join(word)]
+        for w in word:
+            if w in punctuation:
+                temp_phones.append(w)
+                temp_tones.append(0)
+                continue
+            if w.upper() in eng_dict:
+                phns, tns = refine_syllables(eng_dict[w.upper()])
+                temp_phones += [post_replace_ph(i) for i in phns]
+                temp_tones += tns
+                # w2ph.append(len(phns))
+            else:
+                phone_list = list(filter(lambda p: p != " ", _g2p(w)))
+                phns = []
+                tns = []
+                for ph in phone_list:
+                    if ph in arpa:
+                        ph, tn = refine_ph(ph)
+                        phns.append(ph)
+                        tns.append(tn)
+                    else:
+                        phns.append(ph)
+                        tns.append(0)
+                temp_phones += [post_replace_ph(i) for i in phns]
+                temp_tones += tns
+        phones += temp_phones
+        tones += temp_tones
+        phone_len.append(len(temp_phones))
+        # phones = [post_replace_ph(i) for i in phones]
     word2ph = []
+    for token, pl in zip(words, phone_len):
         word_len = len(token)
+        aaa = distribute_phone(pl, word_len)
         word2ph += aaa
+    phones = ["_"] + phones + ["_"]
+    tones = [0] + tones + [0]
     word2ph = [1] + word2ph + [1]
     assert len(phones) == len(tones), text
     assert len(phones) == sum(word2ph), text

text/english_bert_mock.py CHANGED Viewed

@@ -13,7 +13,13 @@ tokenizer = DebertaV2Tokenizer.from_pretrained(LOCAL_PATH)
 models = dict()
-def get_bert_feature(text, word2ph, device=config.bert_gen_config.device):
     if (
         sys.platform == "darwin"
         and torch.backends.mps.is_available()
@@ -30,11 +36,24 @@ def get_bert_feature(text, word2ph, device=config.bert_gen_config.device):
             inputs[i] = inputs[i].to(device)
         res = models[device](**inputs, output_hidden_states=True)
         res = torch.cat(res["hidden_states"][-3:-2], -1)[0].cpu()
     assert len(word2ph) == res.shape[0], (text, res.shape[0], len(word2ph))
     word2phone = word2ph
     phone_level_feature = []
     for i in range(len(word2phone)):
-        repeat_feature = res[i].repeat(word2phone[i], 1)
         phone_level_feature.append(repeat_feature)
     phone_level_feature = torch.cat(phone_level_feature, dim=0)

 models = dict()
+def get_bert_feature(
+    text,
+    word2ph,
+    device=config.bert_gen_config.device,
+    style_text=None,
+    style_weight=0.7,
+):
     if (
         sys.platform == "darwin"
         and torch.backends.mps.is_available()
             inputs[i] = inputs[i].to(device)
         res = models[device](**inputs, output_hidden_states=True)
         res = torch.cat(res["hidden_states"][-3:-2], -1)[0].cpu()
+        if style_text:
+            style_inputs = tokenizer(style_text, return_tensors="pt")
+            for i in style_inputs:
+                style_inputs[i] = style_inputs[i].to(device)
+            style_res = models[device](**style_inputs, output_hidden_states=True)
+            style_res = torch.cat(style_res["hidden_states"][-3:-2], -1)[0].cpu()
+            style_res_mean = style_res.mean(0)
     assert len(word2ph) == res.shape[0], (text, res.shape[0], len(word2ph))
     word2phone = word2ph
     phone_level_feature = []
     for i in range(len(word2phone)):
+        if style_text:
+            repeat_feature = (
+                res[i].repeat(word2phone[i], 1) * (1 - style_weight)
+                + style_res_mean.repeat(word2phone[i], 1) * style_weight
+            )
+        else:
+            repeat_feature = res[i].repeat(word2phone[i], 1)
         phone_level_feature.append(repeat_feature)
     phone_level_feature = torch.cat(phone_level_feature, dim=0)

text/japanese.py CHANGED Viewed

@@ -13,6 +13,341 @@ import pyopenjtalk
 import jaconv
 def kata2phoneme(text: str) -> str:
     """Convert katakana text to phonemes."""
     text = text.strip()
@@ -32,16 +367,12 @@ def kata2phoneme(text: str) -> str:
                 res.append(prev[-1])
             text = text[1:]
             continue
-        res += pyopenjtalk.g2p(text).lower().replace("cl", "q").split(" ")
         break
     # res = _COLON_RX.sub(":", res)
     return res
-def hira2kata(text: str) -> str:
-    return jaconv.hira2kata(text)
 _SYMBOL_TOKENS = set(list("・、。？！"))
 _NO_YOMI_TOKENS = set(list("「」『』―（）［］[]"))
 _MARKS = re.compile(
@@ -49,41 +380,8 @@ _MARKS = re.compile(
 )
-def text2kata(text: str) -> str:
     parsed = pyopenjtalk.run_frontend(text)
-    res = []
-    for parts in parsed:
-        word, yomi = replace_punctuation(parts["string"]), parts["pron"].replace(
-            "’", ""
-        )
-        if yomi:
-            if re.match(_MARKS, yomi):
-                if len(word) > 1:
-                    word = [replace_punctuation(i) for i in list(word)]
-                    yomi = word
-                    res += yomi
-                    sep += word
-                    continue
-                elif word not in rep_map.keys() and word not in rep_map.values():
-                    word = ","
-                yomi = word
-            res.append(yomi)
-        else:
-            if word in _SYMBOL_TOKENS:
-                res.append(word)
-            elif word in ("っ", "ッ"):
-                res.append("ッ")
-            elif word in _NO_YOMI_TOKENS:
-                pass
-            else:
-                res.append(word)
-    return hira2kata("".join(res))
-def text2sep_kata(text: str) -> (list, list):
-    parsed = pyopenjtalk.run_frontend(text)
     res = []
     sep = []
     for parts in parsed:
@@ -112,7 +410,7 @@ def text2sep_kata(text: str) -> (list, list):
             else:
                 res.append(word)
         sep.append(word)
-    return sep, [hira2kata(i) for i in res], get_accent(parsed)
 def get_accent(parsed):
@@ -225,16 +523,6 @@ def japanese_convert_alpha_symbols_to_words(text: str) -> str:
     return "".join([_ALPHASYMBOL_YOMI.get(ch, ch) for ch in text.lower()])
-def japanese_text_to_phonemes(text: str) -> str:
-    """Convert Japanese text to phonemes."""
-    res = unicodedata.normalize("NFKC", text)
-    res = japanese_convert_numbers_to_words(res)
-    # res = japanese_convert_alpha_symbols_to_words(res)
-    res = text2kata(res)
-    res = kata2phoneme(res)
-    return res
 def is_japanese_character(char):
     # 定义日语文字系统的 Unicode 范围
     japanese_ranges = [

 import jaconv
+# Mapping of hiragana to phonetic representation
+hiragana_map = {
+    "う゛ぁ": " v a",
+    "う゛ぃ": " v i",
+    "う゛ぇ": " v e",
+    "う゛ぉ": " v o",
+    "う゛ゅ": " by u",
+    "ぅ゛": " v u",
+    # ゔ等の処理を追加
+    "ゔぁ": " v a",
+    "ゔぃ": " v i",
+    "ゔぇ": " v e",
+    "ゔぉ": " v o",
+    "ゔゅ": " by u",
+    # 2文字からなる変換規則
+    "あぁ": " a a",
+    "いぃ": " i i",
+    "いぇ": " i e",
+    "いゃ": " y a",
+    "うぅ": " u:",
+    "えぇ": " e e",
+    "おぉ": " o:",
+    "かぁ": " k a:",
+    "きぃ": " k i:",
+    "くぅ": " k u:",
+    "くゃ": " ky a",
+    "くゅ": " ky u",
+    "くょ": " ky o",
+    "けぇ": " k e:",
+    "こぉ": " k o:",
+    "がぁ": " g a:",
+    "ぎぃ": " g i:",
+    "ぐぅ": " g u:",
+    "ぐゃ": " gy a",
+    "ぐゅ": " gy u",
+    "ぐょ": " gy o",
+    "げぇ": " g e:",
+    "ごぉ": " g o:",
+    "さぁ": " s a:",
+    "しぃ": " sh i",
+    "すぅ": " s u:",
+    "すゃ": " sh a",
+    "すゅ": " sh u",
+    "すょ": " sh o",
+    "せぇ": " s e:",
+    "そぉ": " s o:",
+    "ざぁ": " z a:",
+    "じぃ": " j i:",
+    "ずぅ": " z u:",
+    "ずゃ": " zy a",
+    "ずゅ": " zy u",
+    "ずょ": " zy o",
+    "ぜぇ": " z e:",
+    "ぞぉ": " z o:",
+    "たぁ": " t a:",
+    "ちぃ": " ch i",
+    "つぁ": " ts a",
+    "つぃ": " ts i",
+    "つぅ": " ts u",
+    "つゃ": " ch a",
+    "つゅ": " ch u",
+    "つょ": " ch o",
+    "つぇ": " ts e",
+    "つぉ": " ts o",
+    "てぇ": " t e:",
+    "とぉ": " t o:",
+    "だぁ": " d a:",
+    "ぢぃ": " j i:",
+    "づぅ": " d u:",
+    "づゃ": " zy a",
+    "づゅ": " zy u",
+    "づょ": " zy o",
+    "でぇ": " d e:",
+    "なぁ": " n a:",
+    "にぃ": " n i:",
+    "ぬぅ": " n u:",
+    "ぬゃ": " ny a",
+    "ぬゅ": " ny u",
+    "ぬょ": " ny o",
+    "ねぇ": " n e:",
+    "のぉ": " n o:",
+    "はぁ": " h a:",
+    "ひぃ": " h i:",
+    "ふぅ": " f u:",
+    "ふゃ": " hy a",
+    "へぇ": " h e:",
+    "ほぉ": " h o:",
+    "ばぁ": " b a:",
+    "びぃ": " b i:",
+    "ぶぅ": " b u:",
+    "ぶゅ": " by u",
+    "べぇ": " b e:",
+    "ぼぉ": " b o:",
+    "ぱぁ": " p a:",
+    "ぴぃ": " p i:",
+    "ぷぅ": " p u:",
+    "ぷゃ": " py a",
+    "ぷゅ": " py u",
+    "ぷょ": " py o",
+    "ぺぇ": " p e:",
+    "ぽぉ": " p o:",
+    "まぁ": " m a:",
+    "みぃ": " m i:",
+    "むぅ": " m u:",
+    "むゃ": " my a",
+    "むゅ": " my u",
+    "むょ": " my o",
+    "めぇ": " m e:",
+    "もぉ": " m o:",
+    "やぁ": " y a:",
+    "ゆぅ": " y u:",
+    "ゆゃ": " y a:",
+    "ゆゅ": " y u:",
+    "ゆょ": " y o:",
+    "よぉ": " y o:",
+    "らぁ": " r a:",
+    "りぃ": " r i:",
+    "るぅ": " r u:",
+    "るゃ": " ry a",
+    "るゅ": " ry u",
+    "るょ": " ry o",
+    "れぇ": " r e:",
+    "ろぉ": " r o:",
+    "わぁ": " w a:",
+    "をぉ": " o:",
+    "う゛": " b u",
+    "でぃ": " d i",
+    "でゃ": " dy a",
+    "でゅ": " dy u",
+    "でょ": " dy o",
+    "てぃ": " t i",
+    "てゃ": " ty a",
+    "てゅ": " ty u",
+    "てょ": " ty o",
+    "すぃ": " s i",
+    "ずぁ": " z u",
+    "ずぃ": " z i",
+    "ずぇ": " z e",
+    "ずぉ": " z o",
+    "きゃ": " ky a",
+    "きゅ": " ky u",
+    "きょ": " ky o",
+    "しゃ": " sh a",
+    "しゅ": " sh u",
+    "しぇ": " sh e",
+    "しょ": " sh o",
+    "ちゃ": " ch a",
+    "ちゅ": " ch u",
+    "ちぇ": " ch e",
+    "ちょ": " ch o",
+    "とぅ": " t u",
+    "とゃ": " ty a",
+    "とゅ": " ty u",
+    "とょ": " ty o",
+    "どぁ": " d o ",
+    "どぅ": " d u",
+    "どゃ": " dy a",
+    "どゅ": " dy u",
+    "どょ": " dy o",
+    "どぉ": " d o:",
+    "にゃ": " ny a",
+    "にゅ": " ny u",
+    "にょ": " ny o",
+    "ひゃ": " hy a",
+    "ひゅ": " hy u",
+    "ひょ": " hy o",
+    "みゃ": " my a",
+    "みゅ": " my u",
+    "みょ": " my o",
+    "りゃ": " ry a",
+    "りゅ": " ry u",
+    "りょ": " ry o",
+    "ぎゃ": " gy a",
+    "ぎゅ": " gy u",
+    "ぎょ": " gy o",
+    "ぢぇ": " j e",
+    "ぢゃ": " j a",
+    "ぢゅ": " j u",
+    "ぢょ": " j o",
+    "じぇ": " j e",
+    "じゃ": " j a",
+    "じゅ": " j u",
+    "じょ": " j o",
+    "びゃ": " by a",
+    "びゅ": " by u",
+    "びょ": " by o",
+    "ぴゃ": " py a",
+    "ぴゅ": " py u",
+    "ぴょ": " py o",
+    "うぁ": " u a",
+    "うぃ": " w i",
+    "うぇ": " w e",
+    "うぉ": " w o",
+    "ふぁ": " f a",
+    "ふぃ": " f i",
+    "ふゅ": " hy u",
+    "ふょ": " hy o",
+    "ふぇ": " f e",
+    "ふぉ": " f o",
+    # 1音からなる変換規則
+    "あ": " a",
+    "い": " i",
+    "う": " u",
+    "ゔ": " v u",  # ゔの処理を追加
+    "え": " e",
+    "お": " o",
+    "か": " k a",
+    "き": " k i",
+    "く": " k u",
+    "け": " k e",
+    "こ": " k o",
+    "さ": " s a",
+    "し": " sh i",
+    "す": " s u",
+    "せ": " s e",
+    "そ": " s o",
+    "た": " t a",
+    "ち": " ch i",
+    "つ": " ts u",
+    "て": " t e",
+    "と": " t o",
+    "な": " n a",
+    "に": " n i",
+    "ぬ": " n u",
+    "ね": " n e",
+    "の": " n o",
+    "は": " h a",
+    "ひ": " h i",
+    "ふ": " f u",
+    "へ": " h e",
+    "ほ": " h o",
+    "ま": " m a",
+    "み": " m i",
+    "む": " m u",
+    "め": " m e",
+    "も": " m o",
+    "ら": " r a",
+    "り": " r i",
+    "る": " r u",
+    "れ": " r e",
+    "ろ": " r o",
+    "が": " g a",
+    "ぎ": " g i",
+    "ぐ": " g u",
+    "げ": " g e",
+    "ご": " g o",
+    "ざ": " z a",
+    "じ": " j i",
+    "ず": " z u",
+    "ぜ": " z e",
+    "ぞ": " z o",
+    "だ": " d a",
+    "ぢ": " j i",
+    "づ": " z u",
+    "で": " d e",
+    "ど": " d o",
+    "ば": " b a",
+    "び": " b i",
+    "ぶ": " b u",
+    "べ": " b e",
+    "ぼ": " b o",
+    "ぱ": " p a",
+    "ぴ": " p i",
+    "ぷ": " p u",
+    "ぺ": " p e",
+    "ぽ": " p o",
+    "や": " y a",
+    "ゆ": " y u",
+    "よ": " y o",
+    "わ": " w a",
+    "ゐ": " i",
+    "ゑ": " e",
+    "ん": " N",
+    "っ": " q",
+    # ここまでに処理されてない ぁぃぅぇぉ はそのまま大文字扱い
+    "ぁ": " a",
+    "ぃ": " i",
+    "ぅ": " u",
+    "ぇ": " e",
+    "ぉ": " o",
+    "ゎ": " w a",
+    # 長音の処理
+    # for (pattern, replace_str) in JULIUS_LONG_VOWEL:
+    #     text = pattern.sub(replace_str, text)
+    # text = text.replace("o u", "o:")  # おう -> おーの音便
+    "ー": ":",
+    "〜": ":",
+    "−": ":",
+    "-": ":",
+    # その他特別な処理
+    "を": " o",
+    # ここまでに処理されていないゅ等もそのまま大文字扱い（追加）
+    "ゃ": " y a",
+    "ゅ": " y u",
+    "ょ": " y o",
+}
+def hiragana2p(txt: str) -> str:
+    """
+    Modification of `jaconv.hiragana2julius`.
+    - avoid using `:`, instead, `あーーー` -> `a a a a`.
+    - avoid converting `o u` to `o o` (because the input is already actual `yomi`).
+    - avoid using `N` for `ん` (for compatibility)
+    - use `v` for `ゔ` related text.
+    - add bare `ゃ` `ゅ` `ょ` to `y a` `y u` `y o` (for compatibility).
+    """
+    result = []
+    skip = 0
+    for i in range(len(txt)):
+        if skip:
+            skip -= 1
+            continue
+        for length in range(3, 0, -1):
+            if txt[i : i + length] in hiragana_map:
+                result.append(hiragana_map[txt[i : i + length]])
+                skip = length - 1
+                break
+    txt = "".join(result)
+    txt = txt.strip()
+    txt = txt.replace(":+", ":")
+    # ここまで`jaconv.hiragana2julius`と音便処理と長音処理をのぞいて同じ
+    # ここから`k a:: k i:`→`k a a a k i i`のように`:`の数だけ繰り返す処理
+    pattern = r"(\w)(:*)"
+    replacement = lambda m: m.group(1) + (" " + m.group(1)) * len(m.group(2))
+    txt = re.sub(pattern, replacement, txt)
+    txt = txt.replace("N", "n")  # 促音のNをnに変換
+    return txt
 def kata2phoneme(text: str) -> str:
     """Convert katakana text to phonemes."""
     text = text.strip()
                 res.append(prev[-1])
             text = text[1:]
             continue
+        res += hiragana2p(jaconv.kata2hira(text)).split(" ")
         break
     # res = _COLON_RX.sub(":", res)
     return res
 _SYMBOL_TOKENS = set(list("・、。？！"))
 _NO_YOMI_TOKENS = set(list("「」『』―（）［］[]"))
 _MARKS = re.compile(
 )
+def text2sep_kata(text: str):
     parsed = pyopenjtalk.run_frontend(text)
     res = []
     sep = []
     for parts in parsed:
             else:
                 res.append(word)
         sep.append(word)
+    return sep, res, get_accent(parsed)
 def get_accent(parsed):
     return "".join([_ALPHASYMBOL_YOMI.get(ch, ch) for ch in text.lower()])
 def is_japanese_character(char):
     # 定义日语文字系统的 Unicode 范围
     japanese_ranges = [

text/japanese_bert.py CHANGED Viewed

@@ -13,8 +13,16 @@ tokenizer = AutoTokenizer.from_pretrained(LOCAL_PATH)
 models = dict()
-def get_bert_feature(text, word2ph, device=config.bert_gen_config.device):
     text = "".join(text2sep_kata(text)[0])
     if (
         sys.platform == "darwin"
         and torch.backends.mps.is_available()
@@ -31,12 +39,25 @@ def get_bert_feature(text, word2ph, device=config.bert_gen_config.device):
             inputs[i] = inputs[i].to(device)
         res = models[device](**inputs, output_hidden_states=True)
         res = torch.cat(res["hidden_states"][-3:-2], -1)[0].cpu()
     assert len(word2ph) == len(text) + 2
     word2phone = word2ph
     phone_level_feature = []
     for i in range(len(word2phone)):
-        repeat_feature = res[i].repeat(word2phone[i], 1)
         phone_level_feature.append(repeat_feature)
     phone_level_feature = torch.cat(phone_level_feature, dim=0)

 models = dict()
+def get_bert_feature(
+    text,
+    word2ph,
+    device=config.bert_gen_config.device,
+    style_text=None,
+    style_weight=0.7,
+):
     text = "".join(text2sep_kata(text)[0])
+    if style_text:
+        style_text = "".join(text2sep_kata(style_text)[0])
     if (
         sys.platform == "darwin"
         and torch.backends.mps.is_available()
             inputs[i] = inputs[i].to(device)
         res = models[device](**inputs, output_hidden_states=True)
         res = torch.cat(res["hidden_states"][-3:-2], -1)[0].cpu()
+        if style_text:
+            style_inputs = tokenizer(style_text, return_tensors="pt")
+            for i in style_inputs:
+                style_inputs[i] = style_inputs[i].to(device)
+            style_res = models[device](**style_inputs, output_hidden_states=True)
+            style_res = torch.cat(style_res["hidden_states"][-3:-2], -1)[0].cpu()
+            style_res_mean = style_res.mean(0)
     assert len(word2ph) == len(text) + 2
     word2phone = word2ph
     phone_level_feature = []
     for i in range(len(word2phone)):
+        if style_text:
+            repeat_feature = (
+                res[i].repeat(word2phone[i], 1) * (1 - style_weight)
+                + style_res_mean.repeat(word2phone[i], 1) * style_weight
+            )
+        else:
+            repeat_feature = res[i].repeat(word2phone[i], 1)
         phone_level_feature.append(repeat_feature)
     phone_level_feature = torch.cat(phone_level_feature, dim=0)

text/tone_sandhi.py CHANGED Viewed

@@ -634,9 +634,11 @@ class ToneSandhi:
     # input seg: [('听', 'v'), ('一', 'm'), ('听', 'v')]
     # output seg: [['听一听', 'v']]
     def _merge_yi(self, seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
-        new_seg = []
         # function 1
-        for i, (word, pos) in enumerate(seg):
             if (
                 i - 1 >= 0
                 and word == "一"
@@ -645,6 +647,7 @@ class ToneSandhi:
                 and seg[i - 1][1] == "v"
             ):
                 new_seg[i - 1][0] = new_seg[i - 1][0] + "一" + new_seg[i - 1][0]
             else:
                 if (
                     i - 2 >= 0
@@ -655,7 +658,8 @@ class ToneSandhi:
                     continue
                 else:
                     new_seg.append([word, pos])
-        seg = new_seg
         new_seg = []
         # function 2
         for i, (word, pos) in enumerate(seg):

     # input seg: [('听', 'v'), ('一', 'm'), ('听', 'v')]
     # output seg: [['听一听', 'v']]
     def _merge_yi(self, seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
+        new_seg = [] * len(seg)
         # function 1
+        i = 0
+        while i < len(seg):
+            word, pos = seg[i]
             if (
                 i - 1 >= 0
                 and word == "一"
                 and seg[i - 1][1] == "v"
             ):
                 new_seg[i - 1][0] = new_seg[i - 1][0] + "一" + new_seg[i - 1][0]
+                i += 2
             else:
                 if (
                     i - 2 >= 0
                     continue
                 else:
                     new_seg.append([word, pos])
+                i += 1
+        seg = [i for i in new_seg if len(i) > 0]
         new_seg = []
         # function 2
         for i, (word, pos) in enumerate(seg):

tools/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (193 Bytes). View file

tools/__pycache__/classify_language.cpython-311.pyc ADDED Viewed

Binary file (4.74 kB). View file

tools/__pycache__/sentence.cpython-311.pyc ADDED Viewed

Binary file (19.3 kB). View file

tools/__pycache__/translate.cpython-311.pyc ADDED Viewed

Binary file (2.68 kB). View file

tools/sentence.py CHANGED Viewed

@@ -1,173 +1,271 @@
-import logging
-import regex as re
-from tools.classify_language import classify_language, split_alpha_nonalpha
-def check_is_none(item) -> bool:
-    """none -> True, not none -> False"""
-    return (
-        item is None
-        or (isinstance(item, str) and str(item).isspace())
-        or str(item) == ""
-    )
-def markup_language(text: str, target_languages: list = None) -> str:
-    pattern = (
-        r"[\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\>\=\?\@\[\]\{\}\\\\\^\_\`"
-        r"\！？。＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」"
-        r"『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘\'\‛\“\”\„\‟…‧﹏.]+"
-    )
-    sentences = re.split(pattern, text)
-    pre_lang = ""
-    p = 0
-    if target_languages is not None:
-        sorted_target_languages = sorted(target_languages)
-        if sorted_target_languages in [["en", "zh"], ["en", "ja"], ["en", "ja", "zh"]]:
-            new_sentences = []
-            for sentence in sentences:
-                new_sentences.extend(split_alpha_nonalpha(sentence))
-            sentences = new_sentences
     for sentence in sentences:
-        if check_is_none(sentence):
-            continue
-        lang = classify_language(sentence, target_languages)
-        if pre_lang == "":
-            text = text[:p] + text[p:].replace(
-                sentence, f"[{lang.upper()}]{sentence}", 1
-            )
-            p += len(f"[{lang.upper()}]")
-        elif pre_lang != lang:
-            text = text[:p] + text[p:].replace(
-                sentence, f"[{pre_lang.upper()}][{lang.upper()}]{sentence}", 1
-            )
-            p += len(f"[{pre_lang.upper()}][{lang.upper()}]")
-        pre_lang = lang
-        p += text[p:].index(sentence) + len(sentence)
-    text += f"[{pre_lang.upper()}]"
-    return text
-def split_by_language(text: str, target_languages: list = None) -> list:
-    pattern = (
-        r"[\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\>\=\?\@\[\]\{\}\\\\\^\_\`"
-        r"\！？\。＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」"
-        r"『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘\'\‛\“\”\„\‟…‧﹏.]+"
-    )
-    sentences = re.split(pattern, text)
-    pre_lang = ""
-    start = 0
-    end = 0
-    sentences_list = []
-    if target_languages is not None:
-        sorted_target_languages = sorted(target_languages)
-        if sorted_target_languages in [["en", "zh"], ["en", "ja"], ["en", "ja", "zh"]]:
-            new_sentences = []
-            for sentence in sentences:
-                new_sentences.extend(split_alpha_nonalpha(sentence))
-            sentences = new_sentences
-    for sentence in sentences:
-        if check_is_none(sentence):
-            continue
-        lang = classify_language(sentence, target_languages)
-        end += text[end:].index(sentence)
-        if pre_lang != "" and pre_lang != lang:
-            sentences_list.append((text[start:end], pre_lang))
-            start = end
-        end += len(sentence)
-        pre_lang = lang
-    sentences_list.append((text[start:], pre_lang))
-    return sentences_list
-def sentence_split(text: str, max: int) -> list:
-    pattern = r"[!(),—+\-.:;?？。，、；：]+"
-    sentences = re.split(pattern, text)
-    discarded_chars = re.findall(pattern, text)
-    sentences_list, count, p = [], 0, 0
-    # 按被分割的符号遍历
-    for i, discarded_chars in enumerate(discarded_chars):
-        count += len(sentences[i]) + len(discarded_chars)
-        if count >= max:
-            sentences_list.append(text[p : p + count].strip())
-            p += count
-            count = 0
-    # 加入最后剩余的文本
-    if p < len(text):
-        sentences_list.append(text[p:])
-    return sentences_list
-def sentence_split_and_markup(text, max=50, lang="auto", speaker_lang=None):
-    # 如果该speaker只支持一种语言
-    if speaker_lang is not None and len(speaker_lang) == 1:
-        if lang.upper() not in ["AUTO", "MIX"] and lang.lower() != speaker_lang[0]:
-            logging.debug(
-                f'lang "{lang}" is not in speaker_lang {speaker_lang},automatically set lang={speaker_lang[0]}'
-            )
-        lang = speaker_lang[0]
-    sentences_list = []
-    if lang.upper() != "MIX":
-        if max <= 0:
-            sentences_list.append(
-                markup_language(text, speaker_lang)
-                if lang.upper() == "AUTO"
-                else f"[{lang.upper()}]{text}[{lang.upper()}]"
-            )
         else:
-            for i in sentence_split(text, max):
-                if check_is_none(i):
-                    continue
-                sentences_list.append(
-                    markup_language(i, speaker_lang)
-                    if lang.upper() == "AUTO"
-                    else f"[{lang.upper()}]{i}[{lang.upper()}]"
-                )
-    else:
-        sentences_list.append(text)
-    for i in sentences_list:
-        logging.debug(i)
-    return sentences_list
 if __name__ == "__main__":
-    text = "这几天心里颇不宁静。今晚在院子里坐着乘凉，忽然想起日日走过的荷塘，在这满月的光里，总该另有一番样子吧。月亮渐渐地升高了，墙外马路上孩子们的欢笑，已经听不见了；妻在屋里拍着闰儿，迷迷糊糊地哼着眠歌。我悄悄地披了大衫，带上门出去。"
-    print(markup_language(text, target_languages=None))
-    print(sentence_split(text, max=50))
-    print(sentence_split_and_markup(text, max=50, lang="auto", speaker_lang=None))
-    text = "你好，这是一段用来测试自动标注的文本。こんにちは,これは自動ラベリングのテスト用テキストです.Hello, this is a piece of text to test autotagging.你好！今天我们要介绍VITS项目，其重点是使用了GAN Duration predictor和transformer flow,并且接入了Bert模型来提升韵律。Bert embedding会在稍后介绍。"
-    print(split_by_language(text, ["zh", "ja", "en"]))
-    text = "vits和Bert-VITS2是tts模型。花费3days.花费3天。Take 3 days"
-    print(split_by_language(text, ["zh", "ja", "en"]))
-    # output: [('vits', 'en'), ('和', 'ja'), ('Bert-VITS', 'en'), ('2是', 'zh'), ('tts', 'en'), ('模型。花费3', 'zh'), ('days.', 'en'), ('花费3天。', 'zh'), ('Take 3 days', 'en')]
-    print(split_by_language(text, ["zh", "en"]))
-    # output: [('vits', 'en'), ('和', 'zh'), ('Bert-VITS', 'en'), ('2是', 'zh'), ('tts', 'en'), ('模型。花费3', 'zh'), ('days.', 'en'), ('花费3天。', 'zh'), ('Take 3 days', 'en')]
-    text = "vits 和 Bert-VITS2 是 tts 模型。花费 3 days. 花费 3天。Take 3 days"
-    print(split_by_language(text, ["zh", "en"]))
-    # output: [('vits ', 'en'), ('和 ', 'zh'), ('Bert-VITS2 ', 'en'), ('是 ', 'zh'), ('tts ', 'en'), ('模型。花费 ', 'zh'), ('3 days. ', 'en'), ('花费 3天。', 'zh'), ('Take 3 days', 'en')]

+import re, os
+from ebooklib import epub
+import PyPDF2
+from PyPDF2 import PdfReader
+from bs4 import BeautifulSoup
+import jieba
+import romajitable
+def is_japanese(string):
+        for ch in string:
+            if ord(ch) > 0x3040 and ord(ch) < 0x30FF:
+                return True
+        return False
+def is_chinese(string):
+    for ch in string:
+        if '\u4e00' <= ch <= '\u9fff':
+            return True
+    return False
+def is_single_language(sentence):
+    # 检查句子是否为单一语言
+    contains_chinese = re.search(r'[\u4e00-\u9fff]', sentence) is not None
+    contains_japanese = re.search(r'[\u3040-\u30ff\u31f0-\u31ff]', sentence) is not None
+    contains_english = re.search(r'[a-zA-Z]', sentence) is not None
+    language_count = sum([contains_chinese, contains_japanese, contains_english])
+    return language_count == 1
+def merge_scattered_parts(sentences):
+    """合并零散的部分到相邻的句子中，并确保单一语言性"""
+    merged_sentences = []
+    buffer_sentence = ""
     for sentence in sentences:
+        # 检查是否是单一语言或者太短（可能是标点或单个词）
+        if is_single_language(sentence) and len(sentence) > 1:
+            # 如果缓冲区有内容，先将缓冲区的内容添加到列表
+            if buffer_sentence:
+                merged_sentences.append(buffer_sentence)
+                buffer_sentence = ""
+            merged_sentences.append(sentence)
+        else:
+            # 如果是零散的部分，将其添加到缓冲区
+            buffer_sentence += sentence
+    # 确保最后的缓冲区内容被添加
+    if buffer_sentence:
+        merged_sentences.append(buffer_sentence)
+    return merged_sentences
+def is_only_punctuation(s):
+    """检查字符串是否只包含标点符号"""
+    # 此处列出中文、日文、英文常见标点符号
+    punctuation_pattern = re.compile(r'^[\s。*；，：“”（）、！？《》\u3000\.,;:"\'?!()]+$')
+    return punctuation_pattern.match(s) is not None
+def split_mixed_language(sentence):
+    # 分割混合语言句子
+    # 逐字符检查，分割不同语言部分
+    sub_sentences = []
+    current_language = None
+    current_part = ""
+    for char in sentence:
+        if re.match(r'[\u4e00-\u9fff]', char):  # Chinese character
+            if current_language != 'chinese':
+                if current_part:
+                    sub_sentences.append(current_part)
+                current_part = char
+                current_language = 'chinese'
+            else:
+                current_part += char
+        elif re.match(r'[\u3040-\u30ff\u31f0-\u31ff]', char):  # Japanese character
+            if current_language != 'japanese':
+                if current_part:
+                    sub_sentences.append(current_part)
+                current_part = char
+                current_language = 'japanese'
+            else:
+                current_part += char
+        elif re.match(r'[a-zA-Z]', char):  # English character
+            if current_language != 'english':
+                if current_part:
+                    sub_sentences.append(current_part)
+                current_part = char
+                current_language = 'english'
+            else:
+                current_part += char
+        else:
+            current_part += char  # For punctuation and other characters
+    if current_part:
+        sub_sentences.append(current_part)
+    return sub_sentences
+def replace_quotes(text):
+    # 替换中文、日文引号为英文引号
+    text = re.sub(r'[“”‘’『』「」（）()]', '"', text)
+    return text
+def remove_numeric_annotations(text):
+    # 定义用于匹配数字注释的正则表达式
+    # 包括 “”、【】和〔〕包裹的数字
+    pattern = r'“\d+”|【\d+】|〔\d+〕'
+    # 使用正则表达式替换掉这些注释
+    cleaned_text = re.sub(pattern, '', text)
+    return cleaned_text
+def merge_adjacent_japanese(sentences):
+    """合并相邻且都只包含日语的句子"""
+    merged_sentences = []
+    i = 0
+    while i < len(sentences):
+        current_sentence = sentences[i]
+        if i + 1 < len(sentences) and is_japanese(current_sentence) and is_japanese(sentences[i + 1]):
+            # 当前句子和下一句都是日语，合并它们
+            while i + 1 < len(sentences) and is_japanese(sentences[i + 1]):
+                current_sentence += sentences[i + 1]
+                i += 1
+        merged_sentences.append(current_sentence)
+        i += 1
+    return merged_sentences
+def extrac(text):
+    text = replace_quotes(remove_numeric_annotations(text))  # 替换引号
+    text = re.sub("<[^>]*>", "", text)  # 移除 HTML 标签
+    # 使用换行符和标点符号进行初步分割
+    preliminary_sentences = re.split(r'([\n。；！？\.\?!])', text)
+    final_sentences = []
+    preliminary_sentences = re.split(r'([\n。；！？\.\?!])', text)
+    for piece in preliminary_sentences:
+        if is_single_language(piece):
+            final_sentences.append(piece)
         else:
+            sub_sentences = split_mixed_language(piece)
+            final_sentences.extend(sub_sentences)
+    # 处理长句子，使用jieba进行分词
+    split_sentences = []
+    for sentence in final_sentences:
+        split_sentences.extend(split_long_sentences(sentence))
+    # 合并相邻的日语句子
+    merged_japanese_sentences = merge_adjacent_japanese(split_sentences)
+    # 剔除只包含标点符号的元素
+    clean_sentences = [s for s in merged_japanese_sentences if not is_only_punctuation(s)]
+    # 移除空字符串并去除多余引号
+    return [s.replace('"','').strip() for s in clean_sentences if s]
+  # 移除空字符串
+def is_mixed_language(sentence):
+    contains_chinese = re.search(r'[\u4e00-\u9fff]', sentence) is not None
+    contains_japanese = re.search(r'[\u3040-\u30ff\u31f0-\u31ff]', sentence) is not None
+    contains_english = re.search(r'[a-zA-Z]', sentence) is not None
+    languages_count = sum([contains_chinese, contains_japanese, contains_english])
+    return languages_count > 1
+def split_mixed_language(sentence):
+    # 分割混合语言句子
+    sub_sentences = re.split(r'(?<=[。！？\.\?!])(?=")|(?<=")(?=[\u4e00-\u9fff\u3040-\u30ff\u31f0-\u31ff]|[a-zA-Z])', sentence)
+    return [s.strip() for s in sub_sentences if s.strip()]
+def seconds_to_ass_time(seconds):
+    """将秒数转换为ASS时间格式"""
+    hours = int(seconds / 3600)
+    minutes = int((seconds % 3600) / 60)
+    seconds = int(seconds) % 60
+    milliseconds = int((seconds - int(seconds)) * 1000)
+    return "{:01d}:{:02d}:{:02d}.{:02d}".format(hours, minutes, seconds, int(milliseconds / 10))
+def extract_text_from_epub(file_path):
+    book = epub.read_epub(file_path)
+    content = []
+    for item in book.items:
+        if isinstance(item, epub.EpubHtml):
+            soup = BeautifulSoup(item.content, 'html.parser')
+            content.append(soup.get_text())
+    return '\n'.join(content)
+def extract_text_from_pdf(file_path):
+    with open(file_path, 'rb') as file:
+        reader = PdfReader(file)
+        content = [page.extract_text() for page in reader.pages]
+    return '\n'.join(content)
+def remove_annotations(text):
+    # 移除方括号、尖括号和中文方括号中的内容
+    text = re.sub(r'\[.*?\]', '', text)
+    text = re.sub(r'\<.*?\>', '', text)
+    text = re.sub(r'&#8203;``【oaicite:1】``&#8203;', '', text)
+    return text
+def extract_text_from_file(inputFile):
+    file_extension = os.path.splitext(inputFile)[1].lower()
+    if file_extension == ".epub":
+        return extract_text_from_epub(inputFile)
+    elif file_extension == ".pdf":
+        return extract_text_from_pdf(inputFile)
+    elif file_extension == ".txt":
+        with open(inputFile, 'r', encoding='utf-8') as f:
+            return f.read()
+    else:
+        raise ValueError(f"Unsupported file format: {file_extension}")
+def split_by_punctuation(sentence):
+    """按照中文次级标点符号分割句子"""
+    # 常见的中文次级分隔符号：逗号、分号等
+    parts = re.split(r'([，,；;])', sentence)
+    # 将标点符号与前面的词语合并，避免单独标点符号成为一个部分
+    merged_parts = []
+    for part in parts:
+        if part and not part in '，,；;':
+            merged_parts.append(part)
+        elif merged_parts:
+            merged_parts[-1] += part
+    return merged_parts
+def split_long_sentences(sentence, max_length=30):
+    """如果中文句子太长，先按标点分割，必要时使用jieba进行分词并分割"""
+    if len(sentence) > max_length and is_chinese(sentence):
+        # 首先尝试按照次级标点符号分割
+        preliminary_parts = split_by_punctuation(sentence)
+        new_sentences = []
+        for part in preliminary_parts:
+            # 如果部分仍然太长，使用jieba进行分词
+            if len(part) > max_length:
+                words = jieba.lcut(part)
+                current_sentence = ""
+                for word in words:
+                    if len(current_sentence) + len(word) > max_length:
+                        new_sentences.append(current_sentence)
+                        current_sentence = word
+                    else:
+                        current_sentence += word
+                if current_sentence:
+                    new_sentences.append(current_sentence)
+            else:
+                new_sentences.append(part)
+        return new_sentences
+    return [sentence]  # 如果句子不长或不是中文，直接返回
+def extract_and_convert(text):
+    # 使用正则表达式找出所有英文单词
+    english_parts = re.findall(r'\b[A-Za-z]+\b', text)  # \b为单词边界标识
+    # 对每个英文单词进行片假名转换
+    kana_parts = ['\n{}\n'.format(romajitable.to_kana(word).katakana) for word in english_parts]
+    # 替换原文本中的英文部分
+    for eng, kana in zip(english_parts, kana_parts):
+        text = text.replace(eng, kana, 1)  # 限制每次只替换一个实例
+    return text
 if __name__ == "__main__":
+    text = "，如“520”，【23】和〔83〕等。.我亲爱的读者，你也许在某一刻会遇上这样的情形，不禁对那著名哲学句子“那内在的就是那外在的，那外在的就是那内在的”“3”的正确性有了或多或少的怀疑。也许你自己就怀着某种秘密，对之你有着这样一种感觉：因为这秘密在它所具有的喜悦或者痛楚对你来说是太亲切了，以至于你不愿意让他人来和你共享它。也许你的生活使得你和一些人有所接触，对于他们你有着某种预感，隐约感觉到如此的某些事情是可能的，尽管你并不一定能够通过权力或者诱惑来揭示这隐秘。也许你感受到的这些情形并不对你和你的生活发生作用，然而你对这种怀疑却不陌生；它时而在你的思绪中像一种匆匆的形影飘忽而过。这样的一种怀疑来而又去，没有人知道它从哪里来或者它到什么地方去“4”。就我自己而言，我一直对哲学的这一点怀有一种异端的想法，并且因此也尽可能地习惯于自己去深思和考究；我从在这方面与我有同感的作家们那里听取了指导，简言之，我尽了我的努力来弥补那些哲学文本们所遗留下的匮乏。渐渐地，听觉对于我来说倒成了最亲密的感觉功能；因为，正如声音是那相对外在之物而言是无法比较的内在性的揭示，于是耳朵就是用来使这内在性得以被人领会的工具，而听觉就是用来获取这内在性的感觉功能的。每当我在我所见和所听之间发现一个矛盾时，我就觉得我的怀疑得到了强化，而我的观察愿望得到了放大。一个听忏悔的神父与忏悔者之间有窗格子隔开，这神父不看，他只是听。听着听着，他渐渐构想出一个与此相应的外在；这就是说，他不会进入矛盾。相反，在你同时看和听的时候则不同，你看着的是你和言述者之间的一道窗格子。就结果而言，我为在这方面进行观察而做出的努力是非常不同的。有时候我是幸运的，有时候则不，而想要在这些道路上赢得一些战利品，幸运总是一个必须被考虑进去的因素。然而我却从来没有失去继续进行我的调查研究的愿望。如果我真的在什么时候几乎对我的坚定感到了懊悔，那么一种意外幸运也就在这样的时候为我的努力进行了加冕。于是这就是一种意外的幸运，它以一种最奇怪的方式使得我拥有了这些文稿，因而我荣幸地在此向阅读着的关注者们展示这些文稿。在这些文稿中，我得到机会去审视进两个人的生活，这强化了我关于“那外在的不是那内在的”的怀疑。尤其是他们中的一个有着这样的情形。他的外在完全与他的内在相矛盾。而他们中另一个的情形在一定的程度上也是如此，只要他在一种较为无足轻重的外在之下隐藏起了一种更���意义重大的内在，那么他就是处在这样的矛盾中。也许，考虑到顺序，我最好还是先讲述一下，我是怎样获得这些文稿的。现在算来，差不多是在七年前，我在城里的一个旧货商家那里留意到一张文书写字柜“5”，一见之下，它就吸引了我的注意力。它不是出自现代的工艺，很陈旧，但它还是吸引住了我。要解说这一印象的依据，对于我来说是不可能的，但是大多数人在他们的生命中肯定也曾经历过类似的情形。我每天的路径使我经过那旧货商和他的柜桌，在任何一天经过那里时我都从不曾放过时机盯着它看。渐渐地，这个文书写字柜在我心中有了它的故事；看着它，对于我来说成了一种必然，到最后，即使是在我有必要走另一条路的时候，我也毫不犹豫地为它的缘故而绕一段远路。由于我总这样看它，它在我心中也渐渐唤醒一种想要拥有它的愿望。其实我完全能感觉到，这是一种奇怪的愿望，既然我并不需要这家具；对于我来说，买下它就是一种浪费。正如我们所知，愿望有着一种非常诡辩性的说服力。我去了那旧货商家，推说是询问一些别的东西，在我要离开的时候，我漫不经心地就那张文书写字柜问了一个非常低的价钱。我想着，那旧货商人可能会抬价。如果是那个价，那我就占了便宜。不管怎么说，我这样做不是为了钱的缘故，而是为了要在良心上说得过去。但没有成功，那旧货商人有着一种非同寻常的坚定。又是很长一段时间，我每天都去那里，然后以一种钟情着迷的目光看着这文书写字柜。你必须下决心，我寻思着，试想一下，如果它被卖掉了，那就太晚了；哪怕你终于又找到它，你也永远得不到对它的这种印象了。在我走进旧货商家的时候，我的心狂跳着。买下了它，付了钱。这是最后一次了，我想着，你这么浪费；对了，你买下它，这恰恰是一种幸运，因为你这么老是看着它，你就该想着你曾是多么浪费，以这个文书写字柜为起点，你生活中该有一个新的段落开始了。啊，愿望有着一种非常诡辩性的说服力，那些良好的意图总是现成地摆在那里。另外参看阿德勒尔（A.P.Adler）的《对黑格尔的客观逻辑的普及讲演》。“5”［文书写字柜（Secretair）］ 法国式柜子，有着许多小的、有时是隐秘的抽屉用于保存文件，并且有一块垂直翻板可以拴出来并且当写字台用。"
+    #print("原文本:", text)
+    print("处理后的文本:", extrac(text))