Spaces:

RyaoChengfeng
/

vits-moe

Runtime error

App Files Files Community

RyaoChengfeng commited on Jun 4, 2023

Commit

79dd817

1 Parent(s): b5b5597

git lfs

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +3 -1
.gitignore +1 -1
pretrained_models/moe-tts/0/config.json +116 -0
pretrained_models/moe-tts/0/cover.jpg +3 -0
pretrained_models/moe-tts/0/model.pth +3 -0
pretrained_models/moe-tts/1/config.json +35 -0
pretrained_models/moe-tts/1/cover.jpg +3 -0
pretrained_models/moe-tts/1/model.pth +3 -0
pretrained_models/moe-tts/10/config.json +52 -0
pretrained_models/moe-tts/10/cover.jpg +3 -0
pretrained_models/moe-tts/10/model.pth +3 -0
pretrained_models/moe-tts/11/config.json +52 -0
pretrained_models/moe-tts/11/cover.jpg +3 -0
pretrained_models/moe-tts/11/model.pth +3 -0
pretrained_models/moe-tts/12/config.json +35 -0
pretrained_models/moe-tts/12/cover.jpg +3 -0
pretrained_models/moe-tts/12/model.pth +3 -0
pretrained_models/moe-tts/13/config.json +35 -0
pretrained_models/moe-tts/13/cover.jpg +3 -0
pretrained_models/moe-tts/13/model.pth +3 -0
pretrained_models/moe-tts/14/config.json +35 -0
pretrained_models/moe-tts/14/model.pth +3 -0
pretrained_models/moe-tts/15/config.json +0 -0
pretrained_models/moe-tts/15/model.pth +3 -0
pretrained_models/moe-tts/16/config.json +35 -0
pretrained_models/moe-tts/16/model.pth +3 -0
pretrained_models/moe-tts/17/config.json +35 -0
pretrained_models/moe-tts/17/model.pth +3 -0
pretrained_models/moe-tts/18/config.json +142 -0
pretrained_models/moe-tts/18/cover.jpg +3 -0
pretrained_models/moe-tts/18/model.pth +3 -0
pretrained_models/moe-tts/2/config.json +36 -0
pretrained_models/moe-tts/2/cover.jpg +3 -0
pretrained_models/moe-tts/2/model.pth +3 -0
pretrained_models/moe-tts/3/config.json +36 -0
pretrained_models/moe-tts/3/cover.jpg +3 -0
pretrained_models/moe-tts/3/model.pth +3 -0
pretrained_models/moe-tts/4/config.json +36 -0
pretrained_models/moe-tts/4/cover.jpg +3 -0
pretrained_models/moe-tts/4/model.pth +3 -0
pretrained_models/moe-tts/5/config.json +35 -0
pretrained_models/moe-tts/5/cover.jpg +3 -0
pretrained_models/moe-tts/5/model.pth +3 -0
pretrained_models/moe-tts/6/config.json +35 -0
pretrained_models/moe-tts/6/cover.jpg +3 -0
pretrained_models/moe-tts/6/model.pth +3 -0
pretrained_models/moe-tts/7/config.json +55 -0
pretrained_models/moe-tts/7/cover.jpg +3 -0
pretrained_models/moe-tts/7/model.pth +3 -0
pretrained_models/moe-tts/8/config.json +35 -0

.gitattributes CHANGED Viewed

@@ -23,7 +23,7 @@
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
@@ -31,3 +31,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text

 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
+pretrained_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text
+*.jpg filter=lfs diff=lfs merge=lfs -text

.gitignore CHANGED Viewed

@@ -548,4 +548,4 @@ cython_debug/
 #.idea/
 # models
-/pretrained_models/*

 #.idea/
 # models
+#/pretrained_models/*

pretrained_models/moe-tts/0/config.json ADDED Viewed

	@@ -0,0 +1,116 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners": [
+      "japanese_cleaners"
+    ],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 7
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [
+      3,
+      7,
+      11
+    ],
+    "resblock_dilation_sizes": [
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ]
+    ],
+    "upsample_rates": [
+      8,
+      8,
+      2,
+      2
+    ],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [
+      16,
+      16,
+      4,
+      4
+    ],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": [
+    "\u7dbe\u5730\u5be7\u3005",
+    "\u56e0\u5e61\u3081\u3050\u308b",
+    "\u671d\u6b66\u82b3\u4e43",
+    "\u5e38\u9678\u8309\u5b50",
+    "\u30e0\u30e9\u30b5\u30e1",
+    "\u978d\u99ac\u5c0f\u6625",
+    "\u5728\u539f\u4e03\u6d77"
+  ],
+  "symbols": [
+    "_",
+    ",",
+    ".",
+    "!",
+    "?",
+    "-",
+    "A",
+    "E",
+    "I",
+    "N",
+    "O",
+    "Q",
+    "U",
+    "a",
+    "b",
+    "d",
+    "e",
+    "f",
+    "g",
+    "h",
+    "i",
+    "j",
+    "k",
+    "m",
+    "n",
+    "o",
+    "p",
+    "r",
+    "s",
+    "t",
+    "u",
+    "v",
+    "w",
+    "y",
+    "z",
+    "\u0283",
+    "\u02a7",
+    "\u2193",
+    "\u2191",
+    " "
+  ]
+}

pretrained_models/moe-tts/0/cover.jpg ADDED Viewed

Git LFS Details

SHA256: 2d443da7d7eb5c5b054077ece85b68b2b94bf5db2b51001fe32404deea7f0717
Pointer size: 130 Bytes
Size of remote file: 39.9 kB

pretrained_models/moe-tts/0/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17a70ab64709e25401441bc54b01bfe10370f2f7f7916a243c86fa87a6cdb9f5
+size 476620221

pretrained_models/moe-tts/1/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["japanese_cleaners2"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 8
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\u548c\u6cc9\u5983\u611b", "\u5e38\u76e4\u83ef\u4e43", "\u9326\u3042\u3059\u307f", "\u938c\u5009\u8a69\u685c", "\u7adc\u9591\u5929\u68a8", "\u548c\u6cc9\u91cc", "\u65b0\u5ddd\u5e83\u5922", "\u8056\u8389\u3005\u5b50"],
+  "symbols": ["_", ",", ".", "!", "?", "-", "~", "\u2026", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u02a6", "\u2193", "\u2191", " "]
+}

pretrained_models/moe-tts/1/cover.jpg ADDED Viewed

Git LFS Details

SHA256: 0123d1fa78031a85890869891b843b2f079c66fed12cf510cb6025e2e4db04c3
Pointer size: 130 Bytes
Size of remote file: 50.3 kB

pretrained_models/moe-tts/1/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73af1a9812c8edb038bad97b30feddb34a6e3834e1a86181873e02dd916b7f81
+size 158884173

pretrained_models/moe-tts/10/config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "train": {
+    "log_interval": 200,
+    "eval_interval": 1000,
+    "seed": 1234,
+    "epochs": 10000,
+    "learning_rate": 2e-4,
+    "betas": [0.8, 0.99],
+    "eps": 1e-9,
+    "batch_size": 16,
+    "fp16_run": true,
+    "lr_decay": 0.999875,
+    "segment_size": 8192,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0
+  },
+  "data": {
+    "text_cleaners":[],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "n_mel_channels": 80,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 4
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 256,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["一方通行","上条当麻","御坂美琴","白井黒子"],
+  "symbols":[]
+}

pretrained_models/moe-tts/10/cover.jpg ADDED Viewed

Git LFS Details

SHA256: cb5d83e14c8cd74a20185d8b9535f9a1699a15057f7ebce87a32f32f5aad94ba
Pointer size: 131 Bytes
Size of remote file: 104 kB

pretrained_models/moe-tts/10/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d7d3dc42ad38c3479b41c1060c442ba33018069be637e664fefafb4bb4ad764
+size 220972879

pretrained_models/moe-tts/11/config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "train": {
+    "log_interval": 200,
+    "eval_interval": 1000,
+    "seed": 1234,
+    "epochs": 20000,
+    "learning_rate": 2e-4,
+    "betas": [0.8, 0.99],
+    "eps": 1e-9,
+    "batch_size": 16,
+    "fp16_run": true,
+    "lr_decay": 0.999875,
+    "segment_size": 8192,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0
+  },
+  "data": {
+    "text_cleaners":[],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "n_mel_channels": 80,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 1,
+    "cleaned_text": true
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 256,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false
+  },
+  "speakers": ["四季ナツメ"],
+  "symbols":[]
+}

pretrained_models/moe-tts/11/cover.jpg ADDED Viewed

Git LFS Details

SHA256: 5ce5e75924dca82bb7cddbe9715f1254fe7aa0fc068085f72ff893c9324c586e
Pointer size: 130 Bytes
Size of remote file: 30.2 kB

pretrained_models/moe-tts/11/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56d55e4672c5f335ebae30728529e5efb8a9c3975a9b63e6590454ef8769ae70
+size 203264375

pretrained_models/moe-tts/12/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["japanese_cleaners2"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 12
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\u77e2\u6765\u7f8e\u7fbd", "\u5e03\u826f\u6893", "\u30a8\u30ea\u30ca", "\u7a32\u6751\u8389\u97f3", "\u30cb\u30b3\u30e9", "\u8352\u795e\u5c0f\u591c", "\u5927\u623f\u3072\u3088\u91cc", "\u6de1\u8def\u840c\u9999", "\u30a2\u30f3\u30ca", "\u5009\u7aef\u76f4\u592a", "\u67a1\u5f62\u5175\u99ac", "\u6247\u5143\u6a39"],
+  "symbols": ["_", ",", ".", "!", "?", "-", "~", "\u2026", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u02a6", "\u2193", "\u2191", " "]
+}

pretrained_models/moe-tts/12/cover.jpg ADDED Viewed

Git LFS Details

SHA256: a4f93df7045805bcb028b92f464710e10961bae3ce43cddf2c289212673312e2
Pointer size: 130 Bytes
Size of remote file: 41 kB

pretrained_models/moe-tts/12/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf8761f1f7818c961651d2c0d914821f742a9a1df8841aae376c888289ae5609
+size 158888269

pretrained_models/moe-tts/13/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["japanese_cleaners2"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 29
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\u91d1\u8272\u306e\u95c7", "\u30e2\u30e2", "\u30ca\u30ca", "\u7d50\u57ce\u7f8e\u67d1", "\u53e4\u624b\u5ddd\u552f", "\u9ed2\u54b2\u82bd\u4e9c", "\u30cd\u30e1\u30b7\u30b9", "\u6751\u96e8\u9759", "\u30bb\u30ea\u30fc\u30cc", "\u30e9\u30e9", "\u5929\u6761\u9662\u6c99\u59eb", "\u897f\u9023\u5bfa\u6625\u83dc", "\u30eb\u30f3", "\u30e1\u30a4", "\u9727\u5d0e\u606d\u5b50", "\u7c7e\u5ca1\u91cc\u7d17", "\u6ca2\u7530\u672a\u592e", "\u30c6\u30a3\u30a2\u30fc\u30e6", "\u4e5d\u6761\u51db", "\u85e4\u5d0e\u7dbe", "\u7d50\u57ce\u83ef", "\u5fa1\u9580\u6dbc\u5b50", "\u30a2\u30bc\u30f3\u30c0", "\u5915\u5d0e\u68a8\u5b50", "\u7d50\u57ce\u68a8\u6597", "\u30da\u30b1", "\u733f\u5c71\u30b1\u30f3\u30a4\u30c1", "\u30ec\u30f3", "\u6821\u9577"],
+  "symbols": ["_", ",", ".", "!", "?", "-", "~", "\u2026", "#", "@", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u02a6", "\u2193", "\u2191", " "]
+}

pretrained_models/moe-tts/13/cover.jpg ADDED Viewed

Git LFS Details

SHA256: 4135cc056f26e03ba7e505f1be9ce76c6a9595340599f3d24cc929101f84d5f8
Pointer size: 130 Bytes
Size of remote file: 19.8 kB

pretrained_models/moe-tts/13/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e07fd627c9ad01002c889ddda9b8a9b0da9ab942115b50d44227ded7ca87ad4
+size 158907213

pretrained_models/moe-tts/14/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["cjks_cleaners"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 24
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\u7dbe\u5730\u5be7\u3005", "\u671d\u6b66\u82b3\u4e43", "\u5728\u539f\u4e03\u6d77", "\u30eb\u30a4\u30ba", "\u91d1\u8272\u306e\u95c7", "\u30e2\u30e2", "\u7d50\u57ce\u7f8e\u67d1", "\u5c0f\u8338", "\u5510\u4e50\u541f", "\u5c0f\u6bb7", "\u82b1\u73b2", "\u516b\u56db", "\uc218\uc544", "\ubbf8\ubbf8\ub974", "\uc544\ub9b0", "\uc720\ud654", "\uc5f0\ud654", "SA1", "SA2", "SA3", "SA4", "SA5", "SA6"],
+  "symbols": ["_", ",", ".", "!", "?", "-", "~", "\u2026", "N", "Q", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "s", "t", "u", "v", "w", "x", "y", "z", "\u0283", "\u02a7", "\u02a5", "\u02a6", "\u026f", "\u0279", "\u0259", "\u0265", "\u00e7", "\u0278", "\u027e", "\u03b2", "\u014b", "\u0266", "\u02d0", "\u207c", "\u02b0", "`", "^", "#", "*", "=", "\u2192", "\u2193", "\u2191", " "]
+}

pretrained_models/moe-tts/14/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2801051beb8f90bd9785604fad617bf95a8f05df93722ad8993128dd6bf91301
+size 158912845

pretrained_models/moe-tts/15/config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

pretrained_models/moe-tts/15/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f021227e3d2e282ec5756e9704dcb2a28831c3b9ae527d639a2ca9b493e0636
+size 161855565

pretrained_models/moe-tts/16/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["shanghainese_cleaners"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 2
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\u4e0a\u6d77\u8bdd","None"],
+  "symbols": ["_", ",", ".", "!", "?", "\u2026", "a", "b", "d", "f", "g", "h", "i", "k", "l", "m", "n", "o", "p", "s", "t", "u", "v", "y", "z", "\u00f8", "\u014b", "\u0235", "\u0251", "\u0254", "\u0255", "\u0259", "\u0264", "\u0266", "\u026a", "\u027f", "\u0291", "\u0294", "\u02b0", "\u0303", "\u0329", "\u1d00", "\u1d07", "1", "5", "6", "7", "8", " "]
+}

pretrained_models/moe-tts/16/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:750299355c3cd6bec4bca61ac50dbfb4c1e129be9b0806442cee24071bed657b
+size 158882637

pretrained_models/moe-tts/17/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["chinese_dialect_cleaners"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 50
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\u5e03\u826f\u6893", "\u7dbe\u5730\u5be7\u3005", "\u671d\u6b66\u82b3\u4e43", "\u5728\u539f\u4e03\u6d77", "\u30e6\u30fc\u30b9\u30c6\u30a3\u30a2", "\u30b3\u30ec\u30c3\u30c8", "\u30ea\u30b7\u30a2", "\u30ab\u30a4\u30e0", "\u30eb\u30a4\u30ba", "\u3064\u304f\u3088\u307f\u3061\u3083\u3093", "\u83f2\u5442\u83c8", "\u8b1d\u5b50\u81e3", "\u96ea\u898b", "\u590f\u828a\u5e06", "\u7f85\u5c11\u5cf0", "\u8b1d\u5b50\u7487", "\u6960\u5e0c\u59d0", "\u8389\u8389", "\u5c0f\u8338", "\u5510\u4e50\u541f", "\u5c0f\u6bb7", "\u82b1\u73b2", "\u6d77\u8bcd\u4e0a\u6d77\u8bdd", "\u6d77\u8bcd\u5e7f\u4e1c\u8bdd"],
+  "symbols": ["_", ",", ".", "!", "?", "~", "\u2026", "\u2500", "#", "N", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "x", "y", "z", "\u00e6", "\u00e7", "\u00f8", "\u014b", "\u0153", "\u0235", "\u0250", "\u0251", "\u0252", "\u0253", "\u0254", "\u0255", "\u0257", "\u0258", "\u0259", "\u025a", "\u025b", "\u025c", "\u0263", "\u0264", "\u0266", "\u026a", "\u026d", "\u026f", "\u0275", "\u0277", "\u0278", "\u027b", "\u027e", "\u027f", "\u0282", "\u0285", "\u028a", "\u028b", "\u028c", "\u028f", "\u0291", "\u0294", "\u02a6", "\u02ae", "\u02b0", "\u02b7", "\u02c0", "\u02d0", "\u02e5", "\u02e6", "\u02e7", "\u02e8", "\u02e9", "\u0303", "\u031a", "\u0325", "\u0329", "\u1d00", "\u1d07", "\u2191", "\u2193", "\u2205", "\u2c7c", " "]
+}

pretrained_models/moe-tts/17/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bafc0ad64442808ccbdc1c880846d4d7ed30e5db6b9c68982bade0070e135a9
+size 158966349

pretrained_models/moe-tts/18/config.json ADDED Viewed

	@@ -0,0 +1,142 @@

+{
+  "train": {
+    "log_interval": 200,
+    "eval_interval": 1000,
+    "seed": 1234,
+    "epochs": 10000,
+    "learning_rate": 2e-4,
+    "betas": [0.8, 0.99],
+    "eps": 1e-9,
+    "batch_size": 1,
+    "fp16_run": true,
+    "lr_decay": 0.999875,
+    "segment_size": 8192,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0
+  },
+  "data": {
+    "training_files":"E:/uma_voice/output_train.txt.cleaned",
+    "validation_files":"E:/uma_voice/output_val.txt.cleaned",
+    "text_cleaners":["japanese_cleaners"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "n_mel_channels": 80,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 87,
+    "cleaned_text": true
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["Special Week",
+    "Silence Suzuka",
+    "Tokai Teio",
+    "Maruzensky",
+    "Fuji Kiseki",
+    "Oguri Cap",
+    "Gold Ship",
+    "Vodka",
+    "Daiwa Scarlet",
+    "Taiki Shuttle",
+    "Grass Wonder",
+    "Hishi Amazon",
+    "Mejiro Mcqueen",
+    "El Condor Pasa",
+    "T.M. Opera O",
+    "Narita Brian",
+    "Symboli Rudolf",
+    "Air Groove",
+    "Agnes Digital",
+    "Seiun Sky",
+    "Tamamo Cross",
+    "Fine Motion",
+    "Biwa Hayahide",
+    "Mayano Topgun",
+    "Manhattan Cafe",
+    "Mihono Bourbon",
+    "Mejiro Ryan",
+    "Hishi Akebono",
+    "Yukino Bijin",
+    "Rice Shower",
+    "Ines Fujin",
+    "Agnes Tachyon",
+    "Admire Vega",
+    "Inari One",
+    "Winning Ticket",
+    "Air Shakur",
+    "Eishin Flash",
+    "Curren Chan",
+    "Kawakami Princess",
+    "Gold City",
+    "Sakura Bakushin O",
+    "Seeking the Pearl",
+    "Shinko Windy",
+    "Sweep Tosho",
+    "Super Creek",
+    "Smart Falcon",
+    "Zenno Rob Roy",
+    "Tosen Jordan",
+    "Nakayama Festa",
+    "Narita Taishin",
+    "Nishino Flower",
+    "Haru Urara",
+    "Bamboo Memory",
+    "Biko Pegasus",
+    "Marvelous Sunday",
+    "Matikane Fukukitaru",
+    "Mr. C.B.",
+    "Meisho Doto",
+    "Mejiro Dober",
+    "Nice Nature",
+    "King Halo",
+    "Matikane Tannhauser",
+    "Ikuno Dictus",
+    "Mejiro Palmer",
+    "Daitaku Helios",
+    "Twin Turbo",
+    "Satono Diamond",
+    "Kitasan Black",
+    "Sakura Chiyono O",
+    "Sirius Symboli",
+    "Mejiro Ardan",
+    "Yaeno Muteki",
+    "Tsurumaru Tsuyoshi",
+    "Mejiro Bright",
+    "Sakura Laurel",
+    "Narita Top Road",
+    "Yamanin Zephyr",
+    "Symboli Kris S",
+    "Tanino Gimlet",
+    "Daiichi Ruby",
+    "Aston Machan",
+    "Hayakawa Tazuna",
+    "KS Miracle",
+    "Kopano Rickey",
+    "Hoko Tarumae",
+    "Wonder Acute",
+    "President Akikawa"
+],
+  "symbols": ["_", ",", ".", "!", "?", "-", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "]
+}

pretrained_models/moe-tts/18/cover.jpg ADDED Viewed

Git LFS Details

SHA256: ea6f82b861d44d5626b7181acc8a58c9be6b6d36ddf983e89a8685c0da1f50db
Pointer size: 130 Bytes
Size of remote file: 43.5 kB

pretrained_models/moe-tts/18/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a53f4eb6bf8226b3fb4a3b31436235f697692f5566039ce3491b80af9a9567a
+size 158962765

pretrained_models/moe-tts/2/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+    "train": {
+      "segment_size": 8192
+    },
+    "data": {
+      "text_cleaners":["japanese_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "add_blank": true,
+      "n_speakers": 7
+    },
+    "model": {
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "gin_channels": 256
+    },
+    "speakers": ["\u56db\u5b63\u30ca\u30c4\u30e1", "\u660e\u6708\u681e\u90a3", "\u58a8\u67d3\u5e0c", "\u706b\u6253\u8c37\u611b\u8863", "\u6c50\u5c71\u6dbc\u97f3", "None", "None"],
+    "symbols": ["_", ",", ".", "!", "?", "-", "~","A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "]
+  }

pretrained_models/moe-tts/2/cover.jpg ADDED Viewed

Git LFS Details

SHA256: cf387dd1775ebf0f98245e433686a9f8f75bcc5aa8c4ceb192b8a98d0ec42432
Pointer size: 130 Bytes
Size of remote file: 60.2 kB

pretrained_models/moe-tts/2/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16adcc6dd3f23ac4407176769f1e6843f86a5b16e04b8abb5a6a11132e6b9751
+size 476622149

pretrained_models/moe-tts/3/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+    "train": {
+      "segment_size": 8192
+    },
+    "data": {
+      "text_cleaners":["japanese_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "add_blank": true,
+      "n_speakers": 5
+    },
+    "model": {
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "gin_channels": 256
+    },
+    "speakers": ["\u6625\u65e5\u91ce\u7a79", "\u5929\u5973\u76ee\u745b", "\u4f9d\u5a9b\u5948\u7dd2", "\u6e1a\u4e00\u8449", "None"],
+    "symbols": ["_", ",", ".", "!", "?", "-", "~","A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "]
+  }

pretrained_models/moe-tts/3/cover.jpg ADDED Viewed

Git LFS Details

SHA256: 1284933d68ad829768df808feaee25ad68693b8b004c44f675462750b94dd1d8
Pointer size: 130 Bytes
Size of remote file: 47.3 kB

pretrained_models/moe-tts/3/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60dfd6e56a1f895e3db4c054fd94d5a0362103dd5d2e19941e17dd1be41e6b11
+size 476796721

pretrained_models/moe-tts/4/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+    "train": {
+      "segment_size": 8192
+    },
+    "data": {
+      "text_cleaners":["japanese_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "add_blank": true,
+      "n_speakers": 6
+    },
+    "model": {
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "gin_channels": 256
+    },
+    "speakers": ["\u84ee\u83ef", "\u7bdd\u30ce\u9727\u679d", "\u6ca2\u6e21\u96eb", "\u4e9c\u7483\u5b50", "\u706f\u9732\u690e", "\u89a1\u5915\u8389"],
+    "symbols": ["_", ",", ".", "!", "?", "-", "~","A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "]
+  }

pretrained_models/moe-tts/4/cover.jpg ADDED Viewed

Git LFS Details

SHA256: 4ecc5a318f4611b93bf40a584eaf5f6849d3ce812ee7ef6316f7a4a15df2c326
Pointer size: 131 Bytes
Size of remote file: 142 kB

pretrained_models/moe-tts/4/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae80b8e7f18766625a2fe991263c7c0d42364fa1a55d772c0c645f68c72a3750
+size 476799793

pretrained_models/moe-tts/5/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["zh_ja_mixture_cleaners"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 5
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\u7dbe\u5730\u5be7\u3005", "\u5728\u539f\u4e03\u6d77", "\u5c0f\u8338", "\u5510\u4e50\u541f"],
+  "symbols": ["_", ",", ".", "!", "?", "-", "~", "\u2026", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u02a6", "\u026f", "\u0279", "\u0259", "\u0265", "\u207c", "\u02b0", "`", "\u2192", "\u2193", "\u2191", " "]
+}

pretrained_models/moe-tts/5/cover.jpg ADDED Viewed

Git LFS Details

SHA256: dbed43668741a90c3a7faef3c3b5aace7723b94c251106fb5925a0f1ba0d7c5c
Pointer size: 130 Bytes
Size of remote file: 30.5 kB

pretrained_models/moe-tts/5/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edfb6b428c398fab83a85b5ae41e13cb5a9f7be12692129e8a880d4553701f7b
+size 158888013

pretrained_models/moe-tts/6/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["korean_cleaners"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 6
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\uc218\uc544", "\ubbf8\ubbf8\ub974", "\uc544\ub9b0", "\uc5f0\ud654", "\uc720\ud654", "\uc120\ubc30"],
+  "symbols": ["_", ",", ".", "!", "?", "\u2026", "~", "\u3131", "\u3134", "\u3137", "\u3139", "\u3141", "\u3142", "\u3145", "\u3147", "\u3148", "\u314a", "\u314b", "\u314c", "\u314d", "\u314e", "\u3132", "\u3138", "\u3143", "\u3146", "\u3149", "\u314f", "\u3153", "\u3157", "\u315c", "\u3161", "\u3163", "\u3150", "\u3154", " "]
+}

pretrained_models/moe-tts/6/cover.jpg ADDED Viewed

Git LFS Details

SHA256: 38e71373daa8849f04bd7867845676afab2057e69a5e0a1e312c2b6cfdd72794
Pointer size: 131 Bytes
Size of remote file: 146 kB

pretrained_models/moe-tts/6/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5461551d900d726e24fe5551c3773c0c27419c9237882fe7d400025344499f85
+size 158875981

pretrained_models/moe-tts/7/config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "train": {
+    "log_interval": 10,
+    "eval_interval": 1000,
+    "seed": 1234,
+    "epochs": 10000,
+    "learning_rate": 2e-4,
+    "betas": [0.8, 0.99],
+    "eps": 1e-9,
+    "batch_size": 50,
+    "fp16_run": true,
+    "lr_decay": 0.999875,
+    "segment_size": 8192,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0
+  },
+  "data": {
+    "training_files":"filelists/multi_speaker.csv",
+    "validation_files":"filelists/multi_speaker_val.csv",
+    "text_cleaners":["japanese_cleaners"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "n_mel_channels": 80,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 13,
+    "cleaned_text": true
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["鷹倉杏璃","鷹倉杏鈴","アペイリア", "倉科明日香","ATRI", "アイラ", "新堂彩音", "姫野星奏", "小鞠ゆい", "聖代橋氷織", "有坂真白", "白咲美絵瑠", "二階堂真紅"],
+  "symbols":["_", ",", ".", "!", "?", "-", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "]
+}

pretrained_models/moe-tts/7/cover.jpg ADDED Viewed

Git LFS Details

SHA256: cd98e72f9a5de9df03d2cffae41f907dd70116b4ae89d9fe218df6fa45cd1767
Pointer size: 130 Bytes
Size of remote file: 98.8 kB

pretrained_models/moe-tts/7/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f96e046a777407883d4665777118bdfbe0a48fc18c5fdea16c1d05eaa3af7773
+size 476818993

pretrained_models/moe-tts/8/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "train": {
+    "segment_size": 8192
+  },
+  "data": {
+    "text_cleaners":["japanese_cleaners2"],
+    "max_wav_value": 32768.0,
+    "sampling_rate": 22050,
+    "filter_length": 1024,
+    "hop_length": 256,
+    "win_length": 1024,
+    "add_blank": true,
+    "n_speakers": 26
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "upsample_rates": [8,8,2,2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16,16,4,4],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  },
+  "speakers": ["\u30eb\u30a4\u30ba", "\u30c6\u30a3\u30d5\u30a1\u30cb\u30a2", "\u30a4\u30eb\u30af\u30af\u30a5", "\u30a2\u30f3\u30ea\u30a8\u30c3\u30bf", "\u30bf\u30d0\u30b5", "\u30b7\u30a8\u30b9\u30bf", "\u30cf\u30eb\u30ca", "\u5c11\u5973\u30ea\u30b7\u30e5", "\u30ea\u30b7\u30e5", "\u30a2\u30ad\u30ca", "\u30af\u30ea\u30b9", "\u30ab\u30c8\u30ec\u30a2", "\u30a8\u30ec\u30aa\u30ce\u30fc\u30eb", "\u30e2\u30f3\u30e2\u30e9\u30f3\u30b7\u30fc", "\u30ea\u30fc\u30f4\u30eb", "\u30ad\u30e5\u30eb\u30b1", "\u30a6\u30a7\u30b6\u30ea\u30fc", "\u30b5\u30a4\u30c8", "\u30ae\u30fc\u30b7\u30e5", "\u30b3\u30eb\u30d9\u30fc\u30eb", "\u30aa\u30b9\u30de\u30f3", "\u30c7\u30eb\u30d5\u30ea\u30f3\u30ac\u30fc", "\u30c6\u30af\u30b9\u30c8", "\u30c0\u30f3\u30d7\u30ea\u30e1", "\u30ac\u30ec\u30c3\u30c8", "\u30b9\u30ab\u30ed\u30f3"],
+  "symbols": ["_", ",", ".", "!", "?", "-", "~", "\u2026", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u02a6", "\u2193", "\u2191", " "]
+}