|
import os |
|
|
|
|
|
punctuation = ["!", "?", "β¦", ",", "."] |
|
punctuation.append("-") |
|
pu_symbols = punctuation + ["SP", "SP2", "SP3", "UNK"] |
|
|
|
pad = "_" |
|
|
|
c = [ |
|
"AA", |
|
"EE", |
|
"OO", |
|
"b", |
|
"c", |
|
"ch", |
|
"d", |
|
"f", |
|
"g", |
|
"h", |
|
"j", |
|
"k", |
|
"l", |
|
"m", |
|
"n", |
|
"p", |
|
"q", |
|
"r", |
|
"s", |
|
"sh", |
|
"t", |
|
"w", |
|
"x", |
|
"y", |
|
"z", |
|
"zh", |
|
] |
|
v = [ |
|
"E1", |
|
"En1", |
|
"a1", |
|
"ai1", |
|
"an1", |
|
"ang1", |
|
"ao1", |
|
"e1", |
|
"ei1", |
|
"en1", |
|
"eng1", |
|
"er1", |
|
"i1", |
|
"i01", |
|
"ia1", |
|
"ian1", |
|
"iang1", |
|
"iao1", |
|
"ie1", |
|
"in1", |
|
"ing1", |
|
"iong1", |
|
"ir1", |
|
"iu1", |
|
"o1", |
|
"ong1", |
|
"ou1", |
|
"u1", |
|
"ua1", |
|
"uai1", |
|
"uan1", |
|
"uang1", |
|
"ui1", |
|
"un1", |
|
"uo1", |
|
"v1", |
|
"van1", |
|
"ve1", |
|
"vn1", |
|
"E2", |
|
"En2", |
|
"a2", |
|
"ai2", |
|
"an2", |
|
"ang2", |
|
"ao2", |
|
"e2", |
|
"ei2", |
|
"en2", |
|
"eng2", |
|
"er2", |
|
"i2", |
|
"i02", |
|
"ia2", |
|
"ian2", |
|
"iang2", |
|
"iao2", |
|
"ie2", |
|
"in2", |
|
"ing2", |
|
"iong2", |
|
"ir2", |
|
"iu2", |
|
"o2", |
|
"ong2", |
|
"ou2", |
|
"u2", |
|
"ua2", |
|
"uai2", |
|
"uan2", |
|
"uang2", |
|
"ui2", |
|
"un2", |
|
"uo2", |
|
"v2", |
|
"van2", |
|
"ve2", |
|
"vn2", |
|
"E3", |
|
"En3", |
|
"a3", |
|
"ai3", |
|
"an3", |
|
"ang3", |
|
"ao3", |
|
"e3", |
|
"ei3", |
|
"en3", |
|
"eng3", |
|
"er3", |
|
"i3", |
|
"i03", |
|
"ia3", |
|
"ian3", |
|
"iang3", |
|
"iao3", |
|
"ie3", |
|
"in3", |
|
"ing3", |
|
"iong3", |
|
"ir3", |
|
"iu3", |
|
"o3", |
|
"ong3", |
|
"ou3", |
|
"u3", |
|
"ua3", |
|
"uai3", |
|
"uan3", |
|
"uang3", |
|
"ui3", |
|
"un3", |
|
"uo3", |
|
"v3", |
|
"van3", |
|
"ve3", |
|
"vn3", |
|
"E4", |
|
"En4", |
|
"a4", |
|
"ai4", |
|
"an4", |
|
"ang4", |
|
"ao4", |
|
"e4", |
|
"ei4", |
|
"en4", |
|
"eng4", |
|
"er4", |
|
"i4", |
|
"i04", |
|
"ia4", |
|
"ian4", |
|
"iang4", |
|
"iao4", |
|
"ie4", |
|
"in4", |
|
"ing4", |
|
"iong4", |
|
"ir4", |
|
"iu4", |
|
"o4", |
|
"ong4", |
|
"ou4", |
|
"u4", |
|
"ua4", |
|
"uai4", |
|
"uan4", |
|
"uang4", |
|
"ui4", |
|
"un4", |
|
"uo4", |
|
"v4", |
|
"van4", |
|
"ve4", |
|
"vn4", |
|
"E5", |
|
"En5", |
|
"a5", |
|
"ai5", |
|
"an5", |
|
"ang5", |
|
"ao5", |
|
"e5", |
|
"ei5", |
|
"en5", |
|
"eng5", |
|
"er5", |
|
"i5", |
|
"i05", |
|
"ia5", |
|
"ian5", |
|
"iang5", |
|
"iao5", |
|
"ie5", |
|
"in5", |
|
"ing5", |
|
"iong5", |
|
"ir5", |
|
"iu5", |
|
"o5", |
|
"ong5", |
|
"ou5", |
|
"u5", |
|
"ua5", |
|
"uai5", |
|
"uan5", |
|
"uang5", |
|
"ui5", |
|
"un5", |
|
"uo5", |
|
"v5", |
|
"van5", |
|
"ve5", |
|
"vn5", |
|
] |
|
|
|
v_without_tone = [ |
|
"E", |
|
"En", |
|
"a", |
|
"ai", |
|
"an", |
|
"ang", |
|
"ao", |
|
"e", |
|
"ei", |
|
"en", |
|
"eng", |
|
"er", |
|
"i", |
|
"i0", |
|
"ia", |
|
"ian", |
|
"iang", |
|
"iao", |
|
"ie", |
|
"in", |
|
"ing", |
|
"iong", |
|
"ir", |
|
"iu", |
|
"o", |
|
"ong", |
|
"ou", |
|
"u", |
|
"ua", |
|
"uai", |
|
"uan", |
|
"uang", |
|
"ui", |
|
"un", |
|
"uo", |
|
"v", |
|
"van", |
|
"ve", |
|
"vn", |
|
] |
|
|
|
|
|
ja_symbols = [ |
|
"I", |
|
"N", |
|
"U", |
|
"a", |
|
"b", |
|
"by", |
|
"ch", |
|
"cl", |
|
"d", |
|
"dy", |
|
"e", |
|
"f", |
|
"g", |
|
"gy", |
|
"h", |
|
"hy", |
|
"i", |
|
"j", |
|
"k", |
|
"ky", |
|
"m", |
|
"my", |
|
"n", |
|
"ny", |
|
"o", |
|
"p", |
|
"py", |
|
"r", |
|
"ry", |
|
"s", |
|
"sh", |
|
"t", |
|
"ts", |
|
"u", |
|
"v", |
|
"w", |
|
"y", |
|
"z", |
|
] |
|
|
|
arpa = { |
|
"AH0", |
|
"S", |
|
"AH1", |
|
"EY2", |
|
"AE2", |
|
"EH0", |
|
"OW2", |
|
"UH0", |
|
"NG", |
|
"B", |
|
"G", |
|
"AY0", |
|
"M", |
|
"AA0", |
|
"F", |
|
"AO0", |
|
"ER2", |
|
"UH1", |
|
"IY1", |
|
"AH2", |
|
"DH", |
|
"IY0", |
|
"EY1", |
|
"IH0", |
|
"K", |
|
"N", |
|
"W", |
|
"IY2", |
|
"T", |
|
"AA1", |
|
"ER1", |
|
"EH2", |
|
"OY0", |
|
"UH2", |
|
"UW1", |
|
"Z", |
|
"AW2", |
|
"AW1", |
|
"V", |
|
"UW2", |
|
"AA2", |
|
"ER", |
|
"AW0", |
|
"UW0", |
|
"R", |
|
"OW1", |
|
"EH1", |
|
"ZH", |
|
"AE0", |
|
"IH2", |
|
"IH", |
|
"Y", |
|
"JH", |
|
"P", |
|
"AY1", |
|
"EY0", |
|
"OY2", |
|
"TH", |
|
"HH", |
|
"D", |
|
"ER0", |
|
"CH", |
|
"AO1", |
|
"AE1", |
|
"AO2", |
|
"OY1", |
|
"AY2", |
|
"IH1", |
|
"OW0", |
|
"L", |
|
"SH", |
|
} |
|
|
|
symbols = [pad] + c + v + ja_symbols + pu_symbols + list(arpa) |
|
symbols = sorted(set(symbols)) |
|
if __name__ == "__main__": |
|
print(len(symbols)) |
|
|