File size: 447 Bytes
751936e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
"""
1. jd_vocab_tokens的中文:
编码长度统计: Counter({2: 4190, 3: 1295, 1: 285})
平均编码长度: 2.1750433275563257


2. 中文标点
编码长度统计: Counter({2: 55, 1: 23, 3: 3})
平均编码长度: 1.7530864197530864

3. 全中文(单字) unicode
编码长度统计: Counter({2: 13342, 3: 7257, 1: 302})
平均编码长度: 2.3327591981244917


4. 全中文()
中文汉字数:313, 中文标点数: 86
"""