""" 1. jd_vocab_tokens的中文: 编码长度统计: Counter({2: 4190, 3: 1295, 1: 285}) 平均编码长度: 2.1750433275563257 2. 中文标点 编码长度统计: Counter({2: 55, 1: 23, 3: 3}) 平均编码长度: 1.7530864197530864 3. 全中文(单字) unicode 编码长度统计: Counter({2: 13342, 3: 7257, 1: 302}) 平均编码长度: 2.3327591981244917 4. 全中文() 中文汉字数:313, 中文标点数: 86 """