在不分词的情况下词语的含义会丢失么

by yinzhenhua - opened Sep 2, 2023

Sep 2, 2023

我关注到给出的vocab是按照字进行编码的，在没有分词的情况下，这样的方式是否会丢失词语之间的含义？咱们这个模型是怎么处理的呢？

Shitao

Beijing Academy of Artificial Intelligence org Sep 2, 2023

您好，bge系列的基座模型是hfl训练的中文bert模型（https://huggingface.co/hfl），使用的是BPE tokenizer。切成词汇可能会是更好的方式，如果有需要的话，可以增加领域词汇再进行预训练。

Sep 9, 2023

•

你好，咨询几个问题哈

Shitao

Beijing Academy of Artificial Intelligence org Sep 9, 2023

之前retromae使用的bert-base-uncased没有对中文能力进行训练，因此bge-zh中文版使用了hfl训练的中文版bert。FlagEmbedding的例子是以训练好的bge为底座模型，由于已经进行过训练，应该可以更快的在新数据上收敛，减小用户资源消耗，不过这块目前并没有实验上的验证。
为了缩短训练时间，实验上都使用了已有模型初始化encoder，目前没有尝试过encoder和decoder都随机初始化的效果。

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment