在不分词的情况下词语的含义会丢失么

#6
by yinzhenhua - opened

我关注到给出的vocab是按照字进行编码的,在没有分词的情况下,这样的方式是否会丢失词语之间的含义?咱们这个模型是怎么处理的呢?

Beijing Academy of Artificial Intelligence org

您好,bge系列的基座模型是hfl训练的中文bert模型(https://huggingface.co/hfl),使用的是BPE tokenizer。切成词汇可能会是更好的方式,如果有需要的话,可以增加领域词汇再进行预训练。

你好,咨询几个问题哈

  1. retromae实现(https://github.com/staoxiao/RetroMAE)预训练的时候用bert-base-uncased初始化encoder。bge的预训练初始化encoder是用的是hfl这个bert模型么(看FlagEmbedding/examples/pretrain/README.md初始化是BAAI/bge-large-en?)。
    2.encoder部分有初始化但是好像decoder部分没有,有消融过这个效果么(比如encoder和decoder都不初始化)
Beijing Academy of Artificial Intelligence org
  1. 之前retromae使用的bert-base-uncased没有对中文能力进行训练, 因此bge-zh中文版使用了hfl训练的中文版bert。FlagEmbedding的例子是以训练好的bge为底座模型,由于已经进行过训练,应该可以更快的在新数据上收敛,减小用户资源消耗,不过这块目前并没有实验上的验证。
  2. 为了缩短训练时间,实验上都使用了已有模型初始化encoder,目前没有尝试过encoder和decoder都随机初始化的效果。

Sign up or log in to comment