eson's picture
add compress rate
814ee6b
|
raw
history blame
No virus
1.79 kB

背景知识

GPT2采用的byte-level BPE,BERT采用的char-level BPE。

  • BPE on unicode sequence
  • BPE on UTF-8 byte sequence

来自 https://huggingface.co/gpt2/tree/main

BPE的问题

  • 直接BPE,会出现 dog. dog! 等合并成一个词。

byte-level BPE

  • bpe会把空格拼接到后一个词上,比如 bpe.decode(bpes[1:2]) = ' world',在NER任务上是不是算把空格也标注进去了?
  • bpe会把 'world'和' world'视为两个完全不同的token,不好吧?
  • 大小写:

怎样解决

GPT2的

下载

官方

huggingface = 官方

词典加载 https://github.com/huggingface/transformers/blob/main/src/transformers/models/gpt2/tokenization_gpt2.py

fairseq = 官方

词典加载 https://github.com/huggingface/transformers/blob/main/src/transformers/models/gpt2/tokenization_gpt2.py