如何验证合并的权重是否正确?

#1
by puppet1988 - opened

可以提供一个校验合并权重正确性的方法吗?谢谢

Fengshenbang-LM org
edited Jun 2, 2023

可以在 greedy sample 下验证推理输出( do_sample = False),以 model cards 为例,Pretrain 这个模型输出是

<human>:帮我写一份去西安的旅游计划
<bot>:好的,请输入你的出发时间
<human>:明天

我们也复核了 delta 模型恢复出的输出一致。

你好,我用model cards的代码,得到的输出完全不一样的。会出现很多重复的回答, 而且也不是 这种格式的

运行代码是这个:
input_ids = tokenizer(inputs, return_tensors="pt").input_ids.to(device)
generate_ids = model.generate(
input_ids,
max_new_tokens=1024,
do_sample = False,
top_p = 0.85,
temperature = 1.0,
repetition_penalty=1.,
eos_token_id=2,
bos_token_id=1,
pad_token_id=0)
output = tokenizer.batch_decode(generate_ids)[0]

下面是输出的结果:
帮我写一份去西安的旅游计划书吧?西安是一座有着3100多年历史的文化古都,是中华文明的发祥地之一,是中华民族的摇篮,中华文明的发祥地之一,中华文明的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮,中华民族的发祥地之一,中华民族的摇篮

Fengshenbang-LM org
edited Jun 5, 2023

你好,前一条回复的格式化输出是因为我默认加了 '' + query.strip() + '\n' 两个特殊符对输出有影响,抱歉没有给出这个细节。

去掉这个后,直接续写得到和输出和你的一致,合并的权重是正确的。

image.png

重复是因为 Greedy sampling 采样容易导致重复,验证正确性时为了去掉随机性可以开。实际用可以开 do_sample = True , beam search 采样以及调整其他 temperature 等减轻重复问题。

好的,那就没问题了,非常感谢~

puppet1988 changed discussion status to closed

Sign up or log in to comment