fireballoon/baichuan-llama-7b · 请问验证过转完的llama格式权重能够用于sft吗

nnz

Jun 20, 2023

请问验证过转完的llama格式权重能够用于sft吗

fireballoon

Owner Jun 20, 2023

可以的。转换之后的模型和llama是一样的，所有支持llama的代码都可以直接使用。
我使用转换后的模型已经成功训练了sft模型：baichuan-vicuna-7b, baichuan-vicuna-chinese-7b。

Kuaixueshiqing

Jul 3, 2023

可以的。转换之后的模型和llama是一样的，所有支持llama的代码都可以直接使用。
我使用转换后的模型已经成功训练了sft模型：baichuan-vicuna-7b, baichuan-vicuna-chinese-7b。

请问使用这个模型做sft和baichuan官方的有什么区别？只是lora的module name不一样吗？

fireballoon

Owner Jul 3, 2023

对。本模型只是把baichuan的w_pack恢复回了llama的qkv矩阵，其他未做任何改动。转化代码：https://huggingface.co/fireballoon/baichuan-llama-7b/blob/main/convert_baichuan_to_llama.py
训练超参数设置成训练llama-7b的参数就行。

hzq010103

Nov 20, 2023

•

edited Nov 20, 2023

请问用https://github.com/hiyouga/LLaMA-Factory 训练这个fireballoon/baichuan-llama-7b会报错是什么原因呢：
File "/home/tiger/.local/lib/python3.9/site-packages/peft/tuners/lora/layer.py", line 296, in _linear
return F.linear(input, transpose(self.weight, self.fan_in_fan_out), bias=self.bias)
RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling cublasCreate(handle)
../aten/src/ATen/native/cuda/Indexing.cu:1292: indexSelectLargeIndex: block: [486,0,0], thread: [32,0,0] Assertion srcIndex < srcSelectDimSize failed.