> pretrained: Llama7B
> instruction & conversation finetuned: Chinese-Vicuna-chatv1 (Lora)
> domain finetuned: Lora
这是Chinese-Vicuna在legal领域上微调后的lora模型,可直接配合Llama7B使用
legal的数据我们使用 Chatgpt关于JEC-QA中国法考数据集的解答 、 ChatGPT扮演律师解答问题 、法律知识问答 三种来源的数据,总计23209条。尽管我们能够找到一些法律真实问答的数据,但此类数据往往带噪(比如不耐烦地回答“问问你自己吧”
),因此并没有使用
我们按chat格式格式化数据,基于chatv1,使用continue-training 继续训练将近6 epoch;经测试不仅提高了法律问答能力,还能够保留一定的通用问答能力。