--- language: - zh datasets: - p208p2002/zhtw-sentence-error-correction --- # DPO Chinese Error Correction Model 使用DPO訓練的中文糾錯模型。 ### Usage ```python from transformers import AutoTokenizer, AutoModelForCausalLM, LlamaForCausalLM,AddedToken import sys mode_id = "p208p2002/bloom-1b1-zh-error-correction-dpo" model: LlamaForCausalLM = AutoModelForCausalLM.from_pretrained("p208p2002/bloom-1b1-zh-error-correction-dpo") tokenizer = AutoTokenizer.from_pretrained("p208p2002/bloom-1b1-zh-error-correction-dpo") test_texts = [ "為了潔約能源請隨守關閉沒有使用的電器", "今天新情很好", "你快樂我也很高心", "但不再算再找實習生了", "今天太陽很大要注意篩傷", "你要不要和我依起去台北", "清晨六點終太陽會升起", "傾城六點鐘太陽會升起", "鍋馬路時你應該要注意虹綠燈", "他正在學學彈吉他", "下樓梯請注意階梯", "此信件為系統自動發送之通知", "此信件為系統自動發送知通知", "如為誤傳也請立即刪除本郵件並通知寄件者" ] for text in test_texts: inputs = tokenizer( f"{tokenizer.bos_token}{text} {tokenizer.eos_token}\n {tokenizer.bos_token}", return_tensors="pt", add_special_tokens=False )["input_ids"] out = model.generate( inputs, max_new_tokens=20, ) decode_out = tokenizer.decode(out[0]) input_text,output_text = decode_out.split("\n") input_text = input_text.strip() output_text = output_text.strip() print("input :",input_text) print("output:",output_text) print('-'*30) ``` ``` input: 為了潔約能源請隨守關閉沒有使用的電器 output: 為了節約能源請隨時關閉沒有使用的電器 ------------------------------ input: 今天新情很好 output: 今天心情很好 ------------------------------ input: 你快樂我也很高心 output: 你快樂我也很高興 ------------------------------ input: 但不再算再找實習生了 output: 但不再去找實習生了 ------------------------------ input: 今天太陽很大要注意篩傷 output: 今天太陽很大要注意一下 ------------------------------ input: 你要不要和我依起去台北 output: 你要不要和我一起去台北 ------------------------------ input: 清晨六點終太陽會升起 output: 清晨六點鐘太陽會升起 ------------------------------ input: 傾城六點鐘太陽會升起 output: 凌晨六點鐘太陽會升起 ------------------------------ input: 鍋馬路時你應該要注意虹綠燈 output: 過馬路時你應該要注意紅綠燈 ------------------------------ input: 他正在學學彈吉他 output: 他正在學習彈吉他 ------------------------------ input: 下樓梯請注意階梯 output: 下樓梯請注意階梯 ------------------------------ input: 此信件為系統自動發送之通知 output: 此信件為系統自動發送之通知 ------------------------------ input: 此信件為系統自動發送知通知 output: 此信件為系統自動發送通知 ------------------------------ input: 如為誤傳也請立即刪除本郵件並通知寄件者 output: 如為誤傳也請立即刪除本郵件並通知寄件者 ------------------------------ input : 為了潔約能源請隨守關閉沒有使用的電器 output: 為了節約能源請隨時關閉沒有使用的電器 ------------------------------ input : 今天新情很好 output: 今天心情很好 ------------------------------ input : 你快樂我也很高心 output: 你快樂我也很高興 ------------------------------ input : 但不再算再找實習生了 output: 但不再去找實習生了 ------------------------------ input : 今天太陽很大要注意篩傷 output: 今天太陽很大要注意一下 ------------------------------ input : 你要不要和我依起去台北 output: 你要不要和我一起去台北 ------------------------------ input : 清晨六點終太陽會升起 output: 清晨六點鐘太陽會升起 ------------------------------ input : 傾城六點鐘太陽會升起 output: 凌晨六點鐘太陽會升起 ------------------------------ input : 鍋馬路時你應該要注意虹綠燈 output: 過馬路時你應該要注意紅綠燈 ------------------------------ input : 他正在學學彈吉他 output: 他正在學習彈吉他 ------------------------------ input : 下樓梯請注意階梯 output: 下樓梯請注意階梯 ------------------------------ input : 此信件為系統自動發送之通知 output: 此信件為系統自動發送之通知 ------------------------------ input : 此信件為系統自動發送知通知 output: 此信件為系統自動發送通知 ------------------------------ input : 如為誤傳也請立即刪除本郵件並通知寄件者 output: 如為誤傳也請立即刪除本郵件並通知寄件者 ------------------------------ ```