---
language:
- zh
datasets:
- p208p2002/zhtw-sentence-error-correction
---
# DPO Chinese Error Correction Model
使用DPO訓練的中文糾錯模型。
### Usage
```python
from transformers import AutoTokenizer, AutoModelForCausalLM, LlamaForCausalLM,AddedToken
import sys
mode_id = "p208p2002/bloom-1b1-zh-error-correction-dpo"
model: LlamaForCausalLM = AutoModelForCausalLM.from_pretrained("p208p2002/bloom-1b1-zh-error-correction-dpo")
tokenizer = AutoTokenizer.from_pretrained("p208p2002/bloom-1b1-zh-error-correction-dpo")
test_texts = [
"為了潔約能源請隨守關閉沒有使用的電器",
"今天新情很好",
"你快樂我也很高心",
"但不再算再找實習生了",
"今天太陽很大要注意篩傷",
"你要不要和我依起去台北",
"清晨六點終太陽會升起",
"傾城六點鐘太陽會升起",
"鍋馬路時你應該要注意虹綠燈",
"他正在學學彈吉他",
"下樓梯請注意階梯",
"此信件為系統自動發送之通知",
"此信件為系統自動發送知通知",
"如為誤傳也請立即刪除本郵件並通知寄件者"
]
for text in test_texts:
inputs = tokenizer(
f"{tokenizer.bos_token}{text} {tokenizer.eos_token}\n {tokenizer.bos_token}",
return_tensors="pt",
add_special_tokens=False
)["input_ids"]
out = model.generate(
inputs,
max_new_tokens=20,
)
decode_out = tokenizer.decode(out[0])
input_text,output_text = decode_out.split("\n")
input_text = input_text.strip()
output_text = output_text.strip()
print("input :",input_text)
print("output:",output_text)
print('-'*30)
```
```
input: 為了潔約能源請隨守關閉沒有使用的電器
output: 為了節約能源請隨時關閉沒有使用的電器
------------------------------
input: 今天新情很好
output: 今天心情很好
------------------------------
input: 你快樂我也很高心
output: 你快樂我也很高興
------------------------------
input: 但不再算再找實習生了
output: 但不再去找實習生了
------------------------------
input: 今天太陽很大要注意篩傷
output: 今天太陽很大要注意一下
------------------------------
input: 你要不要和我依起去台北
output: 你要不要和我一起去台北
------------------------------
input: 清晨六點終太陽會升起
output: 清晨六點鐘太陽會升起
------------------------------
input: 傾城六點鐘太陽會升起
output: 凌晨六點鐘太陽會升起
------------------------------
input: 鍋馬路時你應該要注意虹綠燈
output: 過馬路時你應該要注意紅綠燈
------------------------------
input: 他正在學學彈吉他
output: 他正在學習彈吉他
------------------------------
input: 下樓梯請注意階梯
output: 下樓梯請注意階梯
------------------------------
input: 此信件為系統自動發送之通知
output: 此信件為系統自動發送之通知
------------------------------
input: 此信件為系統自動發送知通知
output: 此信件為系統自動發送通知
------------------------------
input: 如為誤傳也請立即刪除本郵件並通知寄件者
output: 如為誤傳也請立即刪除本郵件並通知寄件者
------------------------------
input : 為了潔約能源請隨守關閉沒有使用的電器
output: 為了節約能源請隨時關閉沒有使用的電器
------------------------------
input : 今天新情很好
output: 今天心情很好
------------------------------
input : 你快樂我也很高心
output: 你快樂我也很高興
------------------------------
input : 但不再算再找實習生了
output: 但不再去找實習生了
------------------------------
input : 今天太陽很大要注意篩傷
output: 今天太陽很大要注意一下
------------------------------
input : 你要不要和我依起去台北
output: 你要不要和我一起去台北
------------------------------
input : 清晨六點終太陽會升起
output: 清晨六點鐘太陽會升起
------------------------------
input : 傾城六點鐘太陽會升起
output: 凌晨六點鐘太陽會升起
------------------------------
input : 鍋馬路時你應該要注意虹綠燈
output: 過馬路時你應該要注意紅綠燈
------------------------------
input : 他正在學學彈吉他
output: 他正在學習彈吉他
------------------------------
input : 下樓梯請注意階梯
output: 下樓梯請注意階梯
------------------------------
input : 此信件為系統自動發送之通知
output: 此信件為系統自動發送之通知
------------------------------
input : 此信件為系統自動發送知通知
output: 此信件為系統自動發送通知
------------------------------
input : 如為誤傳也請立即刪除本郵件並通知寄件者
output: 如為誤傳也請立即刪除本郵件並通知寄件者
------------------------------
```