Approach to reduce hallucination

#1
by LoneRanger44 - opened

Hi, thanks for your contribution! I tried out the q6 (using the llama.cpp server) version and found that it does not work well with Q&A with context. Here is the sample

<|im_start|>system
Bạn là một trợ lí AI hữu ích. Hãy giúp đỡ người dùng nhiều nhất có thể<|im_end|>
<|im_start|>user
Cho đoạn văn sau: ĐỒNG NAI - Số ca nghi ngộ độc ở TP Long Khánh tính đến 16h chiều nay là 328 người, trong đó 9 ca nặng phải chuyển viện bao gồm hai bệnh nhi nguy kịch. Chiều 2/5, Bệnh viện Đa khoa Long Khánh tiếp nhận thêm các bệnh nhân có dấu hiệu ngộ độc sau khi ăn bánh mì Băng vào chiều 30/4. Tình trạng quá tải buộc nơi này phải mở thêm một đơn vị cấp cứu và điều trị ngộ độc với quy mô 70 giường. \"Số lượng bệnh nhân tăng đột biến dẫn đến tình trạng quá tải\", bác sĩ Huyên, Khoa Hồi sức, cho biết, thêm rằng bệnh viện đã huy động tất cả bác sĩ ở nhiều chuyên khoa khác nhau để cấp cứu điều trị hỗ trợ bệnh nhân.

Câu hỏi: Tiệm này ở đâu ?<|im_end|>
<|im_start|>assistant
Tiệm bánh ở Long Khê.<|im_end|>

<|im_start|>system
Bạn là một trợ lí AI hữu ích. Hãy giúp đỡ người dùng nhiều nhất có thể<|im_end|>
<|im_start|>user
Cho đoạn văn sau: ĐỒNG NAI - Số ca nghi ngộ độc ở TP Long Khánh tính đến 16h chiều nay là 328 người, trong đó 9 ca nặng phải chuyển viện bao gồm hai bệnh nhi nguy kịch. Chiều 2/5, Bệnh viện Đa khoa Long Khánh tiếp nhận thêm các bệnh nhân có dấu hiệu ngộ độc sau khi ăn bánh mì Băng vào chiều 30/4. Tình trạng quá tải buộc nơi này phải mở thêm một đơn vị cấp cứu và điều trị ngộ độc với quy mô 70 giường. \"Số lượng bệnh nhân tăng đột biến dẫn đến tình trạng quá tải\", bác sĩ Huyên, Khoa Hồi sức, cho biết, thêm rằng bệnh viện đã huy động tất cả bác sĩ ở nhiều chuyên khoa khác nhau để cấp cứu điều trị hỗ trợ bệnh nhân.

Câu hỏi: Nguyên nhân gây ngộ độc là gì ?<|im_end|>
<|im_start|>assistant
Nguyên nhân gây ngộ độc là do việc ăn bánh mì Băng vào chiều 30/4.<|im_end|>
<|im_start|>user
Tiệm này ở đâu ?<|im_end|>
<|im_start|>assistant
Tiệm bánh mì Bánh Băng ở Long Khai.<|im_end|>

Params: temperature 0.0; top_k 40; min_p 0.05; top_p 0.9

You said that hallucinations may occur when doing reasoning tasks, but this test case is very simple. Am I doing anything wrong? Please help.

Hello, I just tried. this seems more like problem with Quantization (very easy to spell words wrong). I tried the Q8 with no problem

also, remember to set rope_theta = 1000000

one more thing, I messed up with the upload yesterday, I reuploaded a fix version yesterday's night. You should redownload if you havent

i tried again with even longer context. I think you should add "Trả lời câu hỏi dưới đây dựa trên nội dụng đã cho ở trên".
image.png

@qnguyen3 Thanks for your quick response! Unfortunately, the result remains the same. I downloaded the q4 version and then tested with your prompt, but nothing changed.
Here is the result:

<|im_start|>system
Bạn là một trợ lí AI hữu ích.<|im_end|>
<|im_start|>user
Nội dung:
ĐỒNG NAI - Số ca nghi ngộ độc ở TP Long Khánh tính đến 16h chiều nay là 328 người, trong đó 9 ca nặng phải chuyển viện bao gồm hai bệnh nhi nguy kịch. Chiều 2/5, Bệnh viện Đa khoa Long Khánh tiếp nhận thêm các bệnh nhân có dấu hiệu ngộ độc sau khi ăn bánh mì Băng vào chiều 30/4. Tình trạng quá tải buộc nơi này phải mở thêm một đơn vị cấp cứu và điều trị ngộ độc với quy mô 70 giường. "Số lượng bệnh nhân tăng đột biến dẫn đến tình trạng quá tải", bác sĩ Huyên, Khoa Hồi sức, cho biết, thêm rằng bệnh viện đã huy động tất cả bác sĩ ở nhiều chuyên khoa khác nhau để cấp cứu điều trị hỗ trợ bệnh nhân.

Hãy trả lời câu hỏi dưới đây dựa vào nội dung đã cho
Câu hỏi: Tiệm bánh nằm ở đâu?<|im_end|>
<|im_start|>assistant
Tiệm bánh nằm ở Long Khê.<|im_end|>

Is there any chance that the difference stems from the version of llama.cpp? I pulled the latest docker image ghcr.io/ggerganov/llama.cpp:server-cuda yesterday. Maybe you could try it out.

@qnguyen3 Using Hermes-2-Pro-Llama-3-8B-Q5_K_M.gguf, the answer Tiệm bánh Băng nằm ở TP Long Khánh. is correct with the same prompt.

I think this is more like a problem with GGUF, are you using full GPU for inference or just CPU, or shared?

I used two Tesla T4 GPUs

Sign up or log in to comment