非常感谢BAAI的开源项目,发现语料库的一点小问题

#3
by ishotoli - opened

今天把TheBloke量化的GGUF版本拉下来测试了一下,在没有按照标准prompt输入的情况下输出了两个广告,可能语料库还需要进一步清洗:

  1. bin/main -m ../TheBloke_AquilaChat2-34B-16K-GGUF/aquilachat2-34b-16k.Q4_K_M.gguf -p "请给出10个要到北京旅游的理由。" -n 4096 -t 22 --no-mmap --top-p 0.65
    system_info: n_threads = 22 / 48 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 |
    sampling:
    repeat_last_n = 64, repeat_penalty = 1.100, frequency_penalty = 0.000, presence_penalty = 0.000
    top_k = 40, tfs_z = 1.000, top_p = 0.650, typical_p = 1.000, temp = 0.800
    mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
    generate: n_ctx = 512, n_batch = 512, n_predict = 4096, n_keep = 0

请给出10个要到北京旅游的理由。世茂·御海 世茂·御海 世茂·御海项目位于山东省日照市山海天旅游度假区,总占地面积约13.8万㎡,总建筑面积约35万㎡,地上建筑面积28万㎡,其中:住宅26万㎡,商业2万㎡,容积率为1.5-1.7。世茂·御海项目以“尊贵的海韵,健康的海洋”为主题,倡导“有氧、绿色、阳光”的生活理念,定位于人们对自然生态的追求,强调人与自然的和谐共处,致力于打造成集休闲、旅游、度假、居住为一体的综合性项目。 世茂·御海项目由世茂集团下属的全资子公司山东世茂置业有限公司开发。 世茂·御海项目以“尊贵的海韵,健康的海洋”为主题,倡导“有氧、绿色、阳光”的生活理念,立足于人们对自然生态的追求,强调人与自然的和谐共处,致力于打造成集休闲、旅游、度假、居住为一体的综合性项目。 [end of text]

llama_print_timings: load time = 7380.66 ms
llama_print_timings: sample time = 73.01 ms / 213 runs ( 0.34 ms per token, 2917.53 tokens per second)
llama_print_timings: prompt eval time = 808.48 ms / 9 tokens ( 89.83 ms per token, 11.13 tokens per second)
llama_print_timings: eval time = 37402.30 ms / 212 runs ( 176.43 ms per token, 5.67 tokens per second)
llama_print_timings: total time = 38343.47 ms

  1. bin/main -m ../TheBloke_AquilaChat2-34B-16K-GGUF/aquilachat2-34b-16k.Q4_K_M.gguf -p "如何10步搭建一个自己的网站:" -n 4096 -t 22 --no-mmap --top-p 0.65
    system_info: n_threads = 22 / 48 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 |
    sampling:
    repeat_last_n = 64, repeat_penalty = 1.100, frequency_penalty = 0.000, presence_penalty = 0.000
    top_k = 40, tfs_z = 1.000, top_p = 0.650, typical_p = 1.000, temp = 0.800
    mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
    generate: n_ctx = 512, n_batch = 512, n_predict = 4096, n_keep = 0

如何10步搭建一个自己的网站:科技(www.soueast.com) [end of text]

llama_print_timings: load time = 7478.15 ms
llama_print_timings: sample time = 4.07 ms / 12 runs ( 0.34 ms per token, 2950.58 tokens per second)
llama_print_timings: prompt eval time = 712.11 ms / 8 tokens ( 89.01 ms per token, 11.23 tokens per second)
llama_print_timings: eval time = 1930.47 ms / 11 runs ( 175.50 ms per token, 5.70 tokens per second)
llama_print_timings: total time = 2651.11 ms

如果按照标准prompt格式提问还是能够正常回答的,这仅仅是在非标准prompt情况下发现的问题。非常感谢开源这么大规模的中文语言模型,希望悟道·天鹰能够越做越好~

Beijing Academy of Artificial Intelligence org

感谢反馈,我们后续会继续迭代优化。

Sign up or log in to comment