BAAI/AquilaChat2-34B-16K · 非常感谢BAAI的开源项目，发现语料库的一点小问题

今天把TheBloke量化的GGUF版本拉下来测试了一下，在没有按照标准prompt输入的情况下输出了两个广告，可能语料库还需要进一步清洗：

bin/main -m ../TheBloke_AquilaChat2-34B-16K-GGUF/aquilachat2-34b-16k.Q4_K_M.gguf -p "请给出10个要到北京旅游的理由。" -n 4096 -t 22 --no-mmap --top-p 0.65
system_info: n_threads = 22 / 48 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 |
sampling:
repeat_last_n = 64, repeat_penalty = 1.100, frequency_penalty = 0.000, presence_penalty = 0.000
top_k = 40, tfs_z = 1.000, top_p = 0.650, typical_p = 1.000, temp = 0.800
mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
generate: n_ctx = 512, n_batch = 512, n_predict = 4096, n_keep = 0

请给出10个要到北京旅游的理由。世茂·御海世茂·御海世茂·御海项目位于山东省日照市山海天旅游度假区，总占地面积约13.8万㎡，总建筑面积约35万㎡，地上建筑面积28万㎡，其中：住宅26万㎡，商业2万㎡，容积率为1.5-1.7。世茂·御海项目以“尊贵的海韵，健康的海洋”为主题，倡导“有氧、绿色、阳光”的生活理念，定位于人们对自然生态的追求，强调人与自然的和谐共处，致力于打造成集休闲、旅游、度假、居住为一体的综合性项目。世茂·御海项目由世茂集团下属的全资子公司山东世茂置业有限公司开发。世茂·御海项目以“尊贵的海韵，健康的海洋”为主题，倡导“有氧、绿色、阳光”的生活理念，立足于人们对自然生态的追求，强调人与自然的和谐共处，致力于打造成集休闲、旅游、度假、居住为一体的综合性项目。 [end of text]

llama_print_timings: load time = 7380.66 ms
llama_print_timings: sample time = 73.01 ms / 213 runs ( 0.34 ms per token, 2917.53 tokens per second)
llama_print_timings: prompt eval time = 808.48 ms / 9 tokens ( 89.83 ms per token, 11.13 tokens per second)
llama_print_timings: eval time = 37402.30 ms / 212 runs ( 176.43 ms per token, 5.67 tokens per second)
llama_print_timings: total time = 38343.47 ms

bin/main -m ../TheBloke_AquilaChat2-34B-16K-GGUF/aquilachat2-34b-16k.Q4_K_M.gguf -p "如何10步搭建一个自己的网站：" -n 4096 -t 22 --no-mmap --top-p 0.65
system_info: n_threads = 22 / 48 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 |
sampling:
repeat_last_n = 64, repeat_penalty = 1.100, frequency_penalty = 0.000, presence_penalty = 0.000
top_k = 40, tfs_z = 1.000, top_p = 0.650, typical_p = 1.000, temp = 0.800
mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
generate: n_ctx = 512, n_batch = 512, n_predict = 4096, n_keep = 0

如何10步搭建一个自己的网站：科技（www.soueast.com） [end of text]

llama_print_timings: load time = 7478.15 ms
llama_print_timings: sample time = 4.07 ms / 12 runs ( 0.34 ms per token, 2950.58 tokens per second)
llama_print_timings: prompt eval time = 712.11 ms / 8 tokens ( 89.01 ms per token, 11.23 tokens per second)
llama_print_timings: eval time = 1930.47 ms / 11 runs ( 175.50 ms per token, 5.70 tokens per second)
llama_print_timings: total time = 2651.11 ms

如果按照标准prompt格式提问还是能够正常回答的，这仅仅是在非标准prompt情况下发现的问题。非常感谢开源这么大规模的中文语言模型，希望悟道·天鹰能够越做越好～