q8を使用

#2
by jweb - opened

karakuri-lm-70b-chat-v0.1-q8_0.gguf.aとkarakuri-lm-70b-chat-v0.1-q8_0.gguf.bの2つの分割ファイルをダウンロード後
マージして karakuri-lm-70b-chat-v0.1-q8_0.ggufとして使用しました。サイズは73.5GB。
text-generation-webuiとllama.cppで試してみましたが、かなり良好な結果が得られました。
現在、最高性能の日本語LLMの量子化といえます。
weblogに評価結果を上げました。
https://jweb.asia/26-it/ai/94-karakuri-lm-70b-web-ui.html

Sign up or log in to comment