これは、Sdff-LtbaさんのLightChatAssistant-2x7Bモデルをexl2量子化したものです。
Q4 cacheモードによる、32kのContextSize対応、8.0bpw量子化でVRAM16GBでフルロード可能です。
Unable to determine this model's library. Check the
docs
.
これは、Sdff-LtbaさんのLightChatAssistant-2x7Bモデルをexl2量子化したものです。
Q4 cacheモードによる、32kのContextSize対応、8.0bpw量子化でVRAM16GBでフルロード可能です。