--- license: apache-2.0 tags: - qwen language: - ja - en --- # shisa-v1-qwen2-7b-gguf (English explanation is below.) [shisa-aiさんが公開しているshisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b)のggufフォーマット変換版です。 # Notice * 現在、qwen2-7B系列を基にしたモデルをGGUF形式で動かそうとすると、出力が壊れてしまうバグが出ています。Flash Attentionを有効化して動かすと回避できます。 * LMStudioであれば、PresetからFlash Attentionを有効化してください。 * Llama.cppであれば、以下の手順で対応してください: 1. 以下のコマンドでビルドします: ``` make LLAMA_CUDA_FA_ALL_QUANTS=true GGML_CUDA=1 ``` 2. 以下のようなコマンドでFlashAttentionを有効化して実行します: ``` ./llama-server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa ``` # shisa-v1-qwen2-7b-gguf This is a gguf format conversion of [shisa-v1-qwen2-7b](https://huggingface.co/shisa-ai/shisa-v1-qwen2-7b) published by shisa-ai. # Notice * Currently, there is a bug where the output gets corrupted when trying to run models based on the qwen2-7B series in GGUF format. This can be avoided by enabling Flash Attention. * If using LMStudio, please enable Flash Attention from the Preset. * If using Llama.cpp, please follow these steps: 1. Build with the following command: ``` make LLAMA_CUDA_FA_ALL_QUANTS=true GGML_CUDA=1 ``` 2. Run with Flash Attention enabled using a command like this: ``` ./llama-server -m ./models/shisa-v1-qwen2-7b.Q8_0.gguf -ngl 99 --port 8888 -fa ```