## About ELYZA-japanese-Llama-2-13b-fast-instruct を4bitで量子化したモデルです。 ref: https://huggingface.co/elyza/ELYZA-japanese-Llama-2-13b-fast-instruct/blob/main/README.md オリジナルはRTX4090でも扱いが難しかったですが、10秒ほどで出力できます。 精度は未計測。 量子化の詳細はconfig.jsonを参照してください。 コードはquantize.pyです。 ## Test elyza/ELYZA-tasks-100 の実行結果 → task100.csv 実行時間 開始: 2024-05-09 03:49:30.779783 終了: 2024-05-09 03:56:56.380691 ## LICENSE LICENSE: LLAMA2