# 推論テストコード

運営様より提供されているテストコードをベースにした推論用コードです。unslothを使用しますが、conda環境を作らなければ動作しませんので、ご注意ください。
12-16 (2024)

## 環境構築例

```bash
# install conda
curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
bash Miniforge3-$(uname)-$(uname -m).sh


source ~/miniforge3/etc/profile.d/mamba.sh

mamba create --name unsloth_env \
 python=3.10 \
 pytorch-cuda=12.1 \
 pytorch cudatoolkit xformers -c pytorch -c nvidia -c xformers \
 -y
 
mamba activate unsloth_env

pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

pip install --no-deps "trl<0.9.0" peft accelerate bitsandbytes

pip install ipykernel

ipython kernel install --name=unsloth --display-name=unsloth
```

上記環境構築後、`unsloth`カーネルで本jupyter notebookを動作させてください。

In [7]:
from unsloth import FastLanguageModel
from peft import PeftModel
import torch
import json
from tqdm import tqdm
import re
import datasets

## モデル読み込み

In [2]:
model_id = "llm-jp/llm-jp-3-13b"
adapter_id = "poprap/llm-jp-3-13b-it-2-3"
adapter_dpo_id = "poprap/llm-jp-3-13b-dpo"

In [3]:
HF_TOKEN = "" 

In [4]:
# unslothのFastLanguageModelで元のモデルをロード。
dtype = None # Noneにしておけば自動で設定
load_in_4bit = True # 今回は13Bモデルを扱うためTrue

model, tokenizer = FastLanguageModel.from_pretrained(
 model_name=model_id,
 dtype=dtype,
 load_in_4bit=load_in_4bit,
 trust_remote_code=True,
)

Are you certain you want to do remote code execution?
==((====))== Unsloth 2024.12.4: Fast Llama patching. Transformers:4.46.3.
 \\ /| GPU: NVIDIA L4. Max memory: 21.964 GB. Platform: Linux.
O^O/ \_/ \ Torch: 2.5.1. CUDA: 8.9. CUDA Toolkit: 12.1. Triton: 3.1.0
\ / Bfloat16 = TRUE. FA [Xformers = 0.0.28.post3. FA2 = False]
 "-____-" Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Downloading shards: 100%|██████████| 6/6 [01:38<00:00, 16.49s/it]
Loading checkpoint shards: 100%|██████████| 6/6 [00:09<00:00, 1.61s/it]


In [5]:
# 元のモデルにLoRAのアダプタを統合。
model = PeftModel.from_pretrained(model, adapter_id, token = HF_TOKEN)
model = PeftModel.from_pretrained(model, adapter_dpo_id, token = HF_TOKEN)

## タスクjsonlの読み込み

In [9]:
ds = []

with open("elyza-tasks-100-TV_0.jsonl", "r") as f:
 item = ""
 for line in f:
 line = line.strip()
 item += line
 if item.endswith("}"):
 ds.append(json.loads(item))
 item = ""

In [10]:
ds[0]

{'task_id': 0, 'input': '野球選手が今シーズン活躍するために取り組むべき5つのことを教えてください。'}

## 推論 

何度か試したところ推論に要する時間はまちまちです。サーバーのリソースの問題でしょうか。
一時間はかかりません。

In [15]:
# 推論するためにモデルのモードを変更
FastLanguageModel.for_inference(model)

results = []
for dt in tqdm(ds):
 input = dt["input"]

 prompt = f"""### 指示\n{input}\n### 回答\n"""

 inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)

 outputs = model.generate(
 **inputs,
 max_new_tokens=1024,
 use_cache = True, 
 do_sample=False, 
 repetition_penalty=1.2
 )
 prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
 
 results.append({"task_id": dt['task_id'], "input": input, "output": prediction})

100%|██████████| 100/100 [14:17<00:00, 8.58s/it]


In [20]:
json_file_id = re.sub(".*/", "", adapter_id)
with open(f"{json_file_id}_output.jsonl", 'w', encoding='utf-8') as f:
 for result in results:
 json.dump(result, f, ensure_ascii=False)
 f.write('\n')