# AWS Inferentia2を用いたstockmark/stockmark-13bの推論

このノートブックでは、`AWS Inferentia2`上で`stockmark-13b`の推論を実行する方法について説明します。

## Setup

`AWS Inferentia2`を搭載した`AMAZON EC2 inf2`インスタンスを起動します。AMIは`Deep Learning AMI Neuron PyTorch 1.13`の最新版を、インスタンスタイプは`inf2.8xlarge`を選びます。より高い推論パフォーマンスを得るために、`inf2.24xlarge`や`inf2.48xlarge`などの大きなインスタンスタイプを用いることもできます。

参考:[Get Started with Latest Release of PyTorch Neuron (torch-neuronx)](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/setup/neuron-setup/pytorch/neuronx/ubuntu/torch-neuronx-ubuntu20-pytorch-dlami.html#setup-torch-neuronx-ubuntu20-dlami-pytorch)

インスタンスの起動後にインスタンスに接続し、まず仮想環境を作成します。

`source /opt/aws_neuron_venv_pytorch/bin/activate`

その後に、`transformers-neuronx`のライブラリをインストールします。

`pip install transformers-neuronx --extra-index-url=https://pip.repos.neuron.amazonaws.com`

参考:[Transformers NeuronX (transformers-neuronx)](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/libraries/transformers-neuronx/index.html)

## Quickstart

以下では、`AWS Inferentia2`上で`stockmark-13b`の推論(テキスト生成)を行うコードを紹介します。このノートブックは以下のチュートリアルをもとに作成しました。詳しくはこちらもご覧ください。

参考:[Run Hugging Face meta-llama/Llama-2-13b autoregressive sampling on Inf2 & Trn1](https://github.com/aws-neuron/aws-neuron-samples/blob/master/torch-neuronx/transformers-neuronx/inference/meta-llama-2-13b-sampling.ipynb)

`transformers-neuronx`を用いて推論を行うためには、事前にモデルファイルをライブラリに対応した形式に変換しておく必要があります。以下のコードは、`stockmark-13b`のモデルをHuggingface Hubからダウンロードし、`./stockmark-13b-split`というディレクトリに保存します。

In [None]:
import torch
from transformers_neuronx.module import save_pretrained_split
from transformers import LlamaForCausalLM

model = LlamaForCausalLM.from_pretrained('stockmark/stockmark-13b', torch_dtype=torch.bfloat16)
save_pretrained_split(model, './stockmark-13b-split')

コードが終了したらJupyterLabのカーネルを再起動してください。

次のコードで、`stockmark-13b`の推論を実行することができます。

PyTorchでの推論と異なり、AWS Inferentia2で推論を行うために、計算グラフをコンパイルする必要があり、それに数分程度の時間がかかります。次回以降は、キャッシュされた結果が用いられます。

In [None]:
import os

import torch
from transformers import AutoTokenizer
from transformers_neuronx.llama.model import LlamaForSampling

os.environ['NEURON_CC_FLAGS'] = '-O1'

## load tokenizer
tokenizer = AutoTokenizer.from_pretrained('stockmark/stockmark-13b')

## load model
model = LlamaForSampling.from_pretrained("./stockmark-13b-split", batch_size=1, tp_degree=2, amp='f16')
model.to_neuron() # compile

## inference
prompt = "自然言語処理とは?"
inputs = tokenizer(prompt, return_tensors="pt")

with torch.inference_mode():
 tokens = model.sample(inputs.input_ids, temperature = 1.0, sequence_length = 256)
 
generated_text = tokenizer.decode(tokens[0], skip_special_tokens=True)

print(generated_text)

## Tensor parallelism

`transformers-neuronx`のライブラリではテンソル並列化をサポートされています。これにより、モデルを複数のNeuronCoreに配置し、計算を並列に行うことで、推論のパフォーマンスを高めることができます。並列数(いくつのNeuronCoreを用いるか)は、モデルのロードを行う関数`LlamaForSampling.from_pretrained`の引数`tp_degree`から指定することができます。上の例では、`tp_degree=2`を指定しています。

指定可能な`tp_degree`の値は、インスタンスタイプに依存します。大きなインスタンスを用いて、`tp_degree`の値を大きくすることで、latencyを小さくすることができます。

| インスタンスタイプ | 指定可能なtp_degreeの最大数 |
|:---:|:---:|
|inf2.8xlarge|2|
|inf2.24xlarge|12|
|inf2.48xlarge|24|