File size: 6,725 Bytes

feb57de
634b601
 
 
17b3b21
 
feb57de
 
634b601
feb57de
 
 
634b601
b8bccaf
634b601
feb57de
 
 
 
 
634b601
 
 
 
b8bccaf
feb57de
 
 
 
 
634b601
feb57de
c4d83c0
 
b8bccaf
 
 
1198bed
 
3ce34f4
b8bccaf
c4d83c0
634b601
 
 
feb57de
634b601
 
feb57de
634b601
feb57de
634b601
 
 
 
c4d83c0
634b601
feb57de
634b601
feb57de
2854ae6
634b601
 
 
 
feb57de
634b601
 
 
feb57de
634b601
 
feb57de
634b601
 
feb57de
0bffffd
634b601
feb57de
634b601
 
feb57de
634b601
feb57de
634b601
c4d83c0
0bffffd
 
 
 
 
 
 
 
1198bed
8ad47b6
1198bed
 
 
 
 
 
 
0bffffd
c4d83c0
 
 
 
 
 
634b601
feb57de

---
language:
- ko
- en
license: cc-by-nc-sa-4.0
library_name: transformers
---

# Llama-3-KoEn-8B-xtuner-llava-preview 🌋

<!-- Provide a quick summary of what the model is/does. -->

Llama-3-KoEn-8B-xtuner-llava-preview 🌋 is Korean based MutliModal based on Llava architecture, merged with [ChatVector](https://arxiv.org/abs/2310.04799) methods leveraging 2 models: 
1) [beomi/Llama-3-KoEn-8B-preview](https://huggingface.co/beomi/Llama-3-KoEn-8B-preview)
2) [xtuner/llava-llama-3-8b-transformers](https://huggingface.co/xtuner/llava-llama-3-8b-transformers)

## Model Details

### Model Description

- **Developed by:** Junbum Lee (Beomi)
- **Model type:** HuggingFace Llava 🌋
- **Language(s) (NLP):** Korean, English
- **License:** cc-by-nc-sa-4.0 under Llama3 License
- **Merged from model:** [beomi/Llama-3-KoEn-8B-preview](https://huggingface.co/beomi/Llama-3-KoEn-8B-preview) & [xtuner/llava-llama-3-8b-transformers](https://huggingface.co/xtuner/llava-llama-3-8b-transformers)

### Direct Use

<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->

![Cat walking on frozen Han-River, Seoul](https://cdn-uploads.huggingface.co/production/uploads/5e56829137cb5b49818287ea/NWfoArWI4UPAxpEnolkwT.jpeg)

> Two version recommended
>
> v1. `revision='a38aac3'`: Basic ChatVector, with [25B+ trained KoEn ckpt(rev. d4d25a2)](https://huggingface.co/beomi/Llama-3-KoEn-8B-preview/commit/d4d25a2).
>
> v1-1. `revision='0224971'`: Basic ChatVector, with [40B+ trained KoEn ckpt(rev. ad39b32)](https://huggingface.co/beomi/Llama-3-KoEn-8B-preview/commit/ad39b32cd4207f37f61f16e79d3f4020c5b744ef).
>
> v1-2. `revision='170746c'`: Basic ChatVector, with [80B+ trained KoEn ckpt(rev. b4c45ab)](https://huggingface.co/beomi/Llama-3-KoEn-8B-preview/commit/b4c45ab3355c6ccb9bb1ecdf8a75ded4d6620c7e).
> 
> v2. `revision='4f04d1e'`: Model diff based merging(ref. https://huggingface.co/blog/maywell/llm-feature-transfer), with [25B+ trained KoEn ckpt(rev. d4d25a2)](https://huggingface.co/beomi/Llama-3-KoEn-8B-preview/commit/d4d25a2).

```python
import requests
from PIL import Image

import torch
from transformers import AutoProcessor, LlavaForConditionalGeneration

model_id = "beomi/Llama-3-KoEn-8B-xtuner-llava-preview"

model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype='auto', 
    device_map='auto',
    revision='a38aac3', # 'a38aac3' for basic ChatVector, '4f04d1e' for Model diff based merging(ref. https://huggingface.co/blog/maywell/llm-feature-transfer)
)

processor = AutoProcessor.from_pretrained(model_id)

tokenizer = processor.tokenizer
terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

prompt = ("<|start_header_id|>user<|end_header_id|>\n\n<image>\n이 이미지에 대해서 설명해주세요.<|eot_id|>"
          "<|start_header_id|>assistant<|end_header_id|>\n\n이 이미지에는")
image_file = "https://cdn-uploads.huggingface.co/production/uploads/5e56829137cb5b49818287ea/NWfoArWI4UPAxpEnolkwT.jpeg"

raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16)

output = model.generate(**inputs, max_new_tokens=400, do_sample=True, eos_token_id=terminators,)
print(processor.decode(output[0][2:], skip_special_tokens=False))

# --- Example Output [v1, Chat Vector] ---
user<|end_header_id|>

<image>
이 이미지에 대해서 설명해주세요.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

이 이미지에는 고양이 한 마리가 강물 위를 걸어가는 모습이 보여집니다. 고양이는 강물의 잔물결에 미끄럼을 타고 강 가로를 지나는 데 능숙하게 보입니다. 고양이의 발은 강물로 잘 들어가, 그것을 즐기며 걸어갑니다. 

또한 이 이미지도 음성 녹음을 하거나 녹화된 자료로 제작되었으며, 주로 고양이의 모습을 강하게 보여줍니다. 소리 효과도 여러 가지로 추가하여 고양이의 스토리를 다양하게 전달합니다. 강물은 잔물결을 나타내며 강물 위를 걷는 고양이의 모습을 더욱 강렬하게 강조하기 위해 잔물결을 통해 더 디테일한 장면을 보여줍니다.<|eot_id|>

# --- Example Output [v1-1, Chat Vector] ---
user<|end_header_id|>

<image>
이 이미지에 대해서 설명해주세요.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

이 이미지에서는 한 고양이가 서해안에 위치한 바다를 걷고 있는 모습을 볼 수 있습니다. 고양이는 해변에서부터 바다로 걸어들어가는 중이며, 주변에는 잔잔한 파도가 밀려오는 모습을 보여주고 있습니다. 이 고양이는 태어날 때부터 고양이와 강아지와는 다르게 바다를 경험하고, 적응해가고 있습니다. 고양이는 바다를 좋아하고, 이 환경에서 행복을 느끼는 것 같습니다. 이 고양이는 인간이 아닌 자연의 일부로써 이 환경에서 살아가고 있습니다.<|eot_id|>

# --- Example Output [v1-2, Chat Vector] ---
# model.generate(**inputs, max_new_tokens=200, do_sample=True, top_p=0.7, eos_token_id=terminators,)
user<|end_header_id|>

<image>
이 이미지에 대해서 설명해주세요.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

이 이미지는 한 고양이가 물 위를 걷고 있는 모습을 포착한 사진입니다. 고양이는 두 발로 물 위를 걸어 가고 있습니다. 고양이는 4개의 발 중 2개의 발은 물에 빠지지 않고 2개의 발은 물에 빠져 있습니다. 고양이의 발이 빠진 부분은 반영되어 물에 비쳐 있습니다. 물 위를 걷는 고양이의 모습이 참으로 귀엽고 사랑스럽습니다. 이 사진은 KBS 동물의 왕국에서 방영되었습니다. KBS 동물의 왕국은 1985년부터 시작하여 2019년까지 34년 동안 방영된 KBS의 대표적인 자연 다큐멘터리 프로그램입니다. KBS 동물의 왕국은 동물의 생태와 습성, 행동, 그리고 자연 환경을 이해하고 보호하는 데 기여하고자 합니다.

# --- Example Output [v2, Model diff based merging] ---
user<|end_header_id|>

<image>
이 이미지에 대해서 설명해주세요.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

이 이미지에는 한국어 자막과 함께 고양이가 물에 발을 디디고 걷는 모습이 담겨 있습니다. 고양이는 오른쪽 발을 물에 담그고 걷는 중이며, 한국어 자막은 "고양이는 물을 좋아합니다"라는 문장을 포함하고 있습니다. 이 자막은 고양이가 물을 좋아하는 것을 강조하고 있습니다.<|eot_id|>
```