--- language: - ko - en license: cc-by-nc-sa-4.0 library_name: transformers --- # Llama-3-KoEn-8B-xtuner-llava-preview 🌋 Llama-3-KoEn-8B-xtuner-llava-preview 🌋 is Korean based MutliModal based on Llava architecture, merged with [ChatVector](https://arxiv.org/abs/2310.04799) methods leveraging 2 models: 1) [beomi/Llama-3-KoEn-8B-preview](https://huggingface.co/beomi/Llama-3-KoEn-8B-preview), 2) [xtuner/llava-llama-3-8b-transformers](https://huggingface.co/xtuner/llava-llama-3-8b-transformers) ## Model Details ### Model Description - **Developed by:** Junbum Lee (Beomi) - **Model type:** HuggingFace Llava 🌋 - **Language(s) (NLP):** Korean, English - **License:** cc-by-nc-sa-4.0 under Llama3 License - **Merged from model:** [beomi/Llama-3-KoEn-8B-preview](https://huggingface.co/beomi/Llama-3-KoEn-8B-preview) / [xtuner/llava-llama-3-8b-transformers](https://huggingface.co/xtuner/llava-llama-3-8b-transformers) ### Direct Use ![Cat walking on frozen Han-River, Seoul](https://cdn-uploads.huggingface.co/production/uploads/5e56829137cb5b49818287ea/NWfoArWI4UPAxpEnolkwT.jpeg) ```python import requests from PIL import Image import torch from transformers import AutoProcessor, LlavaForConditionalGeneration model_id = "beomi/Llama-3-KoEn-8B-xtuner-llava-preview" model = LlavaForConditionalGeneration.from_pretrained( model_id, torch_dtype='auto', device_map='auto', ) processor = AutoProcessor.from_pretrained(model_id) from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('./llava-llama-3-KoEn-8b-v1_1-transformers') terminators = [ tokenizer.eos_token_id, tokenizer.convert_tokens_to_ids("<|eot_id|>") ] prompt = ("<|start_header_id|>user<|end_header_id|>\n\n\n이 이미지에 대해서 설명해주세요.<|eot_id|>" "<|start_header_id|>assistant<|end_header_id|>\n\n이 이미지에는") image_file = "https://cdn-uploads.huggingface.co/production/uploads/5e56829137cb5b49818287ea/NWfoArWI4UPAxpEnolkwT.jpeg" raw_image = Image.open(requests.get(image_file, stream=True).raw) inputs = processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16) output = model.generate(**inputs, max_new_tokens=400, do_sample=True, eos_token_id=terminators,) print(processor.decode(output[0][2:], skip_special_tokens=False)) # --- Example Output --- user<|end_header_id|> 이 이미지에 대해서 설명해주세요.<|eot_id|><|start_header_id|>assistant<|end_header_id|> 이 이미지에는 고양이 한 마리가 강물 위를 걸어가는 모습이 보여집니다. 고양이는 강물의 잔물결에 미끄럼을 타고 강 가로를 지나는 데 능숙하게 보입니다. 고양이의 발은 강물로 잘 들어가, 그것을 즐기며 걸어갑니다. 또한 이 이미지도 음성 녹음을 하거나 녹화된 자료로 제작되었으며, 주로 고양이의 모습을 강하게 보여줍니다. 소리 효과도 여러 가지로 추가하여 고양이의 스토리를 다양하게 전달합니다. 강물은 잔물결을 나타내며 강물 위를 걷는 고양이의 모습을 더욱 강렬하게 강조하기 위해 잔물결을 통해 더 디테일한 장면을 보여줍니다.<|eot_id|> ```