visheratin
/

MC-LLaVA-3b

Inference Endpoints

Model card Files Files and versions Community

Update README.md

#1

by Abhaykoul - opened Jan 8, 2024

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +8 -7

README.md CHANGED Viewed

@@ -8,6 +8,7 @@ tags:
 - llava
 - phi
 license: mit
 ---
 # LLaVA-3b
@@ -40,13 +41,13 @@ You are Dolphin, a helpful AI assistant.<|im_end|>
 **Install dependencies**
-```
 !pip install -q open_clip_torch timm einops
 ```
 **Download modeling files**
-```
 from huggingface_hub import hf_hub_download
 hf_hub_download(repo_id="visheratin/LLaVA-3b", filename="configuration_llava.py", local_dir="./", force_download=True)
@@ -58,7 +59,7 @@ hf_hub_download(repo_id="visheratin/LLaVA-3b", filename="processing_llava.py", l
 **Create a model**
-```
 from modeling_llava import LlavaForConditionalGeneration
 import torch
@@ -68,7 +69,7 @@ model = model.to("cuda")
 **Create processors**
-```
 from transformers import AutoTokenizer
 from processing_llava import LlavaProcessor, OpenCLIPImageProcessor
@@ -79,7 +80,7 @@ processor = LlavaProcessor(image_processor, tokenizer)
 **Set image and text**
-```
 from PIL import Image
 import requests
@@ -99,7 +100,7 @@ Describe the image.<|im_end|>
 **Process inputs**
-```
 inputs = processor(prompt, raw_image, model, return_tensors='pt')
 inputs['input_ids'] = inputs['input_ids'].to(model.device)
@@ -108,7 +109,7 @@ inputs['attention_mask'] = inputs['attention_mask'].to(model.device)
 **Generate the data**
-```
 output = model.generate(**inputs, max_new_tokens=200, do_sample=True, top_p=0.5, temperature=1.2, eos_token_id=tokenizer.eos_token_id)
 ```

 - llava
 - phi
 license: mit
+library_name: transformers
 ---
 # LLaVA-3b
 **Install dependencies**
+```bash
 !pip install -q open_clip_torch timm einops
 ```
 **Download modeling files**
+```python
 from huggingface_hub import hf_hub_download
 hf_hub_download(repo_id="visheratin/LLaVA-3b", filename="configuration_llava.py", local_dir="./", force_download=True)
 **Create a model**
+```python
 from modeling_llava import LlavaForConditionalGeneration
 import torch
 **Create processors**
+```python
 from transformers import AutoTokenizer
 from processing_llava import LlavaProcessor, OpenCLIPImageProcessor
 **Set image and text**
+```python
 from PIL import Image
 import requests
 **Process inputs**
+```python
 inputs = processor(prompt, raw_image, model, return_tensors='pt')
 inputs['input_ids'] = inputs['input_ids'].to(model.device)
 **Generate the data**
+```python
 output = model.generate(**inputs, max_new_tokens=200, do_sample=True, top_p=0.5, temperature=1.2, eos_token_id=tokenizer.eos_token_id)
 ```