Update README.md
Browse files
README.md
CHANGED
@@ -74,14 +74,11 @@ model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_re
|
|
74 |
# model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="cuda")
|
75 |
processor = AutoProcessor.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True)
|
76 |
|
77 |
-
|
78 |
-
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
|
79 |
|
80 |
-
prompt = "
|
81 |
# prompt = "Detaylı açıkla" # detailed caption
|
82 |
-
# prompt = "
|
83 |
-
# prompt = "Resmin odak noktası nedir?" # visual qa
|
84 |
-
# prompt = "Araba nerede duruyor?" # visual qa
|
85 |
|
86 |
inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
|
87 |
|
@@ -95,23 +92,22 @@ You can also perform batch inference as follows (make sure that all images have
|
|
95 |
|
96 |
```python
|
97 |
from transformers import AutoModelForCausalLM, AutoProcessor
|
98 |
-
import torch
|
99 |
-
import requests
|
100 |
from PIL import Image
|
101 |
|
102 |
-
model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-
|
103 |
# you can also load the model in bfloat16 or float16
|
104 |
-
# model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-
|
105 |
-
processor = AutoProcessor.from_pretrained('ucsahin/TraVisionLM-
|
|
|
106 |
|
107 |
-
|
108 |
-
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
|
109 |
|
110 |
prompt_list = [
|
111 |
-
'
|
112 |
'Detaylı açıkla',
|
113 |
-
'
|
114 |
-
'
|
|
|
115 |
]
|
116 |
|
117 |
inputs = processor(text=prompt_list, images=len(prompt_list)*[image], padding="longest", return_tensors="pt").to("cuda")
|
@@ -124,26 +120,30 @@ for output_text in output_text_list:
|
|
124 |
print(f"Model response: {output_text}\n\n\n")
|
125 |
```
|
126 |
|
127 |
-
The
|
|
|
|
|
|
|
128 |
```
|
129 |
"""
|
130 |
-
Model response:
|
131 |
-
|
132 |
-
|
133 |
|
134 |
|
135 |
Model response: Detaylı açıkla
|
136 |
-
Bu
|
137 |
|
138 |
|
|
|
|
|
139 |
|
140 |
-
Model response: Araba nerede duruyor?
|
141 |
-
Araba, sarı bir binanın yanında sokakta park edilmiş.
|
142 |
|
|
|
|
|
143 |
|
144 |
|
145 |
-
Model response:
|
146 |
-
|
147 |
"""
|
148 |
```
|
149 |
|
|
|
74 |
# model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="cuda")
|
75 |
processor = AutoProcessor.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True)
|
76 |
|
77 |
+
image = Image.open("galata.jpg").convert("RGB")
|
|
|
78 |
|
79 |
+
prompt = "Resimde gösterilen yapı hangi şehirdedir?" # short caption
|
80 |
# prompt = "Detaylı açıkla" # detailed caption
|
81 |
+
# prompt = "Kısaca açıkla" # short caption
|
|
|
|
|
82 |
|
83 |
inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
|
84 |
|
|
|
92 |
|
93 |
```python
|
94 |
from transformers import AutoModelForCausalLM, AutoProcessor
|
|
|
|
|
95 |
from PIL import Image
|
96 |
|
97 |
+
model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True, device_map="cuda")
|
98 |
# you can also load the model in bfloat16 or float16
|
99 |
+
# model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="cuda")
|
100 |
+
processor = AutoProcessor.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True)
|
101 |
+
|
102 |
|
103 |
+
image = Image.open("galata.jpg").convert("RGB")
|
|
|
104 |
|
105 |
prompt_list = [
|
106 |
+
'Kısaca açıkla',
|
107 |
'Detaylı açıkla',
|
108 |
+
'Resimde ne görünüyor?',
|
109 |
+
'Gündüz vakti mi yoksa akşam vakti mi?',
|
110 |
+
'Resimde ilgi çekici unsurlar nelerdir?',
|
111 |
]
|
112 |
|
113 |
inputs = processor(text=prompt_list, images=len(prompt_list)*[image], padding="longest", return_tensors="pt").to("cuda")
|
|
|
120 |
print(f"Model response: {output_text}\n\n\n")
|
121 |
```
|
122 |
|
123 |
+
The image used for code examples above:
|
124 |
+
![image info](galata.jpg)
|
125 |
+
|
126 |
+
Then, the output will look like this:
|
127 |
```
|
128 |
"""
|
129 |
+
Model response: Kısaca açıkla
|
130 |
+
Görsel, İstanbul'un Beyoğlu ilçesinde yer alan Galata Kulesi'ni göstermektedir. Bu kule, tarihi boyunca çeşitli mimari tarzlar ve estetik anlayışlarla öne çıkmaktadır.
|
|
|
131 |
|
132 |
|
133 |
Model response: Detaylı açıkla
|
134 |
+
Görselde, İstanbul'un tarihi yarımadasında yer alan Galata Kulesi dikkat çekiyor. Bu kule, hem mimari yapısı hem de tarihî önemi ile bölgenin önemli bir simgesi olarak öne çıkıyor. Kule, dönemin karakteristik özelliklerini taşırken, özellikle Osmanlı dönemine ait süslemeleri ve zarif hatlarıyla göz alıcı bir görünüme sahip.Kulenin üst kısmında, altın rengi bir kubbe yükseliyor; bu kubbenin ortasında belirgin bir şekilde yer alan detaylar, hem estetik açıdan hoş görünmekte hem de şehrin kültürel zenginliğini artırmaktadır.Kale etrafında ise çeşitli yapılar sıralanmış durumda. Bu yapıların mimarisi, farklı dönemlerden izler taşıyor gibi görünüyor; bazıları taşlardan inşa edilmişken, diğerleri daha modern tasarımlarla bezeli. Ayrıca, su yolu boyunca uzanan şehir manzarası, kentin dinamik yapısını ve denizle olan bağlantısını vurguluyor.Gece saatlerinde çekilmiş olan bu görüntüde, sıcak tonlardaki ışıkların ve gölgelerin oluşturduğu büyüleyici bir atmosfer hâkim. Bu durum, şehrin doğal güzelliklerinin yanı sıra, tarihsel dokusu ve kültürel zenginlikleri üzerinde düşünmeye davet ediyor. Tüm bu unsurlar, İstanbul’un kozmopolit yapısını ve kültürel çeşitliliğini gözler önüne seriyor.
|
135 |
|
136 |
|
137 |
+
Model response: Resimde ne görünüyor?
|
138 |
+
Görselde, İstanbul'un Beyoğlu ilçesindeki Galata Kulesi yer alıyor. Bu kule, tarihi ve kültürel zenginlikleri ile bilinir. Güneşin batışıyla birlikte sıcak tonlarda ışıkların yayıldığı bu alan, şehrin kozmopolit yapısını gözler önüne seriyor. Ayrıca, su kenarında inşa edilmiş binalar, hem tarihi dokunun hem de modern hayatın birleşimini sergiliyor.
|
139 |
|
|
|
|
|
140 |
|
141 |
+
Model response: Gündüz vakti mi yoksa akşam vakti mi?
|
142 |
+
Görseldeki ışıklandırma ve renk tonları, günün ilerleyen saatlerini işaret ediyor gibi görünüyor. Bu durum, şehir manzarasını daha da çekici kılıyor.
|
143 |
|
144 |
|
145 |
+
Model response: Resimde ilgi çekici unsurlar nelerdir?
|
146 |
+
Görselde dikkat çeken unsurlardan biri, tarihî ve kültürel önemi olan Galata Kulesi'dir. Kule, hem mimari yapısı hem de çevresindeki tarihi yapılarla birlikte, İstanbul'un önemli bir simgesi olarak öne çıkmaktadır. Ayrıca, gün batımı esnasında oluşan atmosferin ışığı, şehrin canlılığını artırmakta ve bu özel anın görsel zenginliğini artırmaktadır. Bu unsurlar, İstanbul'un sosyal ve ekonomik yapısını gözler önüne sermektedir.
|
147 |
"""
|
148 |
```
|
149 |
|