ucsahin commited on
Commit
6cc624a
1 Parent(s): b6ee975

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +25 -25
README.md CHANGED
@@ -74,14 +74,11 @@ model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_re
74
  # model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="cuda")
75
  processor = AutoProcessor.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True)
76
 
77
- url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
78
- image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
79
 
80
- prompt = "Açıkla" # short caption
81
  # prompt = "Detaylı açıkla" # detailed caption
82
- # prompt = "Araba ne renktir?" # visual qa
83
- # prompt = "Resmin odak noktası nedir?" # visual qa
84
- # prompt = "Araba nerede duruyor?" # visual qa
85
 
86
  inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
87
 
@@ -95,23 +92,22 @@ You can also perform batch inference as follows (make sure that all images have
95
 
96
  ```python
97
  from transformers import AutoModelForCausalLM, AutoProcessor
98
- import torch
99
- import requests
100
  from PIL import Image
101
 
102
- model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-base', trust_remote_code=True, device_map="cuda")
103
  # you can also load the model in bfloat16 or float16
104
- # model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-base', trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="cuda")
105
- processor = AutoProcessor.from_pretrained('ucsahin/TraVisionLM-base', trust_remote_code=True)
 
106
 
107
- url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
108
- image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
109
 
110
  prompt_list = [
111
- 'Açıkla',
112
  'Detaylı açıkla',
113
- 'Araba nerede duruyor?',
114
- 'Arabanın rengi nedir?',
 
115
  ]
116
 
117
  inputs = processor(text=prompt_list, images=len(prompt_list)*[image], padding="longest", return_tensors="pt").to("cuda")
@@ -124,26 +120,30 @@ for output_text in output_text_list:
124
  print(f"Model response: {output_text}\n\n\n")
125
  ```
126
 
127
- The output will look like this:
 
 
 
128
  ```
129
  """
130
- Model response: Açıkla
131
- Bir binanın önünde, sokakta park halindeki mavi bir Volkswagen Beetle.
132
-
133
 
134
 
135
  Model response: Detaylı açıkla
136
- Bu görüntüde, bir taş döşeli sokakta park edilmiş yeşil ve mavi bir Volkswagen Beetle bulunmaktadır. Arka planda iki sarı bina vardır. Araba kameraya doğru bakmaktadır. Görüntü net odaklanmıştır ve renkler canlıdır. Görsel tarzı gerçekçidir.
137
 
138
 
 
 
139
 
140
- Model response: Araba nerede duruyor?
141
- Araba, sarı bir binanın yanında sokakta park edilmiş.
142
 
 
 
143
 
144
 
145
- Model response: Arabanın rengi nedir?
146
- Araba turkuaz veya limon yeşili renktedir.
147
  """
148
  ```
149
 
 
74
  # model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="cuda")
75
  processor = AutoProcessor.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True)
76
 
77
+ image = Image.open("galata.jpg").convert("RGB")
 
78
 
79
+ prompt = "Resimde gösterilen yapı hangi şehirdedir?" # short caption
80
  # prompt = "Detaylı açıkla" # detailed caption
81
+ # prompt = "Kısaca açıkla" # short caption
 
 
82
 
83
  inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
84
 
 
92
 
93
  ```python
94
  from transformers import AutoModelForCausalLM, AutoProcessor
 
 
95
  from PIL import Image
96
 
97
+ model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True, device_map="cuda")
98
  # you can also load the model in bfloat16 or float16
99
+ # model = AutoModelForCausalLM.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="cuda")
100
+ processor = AutoProcessor.from_pretrained('ucsahin/TraVisionLM-DPO', trust_remote_code=True)
101
+
102
 
103
+ image = Image.open("galata.jpg").convert("RGB")
 
104
 
105
  prompt_list = [
106
+ 'Kısaca açıkla',
107
  'Detaylı açıkla',
108
+ 'Resimde ne görünüyor?',
109
+ 'Gündüz vakti mi yoksa akşam vakti mi?',
110
+ 'Resimde ilgi çekici unsurlar nelerdir?',
111
  ]
112
 
113
  inputs = processor(text=prompt_list, images=len(prompt_list)*[image], padding="longest", return_tensors="pt").to("cuda")
 
120
  print(f"Model response: {output_text}\n\n\n")
121
  ```
122
 
123
+ The image used for code examples above:
124
+ ![image info](galata.jpg)
125
+
126
+ Then, the output will look like this:
127
  ```
128
  """
129
+ Model response: Kısaca açıkla
130
+ Görsel, İstanbul'un Beyoğlu ilçesinde yer alan Galata Kulesi'ni göstermektedir. Bu kule, tarihi boyunca çeşitli mimari tarzlar ve estetik anlayışlarla öne çıkmaktadır.
 
131
 
132
 
133
  Model response: Detaylı açıkla
134
+ Görselde, İstanbul'un tarihi yarımadasında yer alan Galata Kulesi dikkat çekiyor. Bu kule, hem mimari yapısı hem de tarihî önemi ile bölgenin önemli bir simgesi olarak öne çıkıyor. Kule, dönemin karakteristik özelliklerini taşırken, özellikle Osmanlı dönemine ait süslemeleri ve zarif hatlarıyla göz alıcı bir görünüme sahip.Kulenin üst kısmında, altın rengi bir kubbe yükseliyor; bu kubbenin ortasında belirgin bir şekilde yer alan detaylar, hem estetik açıdan hoş görünmekte hem de şehrin kültürel zenginliğini artırmaktadır.Kale etrafında ise çeşitli yapılar sıralanmış durumda. Bu yapıların mimarisi, farklı dönemlerden izler taşıyor gibi görünüyor; bazıları taşlardan inşa edilmişken, diğerleri daha modern tasarımlarla bezeli. Ayrıca, su yolu boyunca uzanan şehir manzarası, kentin dinamik yapısını ve denizle olan bağlantısını vurguluyor.Gece saatlerinde çekilmiş olan bu görüntüde, sıcak tonlardaki ışıkların ve gölgelerin oluşturduğu büyüleyici bir atmosfer hâkim. Bu durum, şehrin doğal güzelliklerinin yanı sıra, tarihsel dokusu ve kültürel zenginlikleri üzerinde düşünmeye davet ediyor. Tüm bu unsurlar, İstanbul’un kozmopolit yapısını ve kültürel çeşitliliğini gözler önüne seriyor.
135
 
136
 
137
+ Model response: Resimde ne görünüyor?
138
+ Görselde, İstanbul'un Beyoğlu ilçesindeki Galata Kulesi yer alıyor. Bu kule, tarihi ve kültürel zenginlikleri ile bilinir. Güneşin batışıyla birlikte sıcak tonlarda ışıkların yayıldığı bu alan, şehrin kozmopolit yapısını gözler önüne seriyor. Ayrıca, su kenarında inşa edilmiş binalar, hem tarihi dokunun hem de modern hayatın birleşimini sergiliyor.
139
 
 
 
140
 
141
+ Model response: Gündüz vakti mi yoksa akşam vakti mi?
142
+ Görseldeki ışıklandırma ve renk tonları, günün ilerleyen saatlerini işaret ediyor gibi görünüyor. Bu durum, şehir manzarasını daha da çekici kılıyor.
143
 
144
 
145
+ Model response: Resimde ilgi çekici unsurlar nelerdir?
146
+ Görselde dikkat çeken unsurlardan biri, tarihî ve kültürel önemi olan Galata Kulesi'dir. Kule, hem mimari yapısı hem de çevresindeki tarihi yapılarla birlikte, İstanbul'un önemli bir simgesi olarak öne çıkmaktadır. Ayrıca, gün batımı esnasında oluşan atmosferin ışığı, şehrin canlılığını artırmakta ve bu özel anın görsel zenginliğini artırmaktadır. Bu unsurlar, İstanbul'un sosyal ve ekonomik yapısını gözler önüne sermektedir.
147
  """
148
  ```
149