Update README.md
Browse files
README.md
CHANGED
@@ -77,13 +77,6 @@ Geliştirme sürecinin özeti:
|
|
77 |
- **Language(s) (NLP):** *Turkish*
|
78 |
- **License:** *Apache license 2.0*
|
79 |
|
80 |
-
### Model Sources [optional]
|
81 |
-
|
82 |
-
<!-- Provide the basic links for the model. -->
|
83 |
-
|
84 |
-
- **Repository:** [https://huggingface.co/ucsahin/TraVisionLM-base/edit/main/README.md]
|
85 |
-
- **Paper [optional]:** More info on this later.
|
86 |
-
- **Demo [optional]:** [More Information Needed]
|
87 |
|
88 |
---
|
89 |
|
@@ -91,7 +84,7 @@ Geliştirme sürecinin özeti:
|
|
91 |
|
92 |
First off, thank you for your interest if you're planning to use this model. I developed it to demonstrate that you can create your own multimodal transformer-based model in a low-resource language like Turkish using only the open-source tools available in the Hugging Face ecosystem. This task would have been nearly impossible without such a platform that supports open-source research and community, so I owe a big thanks 🙏🙏.
|
93 |
|
94 |
-
As for the model itself, it’s not as powerful as the VLM models developed by companies like Google, Microsoft, or Meta.
|
95 |
|
96 |
I worked alone in an environment with limited access to high-quality, diverse multimodal Turkish data. My computing resources were also limited, relying mainly on cloud GPU providers like Colab and Runpod.
|
97 |
|
@@ -99,8 +92,8 @@ I worked alone in an environment with limited access to high-quality, diverse mu
|
|
99 |
|
100 |
My answer is simple, and I’ll break it down into three points:
|
101 |
1) Large unimodal language models for low-resource languages like Turkish are advancing much faster than their multimodal counterparts. For Turkish, there’s a leaderboard for text models at [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2), but nothing similar exists for multimodal models.
|
102 |
-
2) On Hugging Face, there isn’t a [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) model that primarily works in Turkish.
|
103 |
-
3) When you use TraVisionLM, you’ll notice it
|
104 |
|
105 |
In closing, I hope this model makes a valuable contribution to the open-source Turkish community, and I welcome all your feedback 🤘🤘.
|
106 |
|
@@ -109,25 +102,29 @@ In closing, I hope this model makes a valuable contribution to the open-source T
|
|
109 |
|
110 |
Öncelikle, bu modeli kullanmayı düşünüyorsanız ilginiz için teşekkür ederim. Bu modeli, Hugging Face ekosisteminde mevcut olan açık kaynak araçları kullanarak, düşük kaynaklı bir dilde (Türkçe gibi) kendi çok modlu transformer tabanlı modelinizi oluşturabileceğinizi göstermek amacıyla geliştirdim. Böyle bir platform olmasaydı, bu iş neredeyse imkansız olurdu, bu yüzden büyük bir teşekkür borçluyum 🙏🙏.
|
111 |
|
112 |
-
Modelin kendisine gelince, Google, Microsoft veya Meta gibi büyük şirketlerin geliştirdiği VLM modelleri kadar güçlü değil.
|
113 |
|
114 |
-
|
115 |
|
116 |
-
**Peki, neden Türkçe bir Görsel Dil Modeli
|
117 |
|
118 |
Cevabım basit, ve bunu üç madde ile açıklamak istiyorum:
|
119 |
1) Türkçe gibi düşük kaynaklı diller için büyük tek modlu dil modelleri, çok modlu muadillerine göre çok daha hızlı gelişiyor. Türkçe için [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2) adlı bir metin modeli liderlik tablosu var, ancak çok modlu modeller için böyle bir şey yok.
|
120 |
-
2) Hugging Face'te,
|
121 |
-
3) TraVisionLM'i kullanmaya başladığınızda, fazlaca hatalar yaptığını ve halüsinasyonlar gördüğünü fark edeceksiniz. Ancak, büyük şirketlerin VLM modellerine Türkçe sorular sorduğunuzda, cevaplar çoğu zaman sizi hayal kırıklığına
|
122 |
|
123 |
Daha fazla uzatmadan, bu modelin açık kaynak Türkçe topluluğuna iyi bir katkı sağlayacağını umuyorum ve tüm geri bildirimlerinizi bekliyorum 🤘🤘.
|
124 |
|
125 |
-
Zaman ve kaynak açısından daha rahat olduğum bir dönem, çok daha kaliteli ve
|
126 |
|
127 |
### Açık Kaynaklı Diğer Türkçe VLM Modelleri
|
128 |
|
129 |
Bu kısımda benim de daha önce rast geldiğim bu alandaki birkaç çalışmaya kredi vermek istiyorum. Unuttuklarım varsa, haber vermeniz halinde eklenecektir.
|
130 |
-
- [99eren99/Turkish-BakLLaVa1.5-Mistral](https://huggingface.co/99eren99/Turkish-BakLLaVa1.5-Mistral) LLaVA eğitim çerçevesinde geliştirilmiş bir Türkçe görsel dil modelidir.
|
|
|
|
|
|
|
|
|
131 |
|
132 |
|
133 |
---
|
@@ -209,7 +206,7 @@ Bu görev için modele ```"Resmin odağında ne var?", "Görselde adam ne yapıy
|
|
209 |
|
210 |
### Alan-dışı Kullanımlar
|
211 |
Bu modelin aşağıdaki senaryolar için kullanımı uygun değildir:
|
212 |
-
- Model, resimlerinizle ilgili basit sorulara cevap verse de, çok turlu kompleks chat senaryoları için uygun değildir. Geçmiş bilgisi tutulmamaktadır, model daha önce sorduğunuz soruları kontekst olarak kullanmamaktadır. Fakat bu görev için, bir chat şablonu hazırlayıp bu doğrultuda
|
213 |
- Model çoklu görsel girdi kabul etmemektedir. Örneğin, iki farklı resmi karşılaştıran sorulara cevap vermeye uygun değildir. Bu özelliği kazandırmak için mimariye değişiklikler yapmak gerekmektedir. Bu tarz bir model için [HuggingFaceM4/idefics2-8b](https://huggingface.co/HuggingFaceM4/idefics2-8b) (sadece ingilizce) modeline bakabilirsiniz.
|
214 |
- Model, karakter ve yazı tanıma (OCR), segmentasyon ve çoklu obje tespit etme görevleri için eğitilmemiştir. Bu görevlerde kabul edilebilir başarılar alabilmek için [google/paligemma-3b-pt-224](https://huggingface.co/google/paligemma-3b-pt-224) ve [microsoft/Florence-2-large](https://huggingface.co/microsoft/Florence-2-large) gibi görsel dil modelleri milyarlarca doküman ve resimle eğitilmiştir.
|
215 |
|
@@ -217,9 +214,9 @@ Bu modelin aşağıdaki senaryolar için kullanımı uygun değildir:
|
|
217 |
|
218 |
## How to Get Started with the Model
|
219 |
|
220 |
-
In Transformers, you can load the model and inference as follows:
|
221 |
|
222 |
-
**IMPORTANT NOTE:** TraVisionLM model is not yet integrated into the Transformers library. So you need to set ```trust_remote_code=True``` when loading the model. It will download the ```configuration_travisionlm.py```, ```modeling_travisionlm.py``` and ```processing_travisionlm.py``` files from the repo. You can check out the content of these files under the *Files and Versions* tab and pin the specific versions if you have any concerns regarding malicious code.
|
223 |
|
224 |
```python
|
225 |
from transformers import AutoModelForCausalLM, AutoProcessor
|
@@ -249,7 +246,7 @@ output_text = processor.batch_decode(outputs, skip_special_tokens=True)[0]
|
|
249 |
print("Model response: ", output_text)
|
250 |
```
|
251 |
|
252 |
-
You can also perform batch inference
|
253 |
|
254 |
```python
|
255 |
from transformers import AutoModelForCausalLM, AutoProcessor
|
@@ -309,9 +306,11 @@ Araba turkuaz veya limon yeşili renktedir.
|
|
309 |
### Training Data
|
310 |
|
311 |
<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
|
312 |
-
I plan to release the multimodal Turkish data used during the training of the model. But, the data
|
|
|
|
|
313 |
|
314 |
-
The dataset consists of predominantly translated versions of the well-known multimodal datasets
|
315 |
|
316 |
### Training Procedure
|
317 |
<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
|
@@ -339,10 +338,6 @@ This section will be updated after I get some evaluation results on the [ucsahin
|
|
339 |
|
340 |
More on this later...
|
341 |
|
342 |
-
#### Testing Data
|
343 |
-
|
344 |
-
During the training, I used the following dataset [ucsahin/Turkish-VLM-Mix-Benchmark](https://huggingface.co/datasets/ucsahin/Turkish-VLM-Mix-Benchmark) as the evaluation split.
|
345 |
-
|
346 |
|
347 |
### Compute Infrastructure
|
348 |
<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
|
@@ -361,7 +356,7 @@ The following compute resources are used in feature alignment and task specific
|
|
361 |
|
362 |
I am releasing TraVisionLM under the Apache 2.0 License. To the best of my knowledge after through research, this should comply with the datasets and unimodal vision and language models used during development.
|
363 |
|
364 |
-
**However, if I receive any
|
365 |
|
366 |
If you use the TraVisionLM model in your research, work, or personal projects, please acknowledge this repository. 🙏
|
367 |
|
|
|
77 |
- **Language(s) (NLP):** *Turkish*
|
78 |
- **License:** *Apache license 2.0*
|
79 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
80 |
|
81 |
---
|
82 |
|
|
|
84 |
|
85 |
First off, thank you for your interest if you're planning to use this model. I developed it to demonstrate that you can create your own multimodal transformer-based model in a low-resource language like Turkish using only the open-source tools available in the Hugging Face ecosystem. This task would have been nearly impossible without such a platform that supports open-source research and community, so I owe a big thanks 🙏🙏.
|
86 |
|
87 |
+
As for the model itself, it’s not as powerful as the VLM models developed by companies like Google, Microsoft, or Meta AI.
|
88 |
|
89 |
I worked alone in an environment with limited access to high-quality, diverse multimodal Turkish data. My computing resources were also limited, relying mainly on cloud GPU providers like Colab and Runpod.
|
90 |
|
|
|
92 |
|
93 |
My answer is simple, and I’ll break it down into three points:
|
94 |
1) Large unimodal language models for low-resource languages like Turkish are advancing much faster than their multimodal counterparts. For Turkish, there’s a leaderboard for text models at [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2), but nothing similar exists for multimodal models.
|
95 |
+
2) On Hugging Face, there isn’t a [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) model that primarily works in Turkish.
|
96 |
+
3) When you use TraVisionLM, you’ll notice it will make many mistakes and hallucinate. But if you ask questions in Turkish to the VLM models from big companies, the answers will often disappoint you. These models are mostly trained on English data, and while they’re multilingual, their performance in languages other than English drops significantly after alignment.
|
97 |
|
98 |
In closing, I hope this model makes a valuable contribution to the open-source Turkish community, and I welcome all your feedback 🤘🤘.
|
99 |
|
|
|
102 |
|
103 |
Öncelikle, bu modeli kullanmayı düşünüyorsanız ilginiz için teşekkür ederim. Bu modeli, Hugging Face ekosisteminde mevcut olan açık kaynak araçları kullanarak, düşük kaynaklı bir dilde (Türkçe gibi) kendi çok modlu transformer tabanlı modelinizi oluşturabileceğinizi göstermek amacıyla geliştirdim. Böyle bir platform olmasaydı, bu iş neredeyse imkansız olurdu, bu yüzden büyük bir teşekkür borçluyum 🙏🙏.
|
104 |
|
105 |
+
Modelin kendisine gelince, Google, Microsoft veya Meta AI gibi büyük şirketlerin geliştirdiği VLM modelleri kadar güçlü değil.
|
106 |
|
107 |
+
Modeli geliştirirken, GPU kaynaklarının ve kaliteli, çeşitli çok modlu Türkçe veriye erişimin sınırlı olduğu bir ortamda çalıştım.
|
108 |
|
109 |
+
**Peki, neden Türkçe bir Görsel Dil Modeli geliştirmek gerekiyor?**
|
110 |
|
111 |
Cevabım basit, ve bunu üç madde ile açıklamak istiyorum:
|
112 |
1) Türkçe gibi düşük kaynaklı diller için büyük tek modlu dil modelleri, çok modlu muadillerine göre çok daha hızlı gelişiyor. Türkçe için [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2) adlı bir metin modeli liderlik tablosu var, ancak çok modlu modeller için böyle bir şey yok.
|
113 |
+
2) Hugging Face'te, Transformers kütüphanesiyle uyumlu ve tamamen Türkçe dili çalışan bir [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) modeli yok.
|
114 |
+
3) TraVisionLM'i kullanmaya başladığınızda, fazlaca hatalar yaptığını ve halüsinasyonlar gördüğünü fark edeceksiniz. Ancak, büyük şirketlerin VLM modellerine Türkçe sorular sorduğunuzda, cevaplar çoğu zaman sizi hayal kırıklığına uğratabilmektedir. Bu modeller çoğunlukla İngilizce verilerle eğitilmiştir ve her ne kadar çok dilli olsalar da, hizalama aşamasından sonra İngilizce dışındaki dillerde metin üretme performansları önemli ölçüde düşmektedir.
|
115 |
|
116 |
Daha fazla uzatmadan, bu modelin açık kaynak Türkçe topluluğuna iyi bir katkı sağlayacağını umuyorum ve tüm geri bildirimlerinizi bekliyorum 🤘🤘.
|
117 |
|
118 |
+
Zaman ve kaynak açısından daha rahat olduğum bir dönem, çok daha kaliteli ve sayısı arttırılmış Türkçe veriyle, daha güçlü görsel kodlayıcıya ve dil modeline sahip bir model eğitimi planlarım arasında var.
|
119 |
|
120 |
### Açık Kaynaklı Diğer Türkçe VLM Modelleri
|
121 |
|
122 |
Bu kısımda benim de daha önce rast geldiğim bu alandaki birkaç çalışmaya kredi vermek istiyorum. Unuttuklarım varsa, haber vermeniz halinde eklenecektir.
|
123 |
+
- [99eren99/Turkish-BakLLaVa1.5-Mistral](https://huggingface.co/99eren99/Turkish-BakLLaVa1.5-Mistral) LLaVA eğitim çerçevesinde geliştirilmiş bir Türkçe görsel dil modelidir.
|
124 |
+
- Dil modeli olarak Trendyol Mistral v1.0 Chat kullanılmış.
|
125 |
+
- TraVisionLM modeline kıyasla 8 kat daha fazla parametreli bir model.
|
126 |
+
- Model yükleme ve cevap üretme için Transformers kütüphanesi ile doğrudan uyumlu değil.
|
127 |
+
- Zaman buldukça iki modelin benzer görevlerdeki performans karşılaştırması yapılabilir.
|
128 |
|
129 |
|
130 |
---
|
|
|
206 |
|
207 |
### Alan-dışı Kullanımlar
|
208 |
Bu modelin aşağıdaki senaryolar için kullanımı uygun değildir:
|
209 |
+
- Model, resimlerinizle ilgili basit sorulara cevap verse de, çok turlu kompleks chat senaryoları için uygun değildir. Geçmiş bilgisi tutulmamaktadır, model daha önce sorduğunuz soruları kontekst olarak kullanmamaktadır. Fakat bu görev için, bir chat şablonu hazırlayıp bu doğrultuda kolayca eğitebilirsiniz.
|
210 |
- Model çoklu görsel girdi kabul etmemektedir. Örneğin, iki farklı resmi karşılaştıran sorulara cevap vermeye uygun değildir. Bu özelliği kazandırmak için mimariye değişiklikler yapmak gerekmektedir. Bu tarz bir model için [HuggingFaceM4/idefics2-8b](https://huggingface.co/HuggingFaceM4/idefics2-8b) (sadece ingilizce) modeline bakabilirsiniz.
|
211 |
- Model, karakter ve yazı tanıma (OCR), segmentasyon ve çoklu obje tespit etme görevleri için eğitilmemiştir. Bu görevlerde kabul edilebilir başarılar alabilmek için [google/paligemma-3b-pt-224](https://huggingface.co/google/paligemma-3b-pt-224) ve [microsoft/Florence-2-large](https://huggingface.co/microsoft/Florence-2-large) gibi görsel dil modelleri milyarlarca doküman ve resimle eğitilmiştir.
|
212 |
|
|
|
214 |
|
215 |
## How to Get Started with the Model
|
216 |
|
217 |
+
In Transformers, you can load the model and do inference as follows:
|
218 |
|
219 |
+
**IMPORTANT NOTE:** TraVisionLM model is not yet integrated natively into the Transformers library. So you need to set ```trust_remote_code=True``` when loading the model. It will download the ```configuration_travisionlm.py```, ```modeling_travisionlm.py``` and ```processing_travisionlm.py``` files from the repo. You can check out the content of these files under the *Files and Versions* tab and pin the specific versions if you have any concerns regarding malicious code.
|
220 |
|
221 |
```python
|
222 |
from transformers import AutoModelForCausalLM, AutoProcessor
|
|
|
246 |
print("Model response: ", output_text)
|
247 |
```
|
248 |
|
249 |
+
You can also perform batch inference as follows (make sure that all images have a prompt text associated with them):
|
250 |
|
251 |
```python
|
252 |
from transformers import AutoModelForCausalLM, AutoProcessor
|
|
|
306 |
### Training Data
|
307 |
|
308 |
<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
|
309 |
+
I plan to release the multimodal Turkish data used during the training of the model. But, the data in its current format is not ready for publication.
|
310 |
+
|
311 |
+
Until then, in order to provide some details regarding the dataset and to contribute to the open-source community, I am releasing the evaluation portion of the dataset at [ucsahin/Turkish-VLM-Mix-Benchmark](https://huggingface.co/datasets/ucsahin/Turkish-VLM-Mix-Benchmark).
|
312 |
|
313 |
+
The dataset consists of predominantly translated versions of the well-known multimodal datasets from English to Turkish. More information on this will be shared in the future.
|
314 |
|
315 |
### Training Procedure
|
316 |
<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
|
|
|
338 |
|
339 |
More on this later...
|
340 |
|
|
|
|
|
|
|
|
|
341 |
|
342 |
### Compute Infrastructure
|
343 |
<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
|
|
|
356 |
|
357 |
I am releasing TraVisionLM under the Apache 2.0 License. To the best of my knowledge after through research, this should comply with the datasets and unimodal vision and language models used during development.
|
358 |
|
359 |
+
**However, if I receive any notification indicating otherwise, I will promptly update the licensing information as needed.**
|
360 |
|
361 |
If you use the TraVisionLM model in your research, work, or personal projects, please acknowledge this repository. 🙏
|
362 |
|