ucsahin commited on
Commit
a9947f9
·
verified ·
1 Parent(s): dbb83dd

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +41 -3
README.md CHANGED
@@ -87,11 +87,49 @@ Geliştirme sürecinin özeti:
87
 
88
  ---
89
 
90
- # Friendly Reminder:
91
- First of all, thanks for your interest if you plan to use this model. I developed this model to primarily show that you can build
92
 
93
- # Kullanıcılar için Önemli Bir Hatırlatma:
94
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
95
  ---
96
 
97
 
 
87
 
88
  ---
89
 
90
+ ## Friendly Reminder:
 
91
 
92
+ First off, thank you for your interest if you're planning to use this model. I developed it to demonstrate that you can create your own multimodal transformer-based model in a low-resource language like Turkish using only the open-source tools available in the Hugging Face ecosystem. This task would have been nearly impossible without such a platform that supports open-source research and community, so I owe a big thanks 🙏🙏.
93
 
94
+ As for the model itself, it’s not as powerful as the VLM models developed by companies like Google, Microsoft, or Meta.
95
+
96
+ I worked alone in an environment with limited access to high-quality, diverse multimodal Turkish data. My computing resources were also limited, relying mainly on cloud GPU providers like Colab and Runpod.
97
+
98
+ **So, why create a Turkish Vision Language Model?**
99
+
100
+ My answer is simple, and I’ll break it down into three points:
101
+ 1) Large unimodal language models for low-resource languages like Turkish are advancing much faster than their multimodal counterparts. For Turkish, there’s a leaderboard for text models at [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2), but nothing similar exists for multimodal models.
102
+ 2) On Hugging Face, there isn’t a [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) model that primarily works in Turkish. You can check for yourself.
103
+ 3) When you use TraVisionLM, you’ll notice it makes mistakes and hallucinations. But if you ask questions in Turkish to the VLM models from big companies, the answers will often disappoint you. These models are mostly trained on English data, and while they’re multilingual, their performance in languages other than English drops significantly after alignment.
104
+
105
+ In closing, I hope this model makes a valuable contribution to the open-source Turkish community, and I welcome all your feedback 🤘🤘.
106
+
107
+
108
+ ## Kullanıcılar için Önemli Bir Hatırlatma:
109
+
110
+ Öncelikle, bu modeli kullanmayı düşünüyorsanız ilginiz için teşekkür ederim. Bu modeli, Hugging Face ekosisteminde mevcut olan açık kaynak araçları kullanarak, düşük kaynaklı bir dilde (Türkçe gibi) kendi çok modlu transformer tabanlı modelinizi oluşturabileceğinizi göstermek amacıyla geliştirdim. Böyle bir platform olmasaydı, bu görev neredeyse imkansız olurdu, bu yüzden büyük bir teşekkür borçluyum 🙏🙏.
111
+
112
+ Modelin kendisine gelince, Google, Microsoft veya Meta gibi büyük şirketlerin geliştirdiği VLM modelleri kadar güçlü değil.
113
+
114
+ Yüksek kaliteli, çeşitli çok modlu Türkçe veriye erişimin sınırlı olduğu bir ortamda çalıştım. GPU kaynaklarım da sınırlıydı ve genellikle Colab ve Runpod gibi bulut GPU sağlayıcılarına güvendim.
115
+
116
+ **Peki, neden Türkçe bir Görsel Dil Modeli geliştirdim?**
117
+
118
+ Cevabım basit, ve bunu üç madde ile açıklamak istiyorum:
119
+ 1) Türkçe gibi düşük kaynaklı diller için büyük tek modlu dil modelleri, çok modlu muadillerine göre çok daha hızlı gelişiyor. Türkçe için [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2) adlı bir metin modeli liderlik tablosu var, ancak çok modlu modeller için böyle bir şey yok.
120
+ 2) Hugging Face'te, öncelikli olarak Türkçe çalışan bir [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) modeli yok. Kendiniz kontrol edebilirsiniz.
121
+ 3) TraVisionLM'i kullanmaya başladığınızda, fazlaca hatalar yaptığını ve halüsinasyonlar gördüğünü fark edeceksiniz. Ancak, büyük şirketlerin VLM modellerine Türkçe sorular sorduğunuzda, cevaplar çoğu zaman sizi hayal kırıklığına uğratacak. Bu modeller çoğunlukla İngilizce verilerle eğitilmiş ve her ne kadar çok dilli olsalar da, hizalama aşamasından sonra İngilizce dışındaki dillerde metin üretme performansları önemli ölçüde düşüyor.
122
+
123
+ Daha fazla uzatmadan, bu modelin açık kaynak Türkçe topluluğuna iyi bir katkı sağlayacağını umuyorum ve tüm geri bildirimlerinizi bekliyorum 🤘🤘.
124
+
125
+ Zaman ve kaynak açısından daha rahat olduğum bir dönem, çok daha kaliteli ve çeşitli Türkçe veriyle, daha güçlü görsel kodlayıcıya ve dil modeline sahip bir model eğitimi planlarım arasında var.
126
+
127
+ ### Açık Kaynaklı Diğer Türkçe VLM Modelleri
128
+
129
+ Bu kısımda benim de daha önce rast geldiğim bu alandaki birkaç çalışmaya kredi vermek istiyorum. Unuttuklarım varsa, haber vermeniz halinde eklenecektir.
130
+ - [99eren99/Turkish-BakLLaVa1.5-Mistral](https://huggingface.co/99eren99/Turkish-BakLLaVa1.5-Mistral) LLaVA eğitim çerçevesinde geliştirilmiş bir Türkçe görsel dil modelidir. Bu modeli benim denemeye henüz fırsatım olmadı ama Dil modeli olarak Trendyol Mistral v1.0 Chat kullanılmış o yüzden başarılı sonuçlar aldığına eminim. Transformers kütüphanesi ile doğrudan uyumlu değil.
131
+
132
+
133
  ---
134
 
135