Dataset

#1
by kesimeg - opened

Hello, which dataset did you use to train this model? Is it available on Huggingface or is it a private dataset?

Owner

Merhaba,
-https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain ve https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/blob/main/llava_v1_5_mix665k.json verisetlerini örneklere göre kurallar yazarak Türkçe'ye tercüme ettim.
-Kullandığım çeviri modeli: https://huggingface.co/Helsinki-NLP/opus-mt-tc-big-en-tr . Google translate'den daha kötü çeviriyor gördüğüm kadarıyla fakat çeviri için ücretli api kullanılsa çok maliyetli olurdu. Sadece mix665k(SFT) verisetinde 516 milyon karakter var :D
-Ayrıca sadece metin içeren Türkçe instruction verisi ekledim 70 bin civarında. Bu 70 bin örneği açık kaynaklı verilerden topladım.

Kullanırım diyorsan buraya yükleyebilirim müsait olunca.

Merhaba,
Açıkçası bir süredir ben de benzeri birşey yapmayı düşünüyordum. Hatta söylediğiniz çeviri modelini test edip başka alternatifler aramaya başlamıştım. Ücretli APIlar ile gerçekten çok maliyetli oluyor. Orijinal LLaVA datasetini çevirtmek yaklaşık birkaç bin dolar civarı bir maliyeti oluyordu diye hatırlıyorum.

Açıkçası başka açık kaynaklı türkçe bir multimodal dataseti olmadığı için datasetini yüklerseniz güzel olur. Bundan sonraki gelecek türkçe datasetler için de bir örnek olmuş olur.

Teşekkürler :), emeğinize sağlık

Sign up or log in to comment