Benchmark sonuçları hakkında
Merhaba, paylaştığınız benchmark sonuçlarına göre modeliniz 58.0 puan google/gemma-2-9b-it ise 54.6 puan almış, yani Google'ın modelini fine tune ederek 3.4 puan arttırdığınızı iddia ediyorsunuz.
Fakat bizim ölçümlerimizde (biz de aynı komut ile Malhajar leaderboard'ındakindeki gibi skor alıyoruz) Google'ın modeli 59.14 puan, sizinki ise 57.66 puan çıktı. Biz ölçümümüzde bir hata olduğunu düşünmüyoruz sizce bu neyden kaynaklanıyor olabilir?
Merhabalar,
Geri bildiriminiz için teşekkür ederiz! Modelimizin açıklamasında bu konuya özellikle yer vermiştik. Herhangi bir language inference optimizasyonu kullanmak yerine OpenLLM Leaderboard ile aynı yaklaşımı kullanarak default hf inference'ını kullanıyoruz. Eğer VLLM ya da başka bir optimizasyon yöntemi kullanıyorsanız bunlar sonuçları değiştirebilir. Güncel benchmarklara ek olarak MMLU-PRO, BBH, IFEval gibi benchmarkların olduğu ve OpenLLM Leadarboard ile paralel yöntemlerin işlendiği yeni bir leaderboard'ın geleceği zamanların da yakın olduğunu görüyoruz. Yan not olarak eğer HF ekibinin kendi yaklaşımında testlerin hala farklı olduğunu düşünüyorsanız logları buradan paylaşabilirsiniz.
Kaynak: https://huggingface.co/docs/leaderboards/open_llm_leaderboard/about
Merhaba, evet benchmark alırken "hf" veya "vllm" kullanmak skoru etkilese de bizim gözlemimize göre bu ±0.5 puan etkiliyor, farkın sebebi bu olamaz. Bir de burada ham puandan ziyade google/gemma-2-9b-it ile aradaki fark önemli zira bu fine tune'nizde amaç bu modeli geliştirmek.
Sizin paylaştığınız benchmark'da google modelini 3.4 puan arttırdığınız gözükse de aksine fine tuneniz sonucunda skoru düşürdüğünüz gözüküyor. Paylaştığınız benchmark sonuçlarını gerçeği yansıtır şekilde girmenizi rica ediyoruz.
Merhaba,
Bu konuda sizlere tavsiyemiz paylaştığımız deneyi OpenLLM Leaderboard yaklaşımı ile tekrarlamanız ve lider tablosunun doğru şekilde oluşturulduğunu gözlemlemenizdir. VLLM ile alakalı bir tasarrufu WiroAI ML takımı şuanda bulundurmamakla birlikte iş modellerimizi de burada maalesef tartışamamaktayız. Aynı zamanda gözlemleriniz de gerçeği yansıtmamaktadır çünkü deneylerimiz tekrarlanabilirdir, lütfen paylaştığımız guide'ı tekrar okuyun ve sonuçları bizlerle paylaşın, böylelikle yanlış yaptığınız deneyleri gözlemleyebilir ve sizlere yardımcı olabiliriz.