Omerhan commited on
Commit
ee9b485
·
verified ·
1 Parent(s): eb1d8b4

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,411 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - tr
4
+ license: apache-2.0
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:4997
11
+ - loss:MultipleNegativesRankingLoss
12
+ base_model: intfloat/multilingual-e5-large-instruct
13
+ widget:
14
+ - source_sentence: BYU'nun öğrenci bedeni, Pres döneminde ne kadar arttı. Ernest L.
15
+ Wilkinson zamanın en büyük özel okulu mu olacak?
16
+ sentences:
17
+ - Ernest L. Wilkinson döneminde BYU'nun öğrenci vücudu altı kat arttı. Dolayısıyla,
18
+ o zamanlar dönemin en büyük özel okulu haline gelmiştir.
19
+ - 'Cevap: Falkland Adaları''nın para birimi Falkland sterlini (FKP)''dir.'
20
+ - Franklin S. Harris 1921 yılında üniversitenin başkanlığına atandı. Doktora derecesine
21
+ sahip ilk BYU başkanı oldu. Harris okulda birkaç önemli değişiklik yaptı ve onu
22
+ gerçek bir üniversite haline getirdi, oysa daha önce organizasyonunun Akademi
23
+ günlerinden kalıntıları vardı. Görev süresinin başında, okul herhangi bir akreditasyon
24
+ organizasyonu tarafından resmi olarak tanınmadı. Dönem sonunda, okul o sırada
25
+ tüm büyük akreditasyon organizasyonları altında akredite edilmiştir. Nihayetinde
26
+ Kaliforniya Üniversitesi'nden doktorasını alan Howard S. McDonald tarafından değiştirildi.
27
+ Bu pozisyonu ilk aldığında, İkinci Dünya Savaşı yeni sona ermişti ve binlerce
28
+ öğrenci BYU'ya su basıyordu. Kalışının sonunda, okul 5.440 öğrencinin kaydına
29
+ neredeyse beş kat büyümüştü. Üniversitenin böyle büyük bir akını idare edebilecek
30
+ tesisleri yoktu, bu yüzden Ogden, Utah'daki bir Hava Kuvvetleri Üssü'nün bir kısmını
31
+ satın aldı ve bazı öğrencileri barındırmak için yeniden inşa etti. Bir sonraki
32
+ başkan, Ernest L. Wilkinson, okulun hızlandırılmış bir inşaat programını benimsemesiyle
33
+ yoğun bir büyüme dönemini de yönetti. Wilkinson, kampüsteki seksenden fazla yapıyı
34
+ inşa etmekten sorumluydu. Birçoğu hala ayakta. Görev süresi boyunca öğrenci vücudu
35
+ altı kat arttı ve BYU'yu o zamanlar en büyük özel okul haline getirdi. Öğrencilerin
36
+ kalitesi de arttı ve okulda yüksek eğitim standartlarına yol açtı. Son olarak,
37
+ Wilkinson kampüsteki LDS Kilisesi birimlerini yeniden düzenledi ve yönetimi sırasında
38
+ on kazık ve 100'den fazla koğuş eklendi.
39
+ - source_sentence: Politikacılar hakkında aşağıdaki paragraf göz önüne alındığında,
40
+ hayatta kalan ve İrlanda Avam Kamarası üyesi olan son kişi kimdi?
41
+ sentences:
42
+ - Metne göre, The Times gazetesinin kurucusunun torunu olan ve 1847'de babasının
43
+ yerini alan kişinin adı John Walter'dır.
44
+ - Hayatta kalan ve İrlanda Avam Kamarası üyesi olan son kişi Sir Thomas Staples,
45
+ 9. Baronet'di.
46
+ - Sir Thomas Staples, 9. Baronet (31 Temmuz 1775 - 14 Mayıs 1865) İngiliz-İrlandalı
47
+ bir politikacı ve avukattı. İrlanda Avam Kamarası üyesi olan hayatta kalan son
48
+ kişiydi, ancak kısa bir süre Meclis'te bulunmuştu.
49
+ - source_sentence: Hangi Ada 1308 yılında alınmıştır.
50
+ sentences:
51
+ - Raleigh'deki devlet okullarını Wake County Devlet Okulu Sistemi işletmektedir.
52
+ - 1308 yılında İmralı Adası alınmıştır.
53
+ - Osman Bey 1258 yılında Söğüt’te doğdu. Osman Bey 1 Ağustos 1326’da Bursa’da hayatını
54
+ kaybetmiştir.1281 yılında Osman Bey 23 yaşında iken Ahi teşkilatından olan Şeyh
55
+ Edebali’nin kızı Malhun Hatun ile evlendi.Bu evlilikten daha sonra Osmanlı Devleti’nin
56
+ başına geçecek olan Orhan Gazi doğdu.1281 yılında Osman Beyin babası Ertuğrul
57
+ Bey 90 yaşında vefat etmiştir.1326’da Osman Bey, Bursa’yı kuşattı. Fakat Osman
58
+ beyin rahatsızlanması üzerine kuşatmaya Orhan Bey devam etti. Bursa alındıktan
59
+ sonra başkent yapılmıştır.Osman Gazi son yıllarında yaşının ilerlemesi ve gut
60
+ hastalığı yüzünden beylik idaresini oğlu olan Orhan Bey'e bırakmıştı.Osmanlı Beyliğinin
61
+ ilk fethettiği ada İmralı Adasıdır. İmralı Adası 1308 yılında Osman Bey tarafından
62
+ alınmıştır.İlk Osmanlı parası Osman Bey tarafından bakır olarak akçe adı ile 1324
63
+ yılında bastırılmıştır.Osmanlı Beyliğinin ilk başkenti Söğüttür.Osmanlı tarihinde
64
+ ilk savaş, 1284 yılında Bizans tekfurlarıyla yapılan Ermeni Beli savaşıdır.Osman
65
+ Beyin ele geçirdiği ilk kale 1285 yılında fethedilen Kolca Hisar Kalesi’dir.Osmanlı
66
+ beyliğinin ilk kadısı Osman Bey döneminde atanan Dursun Fakih’tir.Osman Bey 1288
67
+ yılında Karacahisarı fethetti. Osman Bey 1299 yılında Bilecik'i fethetti.Osman
68
+ Gazi, babası Ertuğrul Gazi'den yaklaşık 4.800 kilometrekare olarak devraldığı
69
+ Osmanlı toprağını oğlu Orhan Gazi'ye 16.000 kilometrekare olarak devretmiştir.Osman
70
+ Bey'in vefatı sonrası yerine Orhan Bey geçti.
71
+ - source_sentence: Tunakabuni'nin çalışmaları ne konudadır?
72
+ sentences:
73
+ - Tunakabuni çeşitli tıbbi ve dini konularda yazarlık yaptı. O Arap ve Hint kaynaklarına
74
+ göre , 1679 yılında basit ilaçlar ve tıbbi aletlerle ilgili çalışmalar yapmıştır.
75
+ O dönem, 1666-1694 yıllarında İran hükümdarı Süleyman Şah tarafından ona ithaf
76
+ edilmiştir.
77
+ - Tunakabuni'nin çalışmaları tıbbi ve dini konulardadır.
78
+ - Metinde verilen bilgiye göre, 2012-13 yılında kamu harcamaları 28 milyon £ olarak
79
+ belirlenmiştir.
80
+ - source_sentence: Tibet mimarisi hangi iki kültürü yansıtır?
81
+ sentences:
82
+ - 'Metinde belirtilenlere göre diğer partilerin aldığı oy oranları aşağıdaki gibidir:
83
+
84
+ - Quebec egemenlik yanlısı Parti Quebecois (PQ): toplam oyların %40.16''sını aldı.
85
+
86
+ - Quebec Yeni Demokrat Partisi (NPDQ): toplam oyların %1.22''sini aldı.'
87
+ - Tibet mimarisi, Çin ve Hint kültürlerini yansıtmaktadır.
88
+ - Tibet ekonomisi geçim tarım hakimdir, ancak turizm son yıllarda büyüyen bir sanayi
89
+ haline gelmiştir. Tibet'te baskın din Tibet Budizm'dir; Buna ek olarak Tibet Budizm'e
90
+ benzer Bön vardır ve Tibet Müslümanları ve Hıristiyan azınlıklar da vardır. Tibet
91
+ Budizmi, bölgenin sanat, müzik ve festivalleri üzerinde birincil bir etkidir.
92
+ Tibet mimarisi Çin ve Hint etkilerini yansıtır. Tibet'teki zımba gıdaları kavrulmuş
93
+ arpa, yak eti ve tereyağı çayıdır.
94
+ pipeline_tag: sentence-similarity
95
+ library_name: sentence-transformers
96
+ ---
97
+
98
+ # intfloat-fine-tuned
99
+
100
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct) on the json dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
101
+
102
+ ## Model Details
103
+
104
+ ### Model Description
105
+ - **Model Type:** Sentence Transformer
106
+ - **Base model:** [intfloat/multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct) <!-- at revision c9e87c786ffac96aeaeb42863276930883923ecb -->
107
+ - **Maximum Sequence Length:** 512 tokens
108
+ - **Output Dimensionality:** 1024 tokens
109
+ - **Similarity Function:** Cosine Similarity
110
+ - **Training Dataset:**
111
+ - json
112
+ - **Language:** tr
113
+ - **License:** apache-2.0
114
+
115
+ ### Model Sources
116
+
117
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
118
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
119
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
120
+
121
+ ### Full Model Architecture
122
+
123
+ ```
124
+ SentenceTransformer(
125
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
126
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
127
+ (2): Normalize()
128
+ )
129
+ ```
130
+
131
+ ## Usage
132
+
133
+ ### Direct Usage (Sentence Transformers)
134
+
135
+ First install the Sentence Transformers library:
136
+
137
+ ```bash
138
+ pip install -U sentence-transformers
139
+ ```
140
+
141
+ Then you can load this model and run inference.
142
+ ```python
143
+ from sentence_transformers import SentenceTransformer
144
+
145
+ # Download from the 🤗 Hub
146
+ model = SentenceTransformer("Omerhan/checkpoint-78-ucsahin")
147
+ # Run inference
148
+ sentences = [
149
+ 'Tibet mimarisi hangi iki kültürü yansıtır?',
150
+ 'Tibet mimarisi, Çin ve Hint kültürlerini yansıtmaktadır.',
151
+ "Tibet ekonomisi geçim tarım hakimdir, ancak turizm son yıllarda büyüyen bir sanayi haline gelmiştir. Tibet'te baskın din Tibet Budizm'dir; Buna ek olarak Tibet Budizm'e benzer Bön vardır ve Tibet Müslümanları ve Hıristiyan azınlıklar da vardır. Tibet Budizmi, bölgenin sanat, müzik ve festivalleri üzerinde birincil bir etkidir. Tibet mimarisi Çin ve Hint etkilerini yansıtır. Tibet'teki zımba gıdaları kavrulmuş arpa, yak eti ve tereyağı çayıdır.",
152
+ ]
153
+ embeddings = model.encode(sentences)
154
+ print(embeddings.shape)
155
+ # [3, 1024]
156
+
157
+ # Get the similarity scores for the embeddings
158
+ similarities = model.similarity(embeddings, embeddings)
159
+ print(similarities.shape)
160
+ # [3, 3]
161
+ ```
162
+
163
+ <!--
164
+ ### Direct Usage (Transformers)
165
+
166
+ <details><summary>Click to see the direct usage in Transformers</summary>
167
+
168
+ </details>
169
+ -->
170
+
171
+ <!--
172
+ ### Downstream Usage (Sentence Transformers)
173
+
174
+ You can finetune this model on your own dataset.
175
+
176
+ <details><summary>Click to expand</summary>
177
+
178
+ </details>
179
+ -->
180
+
181
+ <!--
182
+ ### Out-of-Scope Use
183
+
184
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
185
+ -->
186
+
187
+ <!--
188
+ ## Bias, Risks and Limitations
189
+
190
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
191
+ -->
192
+
193
+ <!--
194
+ ### Recommendations
195
+
196
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
197
+ -->
198
+
199
+ ## Training Details
200
+
201
+ ### Training Dataset
202
+
203
+ #### json
204
+
205
+ * Dataset: json
206
+ * Size: 4,997 training samples
207
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
208
+ * Approximate statistics based on the first 1000 samples:
209
+ | | anchor | positive | negative |
210
+ |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
211
+ | type | string | string | string |
212
+ | details | <ul><li>min: 5 tokens</li><li>mean: 16.36 tokens</li><li>max: 61 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 33.39 tokens</li><li>max: 265 tokens</li></ul> | <ul><li>min: 23 tokens</li><li>mean: 197.11 tokens</li><li>max: 512 tokens</li></ul> |
213
+ * Samples:
214
+ | anchor | positive | negative |
215
+ |:-------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------||
216
+ | <code>Şehzade Selim kiminle akrabaydı?</code> | <code>Şehzade Selim, Dulkadir Beyi Alaüddevle Bozkurt Bey ile anne tarafından akrabaydı.</code> | <code>Safevi Şah'ı İsmail 1507 yılında hem İstanbul'un hem de Kahire'nin göstereceği tepkiyi görmek amacıyla Dulkadiroğulları Beyliği'nin üzerine yürüdü. Asıl sebebi bu olmamakla beraber görünüşteki sebep, Dulkadir Beyi Alaüddevle Bozkurt Bey'in Şii olan Şah'a kızını vermek istememesiydi. Şah İsmail Osmanlı topraklarından geçerek Kayseri üzerinden Dulkadir topraklarına girdi.Savaşta yenilen Alaüddevle Bozkurt Bey kaçtı ve Şah İsmail Bey'in bir oğlu ile iki torununu ele geçirerek öldürttü. Bunun üzerine Maraş'a ve Elbistan'a giren Şah İsmail Dulkadir Hanedanı'nın mezarlarını yaktırdı. Sonradan da Osmanlı Devleti'ne bir mektup yazıp topraklarını çiğnediğinden dolayı da özür diledi. Yıllardan beri Dulkadiroğulları Beyliği'nin kendilerine bağlı olduğunu iddia eden Memluklular ve Osmanlılar bu hareketi cevapsız bıraktılar.Bu da Şah İsmail'in Anadolu'daki prestijini artırdı. Memluklular tamamıyla sessiz kalsa da Osmanlıların sessiz kalmaları mümkün değildi.Zira Trabzon sancak beyi Şehzade Selim, anne tarafından Dulkadir Beyi Alaüddevle Bozkurt Bey ile akrabaydı.Şehzade Selim ve Şehzade Korkut Alaüddevle Bozkurt Bey'in kızı olan aynı anneden dünyaya gelmişti. Bir dayısına ve iki dayı oğluna yapılan bu harekete karşı Şehzade Selim Azerbaycan'a kadar Safevi topraklarına girerek Safevi Hanedanı'na mensup bazı kişileri esir alıp Trabzon'a getirerek dayısına yapılanın intikamını aldı. Babası Bayezid bile hiçbir şey yapmamışken Şehzade Selim' in bu hareketi gözlerin ona çevrilmesine neden oldu. Bu arada II.Bayezid Şah İsmail'in herhangi bir seferine karşı Orta Anadolu'ya asker yığdı.Bu nedenle Şah İsmail Anadolu'nun içlerine girmekten çekinmiştir. Sayısı 115 bini bulan bu orduyu gözüne kestiremeyen Şah, II. Bayezid'e Şanlı büyük babam diye hitap ettiği bir mektup yazarak 1508 yıllarının ilk aylarında Diyarbakır'a çekildi.</code> |
217
+ | <code>İngilizler hangi yılda Dervişeleri yendi?</code> | <code>İngilizler, Dervişler'i 1920 yılında yendi.</code> | <code>19. yüzyılın sonlarında, Berlin konferansı sona erdikten sonra Avrupalı imparatorluklar ordularıyla Afrika Boynuzu'na yelken açtılar. Somali üzerinde titreyen imparatorluk bulutları, Afrika Boynuzu'ndan Somali askerlerini bir araya getiren ve şimdiye kadarki en uzun sömürge karşıtı savaşlardan birini başlatan Derviş lideri Muhammed Abdullah Hassan'ı alarma geçirdi. Derviş Devleti İngiliz imparatorluğunu dört kez başarıyla püskürttü ve kıyı bölgesine geri çekilmeye zorladı. Derviş Devleti İngilizlere karşı başarılarının bir sonucu olarak Osmanlı ve Alman imparatorluklarından destek aldı. Türkler Somali ulusundan Hasan Emir'i de seçtiler ve Almanlar Dervişlerin elde edeceği her bölgeyi resmen tanımaya söz verdiler. Çeyrek asırlık İngilizleri körfezde tuttuktan sonra, Dervişler sonunda 1920'de yenildi, İngiltere'nin Afrika'da ilk kez Derviş başkenti Taleex'i bombalamak için uçakları kullandı. Bu bombardıman sonucunda eski Derviş toprakları Britanya'nın himayesine dönüştü. İtalya benzer şekilde Somali Sultanları ve ordulardan aynı muhalefetle karşı karşıya kaldı ve 1927'nin sonlarında Faşist döneme kadar modern Somali'nin parçalarının tam kontrolünü elde edemedi. Bu işgal 1941 yılına kadar sürdü ve yerini İngiliz askeri idaresi aldı.</code> |
218
+ | <code>“post-punk” terimini ilk kullanan kimdi?</code> | <code>Metinde belirtilen bilgilere göre, "post-punk" terimini ilk kullananların gazeteciler olduğu belirtilmiştir. Ancak metinde terimin ilk kullanımını yapan gazetecinin kim olduğu belirtilmemiştir.</code> | <code>“post-punk” terimi ilk olarak 1970'lerin sonlarında gazeteciler tarafından punk'ın sonik şablonunun ötesine geçen grupları farklı bölgelere tanımlamak için kullanıldı. Başlangıçta punk'ın DIY etiği ve enerjisinden esinlenen bu sanatçıların çoğu, sonuçta stil ve hareketle hayal kırıklığına uğradı ve ticari formüle, rock kongresi ve öz parodisine düştüğünü hissetti. Popülist iddialarını erişilebilirlik ve ham basitliğe karşı reddettiler, bunun yerine müzikal geleneği kırma, sıradan yerleri alt etme ve izleyicilere meydan okuma fırsatı gördüler. Sanatçılar büyük ölçüde beyaz kaygıları üzerinde punk odak ötesine taşındı, erkek, işçi sınıfı nüfus ve kurulan rock and roll tropes onun sürekli güven terk, Böyle üç akor ilerlemeler ve Chuck Berry tabanlı gitar riffs gibi. Bu sanatçılar bunun yerine “radikal içeriğin radikal bir form gerektirdiğine” inanarak punk'ı “sürekli değişimin bir zorunluluğu” olarak tanımladılar.</code> |
219
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
220
+ ```json
221
+ {
222
+ "scale": 20.0,
223
+ "similarity_fct": "cos_sim"
224
+ }
225
+ ```
226
+
227
+ ### Training Hyperparameters
228
+ #### Non-Default Hyperparameters
229
+
230
+ - `gradient_accumulation_steps`: 8
231
+ - `learning_rate`: 1e-06
232
+ - `num_train_epochs`: 1
233
+ - `lr_scheduler_type`: cosine
234
+ - `warmup_ratio`: 0.01
235
+ - `tf32`: True
236
+ - `optim`: adamw_torch_fused
237
+ - `batch_sampler`: no_duplicates
238
+
239
+ #### All Hyperparameters
240
+ <details><summary>Click to expand</summary>
241
+
242
+ - `overwrite_output_dir`: False
243
+ - `do_predict`: False
244
+ - `eval_strategy`: no
245
+ - `prediction_loss_only`: True
246
+ - `per_device_train_batch_size`: 8
247
+ - `per_device_eval_batch_size`: 8
248
+ - `per_gpu_train_batch_size`: None
249
+ - `per_gpu_eval_batch_size`: None
250
+ - `gradient_accumulation_steps`: 8
251
+ - `eval_accumulation_steps`: None
252
+ - `torch_empty_cache_steps`: None
253
+ - `learning_rate`: 1e-06
254
+ - `weight_decay`: 0.0
255
+ - `adam_beta1`: 0.9
256
+ - `adam_beta2`: 0.999
257
+ - `adam_epsilon`: 1e-08
258
+ - `max_grad_norm`: 1.0
259
+ - `num_train_epochs`: 1
260
+ - `max_steps`: -1
261
+ - `lr_scheduler_type`: cosine
262
+ - `lr_scheduler_kwargs`: {}
263
+ - `warmup_ratio`: 0.01
264
+ - `warmup_steps`: 0
265
+ - `log_level`: passive
266
+ - `log_level_replica`: warning
267
+ - `log_on_each_node`: True
268
+ - `logging_nan_inf_filter`: True
269
+ - `save_safetensors`: True
270
+ - `save_on_each_node`: False
271
+ - `save_only_model`: False
272
+ - `restore_callback_states_from_checkpoint`: False
273
+ - `no_cuda`: False
274
+ - `use_cpu`: False
275
+ - `use_mps_device`: False
276
+ - `seed`: 42
277
+ - `data_seed`: None
278
+ - `jit_mode_eval`: False
279
+ - `use_ipex`: False
280
+ - `bf16`: False
281
+ - `fp16`: False
282
+ - `fp16_opt_level`: O1
283
+ - `half_precision_backend`: auto
284
+ - `bf16_full_eval`: False
285
+ - `fp16_full_eval`: False
286
+ - `tf32`: True
287
+ - `local_rank`: 0
288
+ - `ddp_backend`: None
289
+ - `tpu_num_cores`: None
290
+ - `tpu_metrics_debug`: False
291
+ - `debug`: []
292
+ - `dataloader_drop_last`: False
293
+ - `dataloader_num_workers`: 0
294
+ - `dataloader_prefetch_factor`: None
295
+ - `past_index`: -1
296
+ - `disable_tqdm`: False
297
+ - `remove_unused_columns`: True
298
+ - `label_names`: None
299
+ - `load_best_model_at_end`: False
300
+ - `ignore_data_skip`: False
301
+ - `fsdp`: []
302
+ - `fsdp_min_num_params`: 0
303
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
304
+ - `fsdp_transformer_layer_cls_to_wrap`: None
305
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
306
+ - `deepspeed`: None
307
+ - `label_smoothing_factor`: 0.0
308
+ - `optim`: adamw_torch_fused
309
+ - `optim_args`: None
310
+ - `adafactor`: False
311
+ - `group_by_length`: False
312
+ - `length_column_name`: length
313
+ - `ddp_find_unused_parameters`: None
314
+ - `ddp_bucket_cap_mb`: None
315
+ - `ddp_broadcast_buffers`: False
316
+ - `dataloader_pin_memory`: True
317
+ - `dataloader_persistent_workers`: False
318
+ - `skip_memory_metrics`: True
319
+ - `use_legacy_prediction_loop`: False
320
+ - `push_to_hub`: False
321
+ - `resume_from_checkpoint`: None
322
+ - `hub_model_id`: None
323
+ - `hub_strategy`: every_save
324
+ - `hub_private_repo`: False
325
+ - `hub_always_push`: False
326
+ - `gradient_checkpointing`: False
327
+ - `gradient_checkpointing_kwargs`: None
328
+ - `include_inputs_for_metrics`: False
329
+ - `eval_do_concat_batches`: True
330
+ - `fp16_backend`: auto
331
+ - `push_to_hub_model_id`: None
332
+ - `push_to_hub_organization`: None
333
+ - `mp_parameters`:
334
+ - `auto_find_batch_size`: False
335
+ - `full_determinism`: False
336
+ - `torchdynamo`: None
337
+ - `ray_scope`: last
338
+ - `ddp_timeout`: 1800
339
+ - `torch_compile`: False
340
+ - `torch_compile_backend`: None
341
+ - `torch_compile_mode`: None
342
+ - `dispatch_batches`: None
343
+ - `split_batches`: None
344
+ - `include_tokens_per_second`: False
345
+ - `include_num_input_tokens_seen`: False
346
+ - `neftune_noise_alpha`: None
347
+ - `optim_target_modules`: None
348
+ - `batch_eval_metrics`: False
349
+ - `eval_on_start`: False
350
+ - `use_liger_kernel`: False
351
+ - `eval_use_gather_object`: False
352
+ - `batch_sampler`: no_duplicates
353
+ - `multi_dataset_batch_sampler`: proportional
354
+
355
+ </details>
356
+
357
+ ### Framework Versions
358
+ - Python: 3.11.11
359
+ - Sentence Transformers: 3.1.1
360
+ - Transformers: 4.45.2
361
+ - PyTorch: 2.5.1+cu124
362
+ - Accelerate: 1.2.1
363
+ - Datasets: 3.2.0
364
+ - Tokenizers: 0.20.3
365
+
366
+ ## Citation
367
+
368
+ ### BibTeX
369
+
370
+ #### Sentence Transformers
371
+ ```bibtex
372
+ @inproceedings{reimers-2019-sentence-bert,
373
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
374
+ author = "Reimers, Nils and Gurevych, Iryna",
375
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
376
+ month = "11",
377
+ year = "2019",
378
+ publisher = "Association for Computational Linguistics",
379
+ url = "https://arxiv.org/abs/1908.10084",
380
+ }
381
+ ```
382
+
383
+ #### MultipleNegativesRankingLoss
384
+ ```bibtex
385
+ @misc{henderson2017efficient,
386
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
387
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
388
+ year={2017},
389
+ eprint={1705.00652},
390
+ archivePrefix={arXiv},
391
+ primaryClass={cs.CL}
392
+ }
393
+ ```
394
+
395
+ <!--
396
+ ## Glossary
397
+
398
+ *Clearly define terms in order to be accessible across audiences.*
399
+ -->
400
+
401
+ <!--
402
+ ## Model Card Authors
403
+
404
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
405
+ -->
406
+
407
+ <!--
408
+ ## Model Card Contact
409
+
410
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
411
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/content/intfloat-fine-tuned-ucsahin/checkpoint-78",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.45.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.1.1",
4
+ "transformers": "4.45.2",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:31d19b8fe7f7d208cd22775b8e9e2cf0d009b677a469204049c4ff92d9539a74
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "additional_special_tokens": [],
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": true,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "mask_token": "<mask>",
50
+ "max_length": 512,
51
+ "model_max_length": 512,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizer",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }