gentilrenard commited on
Commit
8cce6f4
1 Parent(s): 25ba8c9

Add SetFit model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false
9
+ }
README.md ADDED
@@ -0,0 +1,273 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ library_name: setfit
3
+ tags:
4
+ - setfit
5
+ - sentence-transformers
6
+ - text-classification
7
+ - generated_from_setfit_trainer
8
+ datasets:
9
+ - gentilrenard/lmd_ukraine_comments
10
+ metrics:
11
+ - accuracy
12
+ widget:
13
+ - text: L'évolution de Ukraine depuis 1994, c'est probablement ce qui se serait passé
14
+ en Russie si Poutine n'y avait pas pris le pouvoir. On comprend que ça ne lui
15
+ plaise pas puisqu'il est la cause même de la divergence. Un seul homme peut faire
16
+ le malheur de son peuple et de ses voisins.
17
+ - text: Ce que vous dîtes est vrai en partie, en Turquie, les migrants(réfugiés)
18
+ Irakiens et Syriens sont victimes de racisme importants et sont pourtant majoritairement
19
+ de la même religion CEPENDANT la France, l'europe, n'est (ne sont) pas là Turquie.
20
+ Les première avec ont un caractère universaliste et pays des droits de l'homme...?
21
+ Cherchez l'erreur
22
+ - text: 'On continue d''utiliser le gaz Russe, mais on refuse de payer en Rouble car
23
+ cela n''est pas conforme au droit. Mais une question intéressante sur le fond
24
+ est : toutes nos sanctions et la prise (temporaire) de ce tableau sont-elles conformes
25
+ au droit. Dis un peu autrement, le droit est-il toujours de notre côté dans
26
+ cette affaire ? En effet, la France et l''UE ne sont pas en guerre. De quel droit
27
+ avons nous le droit de faire tout cela ?'
28
+ - text: 'Difficile d''apposer des arguments rationnels dans un tel climat paranoïaque
29
+ entretenu par Poutine. On a bien l''impression que la menace de l''OTAN n''est
30
+ qu''un prétexte : le feu couve de façon durable en Russie. Haine croissante
31
+ des valeurs démocratiques de l''occident considéré comme impur et dégénéré,
32
+ messianisme jusqu''au sacrifice ultime de la sainte Russie accolée à une confiscation
33
+ du pouvoir de type mafieux. Qui plus est, l''histoire de l''Ukraine, terre de
34
+ sang, a été marquée de tant de crises nationalistes (Petlioura, Bandera, etc.),
35
+ de massacres, de pogroms, de luttes, de découpages aléatoires entre Pologne,
36
+ empire austro-hongrois (Lviv), décombres de l''empire ottoman (tatars et Crimée),
37
+ etc. qu''à moins de réécrire l''histoire de la grande Russie comme le fait
38
+ Poutine, il est difficile d''ignorer le destin tragique du peuple ukrainien. La
39
+ lecture de M. Mélenchon est un héritage du communisme qui prône le non alignement
40
+ pour transcender les nationalismes : un échec total.'
41
+ - text: Pour Yves Pozzo di Borgo, c'est une tradition familliale. Charles André Pozzo
42
+ di Borgo fut ambassadeur de la Russie.
43
+ pipeline_tag: text-classification
44
+ inference: true
45
+ base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
46
+ model-index:
47
+ - name: SetFit with sentence-transformers/paraphrase-multilingual-mpnet-base-v2
48
+ results:
49
+ - task:
50
+ type: text-classification
51
+ name: Text Classification
52
+ dataset:
53
+ name: gentilrenard/lmd_ukraine_comments
54
+ type: gentilrenard/lmd_ukraine_comments
55
+ split: test
56
+ metrics:
57
+ - type: accuracy
58
+ value: 0.762589928057554
59
+ name: Accuracy
60
+ ---
61
+
62
+ # SetFit with sentence-transformers/paraphrase-multilingual-mpnet-base-v2
63
+
64
+ This is a [SetFit](https://github.com/huggingface/setfit) model trained on the [gentilrenard/lmd_ukraine_comments](https://huggingface.co/datasets/gentilrenard/lmd_ukraine_comments) dataset that can be used for Text Classification. This SetFit model uses [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
65
+
66
+ The model has been trained using an efficient few-shot learning technique that involves:
67
+
68
+ 1. Fine-tuning a [Sentence Transformer](https://www.sbert.net) with contrastive learning.
69
+ 2. Training a classification head with features from the fine-tuned Sentence Transformer.
70
+
71
+ ## Model Details
72
+
73
+ ### Model Description
74
+ - **Model Type:** SetFit
75
+ - **Sentence Transformer body:** [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2)
76
+ - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
77
+ - **Maximum Sequence Length:** 128 tokens
78
+ - **Number of Classes:** 3 classes
79
+ - **Training Dataset:** [gentilrenard/lmd_ukraine_comments](https://huggingface.co/datasets/gentilrenard/lmd_ukraine_comments)
80
+ <!-- - **Language:** Unknown -->
81
+ <!-- - **License:** Unknown -->
82
+
83
+ ### Model Sources
84
+
85
+ - **Repository:** [SetFit on GitHub](https://github.com/huggingface/setfit)
86
+ - **Paper:** [Efficient Few-Shot Learning Without Prompts](https://arxiv.org/abs/2209.11055)
87
+ - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
88
+
89
+ ### Model Labels
90
+ | Label | Examples |
91
+ |:------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
92
+ | 2 | <ul><li>"Waouh on a failli avoir un article positif (pas seulement sur Macron, mais positif sur la France). Heureusement si vous voulez du vrai positif il y a toute la presse étrangère en ce moment. On pourrait aussi parler du paquet climat voté la semaine dernière, et qui aura beaucoup plus d'impact que toutes les primes de rénovations et autres éoliennes. Mais non, ce serait être positif et souvenez vous, tout va mal, nous sommes foutus."</li><li>"Pourriez-vous lire l'article? Cela vous éviterait de poser des questions inutiles."</li><li>'Les pays qui ne suivent pas les USA ont très majoritairement sont dirigés par un apprenti ou un chef boucher.'</li></ul> |
93
+ | 0 | <ul><li>'Les "Savonarole" finissent toujours sur le bûcher. Quant on traite ses frères devenus ses adversaires, enfin ses ennemis, d\'abord de "nazis" et désormais de "Satan", ou bien on a complètement perdu la raison, ou bien on s\'inscrit dans une guerre de religion ou fermente le pire fanatisme religieux. Cette guerre pan-slave est donc avant tout une guerre schismatique entre sectes orthodoxes comme on les cultivait au Haut Moyen-Age... mille ans avant la chute de Byzance! A propos de christianisme, on attendrait un message "oecuménique" de la part du Pape de Rome en vue de remonter les bretelles de son "confrère" de Moscou, plutôt qu\'un rappel des atrocités du golodomor des années 30 qui ne fait pas vraiment avancer la question actuelle. Faut-il rappeler à François que le sujet, ce ne sont pas les crimes de Staline, mais ceux, hic et nunc, de Poutine qui certes, ne comptabilise plus les divisions du Vatican, mais qui aurait besoin d\'une bonne claque morale universelle?'</li><li>"Les russes ne détruiront ni New-York, ni Munich. Cela serait la fin de la Russie (et probablement au passage de l'Occident), et ils le savent. Les russes n'attaqueront pas un pays de l'OTAN avec des moyens conventionnels. à 1 contre 8, 1 contre 20 en termes de PIB et de budget militaire, ils se feraient massacrer, et ils le savent. On a vu ces derniers mois ce que valait véritablement l'armée russe : pas de quoi effrayer l'OTAN. Ils leur reste... une très grande bouche avec laquelle ils peuvent hurler, menacer, se plaindre. Laissons les dire, et envoyons les chars. Et le reste. Cette folie doit cesser - et pas avec la défaite de l'Ukraine, qui serait la défaite de toutes les démocraties attachées à l'état de droit."</li><li>'« C’est l’affaire des russes »? C’est donc votre affaire en qualité de propagandiste stipendié par le Kremlin ? Pouvez vous vous occuper de vos affaires Ricardo et cessez de vous occuper des « occidentaux » svp'</li></ul> |
94
+ | 1 | <ul><li>"Salandre : les documents dont vous faîtes état montrent toujours la même chose, à savoir toujours les mêmes carcasses. 1300 camions (soit une colonne d'au moins 50km) auraient été détruits. Où sont-ils donc? C'est toujours une poignée des mêmes camions qui est montrée. Un millier de tanks auraient été également détruits ce qui donne un volume de l'ordre 90 000 m3 de ferraille. J'attends qu'on montre leurs carcasses. Et le tout à l'avenant... CORRECTEUR : en démontant la couverture de cette guerre, je m'occupe justement d'une affaire qui me concerne. Il ne vous revient pas de décréter ce qui me concerne ou pas. C'est ma stricte affaire. Et si ce que je dis vous dérange vous avez l'entière liberté de passer votre chemin sans lire."</li><li>'Vous êtes naif si vous croyez que seuls les Russes ont ce genre de comportement en tant de guerre...vous devez être de ceux qui croient en la guerre "propre" que les Occidentaux prétendre faire depuis 40 ans (parfois avec les Russes comme alliés d\'ailleurs).'</li><li>'Voilà donc un reportage qui, peut-être un peu "à l\'insu de son plein gré", confirme que l\'Ukraine actuelle est une fiction, stricte création soviétique. Il y a en fait trois Ukraine, la russophone qui est russe et veut rejoindre la mère-patrie, la polonaise et la austro-hongroise. Quant à l\'ukrainien, c\'est un "patois" de russe (moi je préfère l\'expression langue dérivée du russe, mais aux racines foncièrement russes, comme ma traductrice en Crimée me l\'avait expliqué, explication que j\'ai faîte mienne n\'ayant pas les connaissances linguistiques pour la contester). Les frontières ne sont pas création divine. Elles ne sont jamais définitives. Par exemple, la dernière modification des frontières françaises remonte à l\'indépendance des Comores. Jusqu\'en 1962, l\'Algérie était trois départements français. Et peut-être qu\'un jour la Nouvelle Calédonie ne sera plus française, que la Guyane sera indépendante, et ainsi de suite...'</li></ul> |
95
+
96
+ ## Evaluation
97
+
98
+ ### Metrics
99
+ | Label | Accuracy |
100
+ |:--------|:---------|
101
+ | **all** | 0.7626 |
102
+
103
+ ## Uses
104
+
105
+ ### Direct Use for Inference
106
+
107
+ First install the SetFit library:
108
+
109
+ ```bash
110
+ pip install setfit
111
+ ```
112
+
113
+ Then you can load this model and run inference.
114
+
115
+ ```python
116
+ from setfit import SetFitModel
117
+
118
+ # Download from the 🤗 Hub
119
+ model = SetFitModel.from_pretrained("gentilrenard/paraphrase-multilingual-mpnet-base-v2_setfit-lemonde-french")
120
+ # Run inference
121
+ preds = model("Pour Yves Pozzo di Borgo, c'est une tradition familliale. Charles André Pozzo di Borgo fut ambassadeur de la Russie.")
122
+ ```
123
+
124
+ <!--
125
+ ### Downstream Use
126
+
127
+ *List how someone could finetune this model on their own dataset.*
128
+ -->
129
+
130
+ <!--
131
+ ### Out-of-Scope Use
132
+
133
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
134
+ -->
135
+
136
+ <!--
137
+ ## Bias, Risks and Limitations
138
+
139
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
140
+ -->
141
+
142
+ <!--
143
+ ### Recommendations
144
+
145
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
146
+ -->
147
+
148
+ ## Training Details
149
+
150
+ ### Training Set Metrics
151
+ | Training set | Min | Median | Max |
152
+ |:-------------|:----|:--------|:----|
153
+ | Word count | 1 | 63.1703 | 180 |
154
+
155
+ | Label | Training Sample Count |
156
+ |:------|:----------------------|
157
+ | 0 | 115 |
158
+ | 1 | 82 |
159
+ | 2 | 126 |
160
+
161
+ ### Training Hyperparameters
162
+ - batch_size: (32, 32)
163
+ - num_epochs: (2, 2)
164
+ - max_steps: 2350
165
+ - sampling_strategy: oversampling
166
+ - body_learning_rate: (3e-07, 3e-07)
167
+ - head_learning_rate: 0.01
168
+ - loss: CosineSimilarityLoss
169
+ - distance_metric: cosine_distance
170
+ - margin: 0.25
171
+ - end_to_end: False
172
+ - use_amp: False
173
+ - warmup_proportion: 0.1
174
+ - seed: 42
175
+ - run_name: setfit_optimized_v4
176
+ - eval_max_steps: -1
177
+ - load_best_model_at_end: True
178
+
179
+ ### Training Results
180
+ | Epoch | Step | Training Loss | Validation Loss |
181
+ |:----------:|:--------:|:-------------:|:---------------:|
182
+ | 0.0005 | 1 | 0.243 | - |
183
+ | 0.0234 | 50 | 0.2654 | 0.2636 |
184
+ | 0.0467 | 100 | 0.2942 | 0.2611 |
185
+ | 0.0701 | 150 | 0.2462 | 0.2572 |
186
+ | 0.0934 | 200 | 0.2562 | 0.2546 |
187
+ | 0.1168 | 250 | 0.2445 | 0.2505 |
188
+ | 0.1401 | 300 | 0.2206 | 0.2473 |
189
+ | 0.1635 | 350 | 0.2435 | 0.2453 |
190
+ | 0.1868 | 400 | 0.1985 | 0.2425 |
191
+ | 0.2102 | 450 | 0.265 | 0.2411 |
192
+ | 0.2335 | 500 | 0.2408 | 0.2387 |
193
+ | 0.2569 | 550 | 0.1986 | 0.2369 |
194
+ | 0.2802 | 600 | 0.2071 | 0.2351 |
195
+ | 0.3036 | 650 | 0.2119 | 0.2341 |
196
+ | 0.3270 | 700 | 0.2558 | 0.2314 |
197
+ | 0.3503 | 750 | 0.215 | 0.2292 |
198
+ | 0.3737 | 800 | 0.2286 | 0.2271 |
199
+ | 0.3970 | 850 | 0.2495 | 0.2256 |
200
+ | 0.4204 | 900 | 0.1844 | 0.2237 |
201
+ | 0.4437 | 950 | 0.2529 | 0.2216 |
202
+ | 0.4671 | 1000 | 0.2074 | 0.2202 |
203
+ | 0.4904 | 1050 | 0.1753 | 0.2188 |
204
+ | 0.5138 | 1100 | 0.2216 | 0.2169 |
205
+ | 0.5371 | 1150 | 0.1878 | 0.2153 |
206
+ | 0.5605 | 1200 | 0.1862 | 0.2142 |
207
+ | 0.5838 | 1250 | 0.1682 | 0.2129 |
208
+ | 0.6072 | 1300 | 0.2425 | 0.2116 |
209
+ | 0.6305 | 1350 | 0.174 | 0.211 |
210
+ | 0.6539 | 1400 | 0.1641 | 0.209 |
211
+ | 0.6773 | 1450 | 0.2014 | 0.2094 |
212
+ | 0.7006 | 1500 | 0.1423 | 0.2083 |
213
+ | 0.7240 | 1550 | 0.204 | 0.2078 |
214
+ | 0.7473 | 1600 | 0.2265 | 0.2075 |
215
+ | 0.7707 | 1650 | 0.1812 | 0.2063 |
216
+ | 0.7940 | 1700 | 0.1804 | 0.2058 |
217
+ | 0.8174 | 1750 | 0.1658 | 0.2055 |
218
+ | 0.8407 | 1800 | 0.1374 | 0.2064 |
219
+ | 0.8641 | 1850 | 0.1316 | 0.2057 |
220
+ | 0.8874 | 1900 | 0.1566 | 0.205 |
221
+ | **0.9108** | **1950** | **0.2053** | **0.2035** |
222
+ | 0.9341 | 2000 | 0.1436 | 0.2046 |
223
+ | 0.9575 | 2050 | 0.2436 | 0.2039 |
224
+ | 0.9809 | 2100 | 0.1999 | 0.2038 |
225
+ | 1.0042 | 2150 | 0.1459 | 0.2042 |
226
+ | 1.0276 | 2200 | 0.1669 | 0.2044 |
227
+ | 1.0509 | 2250 | 0.1705 | 0.2042 |
228
+ | 1.0743 | 2300 | 0.1509 | 0.2038 |
229
+ | 1.0976 | 2350 | 0.1382 | 0.2036 |
230
+
231
+ * The bold row denotes the saved checkpoint.
232
+ ### Framework Versions
233
+ - Python: 3.10.12
234
+ - SetFit: 1.0.3
235
+ - Sentence Transformers: 2.3.0
236
+ - Transformers: 4.36.0
237
+ - PyTorch: 2.0.0
238
+ - Datasets: 2.16.1
239
+ - Tokenizers: 0.15.0
240
+
241
+ ## Citation
242
+
243
+ ### BibTeX
244
+ ```bibtex
245
+ @article{https://doi.org/10.48550/arxiv.2209.11055,
246
+ doi = {10.48550/ARXIV.2209.11055},
247
+ url = {https://arxiv.org/abs/2209.11055},
248
+ author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
249
+ keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
250
+ title = {Efficient Few-Shot Learning Without Prompts},
251
+ publisher = {arXiv},
252
+ year = {2022},
253
+ copyright = {Creative Commons Attribution 4.0 International}
254
+ }
255
+ ```
256
+
257
+ <!--
258
+ ## Glossary
259
+
260
+ *Clearly define terms in order to be accessible across audiences.*
261
+ -->
262
+
263
+ <!--
264
+ ## Model Card Authors
265
+
266
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
267
+ -->
268
+
269
+ <!--
270
+ ## Model Card Contact
271
+
272
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
273
+ -->
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "checkpoints/step_1950",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 514,
18
+ "model_type": "xlm-roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "output_past": true,
22
+ "pad_token_id": 1,
23
+ "position_embedding_type": "absolute",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.36.0",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 250002
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "2.0.0",
4
+ "transformers": "4.7.0",
5
+ "pytorch": "1.9.0+cu102"
6
+ }
7
+ }
config_setfit.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "normalize_embeddings": false,
3
+ "labels": null
4
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:46046da92fbcd63a5a515707c8e3d61ef8af3761bf00603bf8a7c5d269fad6d9
3
+ size 1112197096
model_head.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:21ad0027858c3c1c73c6164c9e311086f93dad69c86483228715ae89ffd3cd99
3
+ size 19347
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fa685fc160bbdbab64058d4fc91b60e62d207e8dc60b9af5c002c5ab946ded00
3
+ size 17083009
tokenizer_config.json ADDED
@@ -0,0 +1,61 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "max_length": 128,
50
+ "model_max_length": 512,
51
+ "pad_to_multiple_of": null,
52
+ "pad_token": "<pad>",
53
+ "pad_token_type_id": 0,
54
+ "padding_side": "right",
55
+ "sep_token": "</s>",
56
+ "stride": 0,
57
+ "tokenizer_class": "XLMRobertaTokenizer",
58
+ "truncation_side": "right",
59
+ "truncation_strategy": "longest_first",
60
+ "unk_token": "<unk>"
61
+ }