panosgriz commited on
Commit
2c82fe3
1 Parent(s): ef3eed2

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
37
+ unigram.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 384,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,454 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
3
+ datasets: []
4
+ language: []
5
+ library_name: sentence-transformers
6
+ pipeline_tag: sentence-similarity
7
+ tags:
8
+ - sentence-transformers
9
+ - sentence-similarity
10
+ - feature-extraction
11
+ - generated_from_trainer
12
+ - dataset_size:1440
13
+ - loss:MultipleNegativesRankingLoss
14
+ widget:
15
+ - source_sentence: Ποια είναι η ομοιότητα αμινοξέων μεταξύ των IFITM 1, IFITM 2 και
16
+ IFITM 3;
17
+ sentences:
18
+ - 'αναλυση mh ( ιος, φυλο ( γυναικα / αρρεν ) ) προσαρμοσμενη για los ( < 4 η ≥4
19
+ ετη ), οι πιθανοτητες μολυνσης παρεμειναν σημαντικες μεταξυ των ηλικιωμενων κατοικων
20
+ ( ≥86 ετων ) : nov + / ανδρες ( αναλογια πιθανοτητων ( or ( mh ) ) : 1, 64, 95
21
+ % διαστημα εμπιστοσυνης ( ci ) : 1, 16 – 2, 30 ) και flu + / θηλυκο και αρσενικο
22
+ ( αντιστοιχα or ( mh ) : 1, 50, ci : 1, 27 – 1, 79 και 1, 73, ci : 1, 28 – 2,
23
+ 33 ). στη'
24
+ - '##5 περιοριζεται κυριως στα κυτταρα οστεοβλαστων [ 18, 19, 27 ], ενω οι αλλες
25
+ πρωτεινες ifitm εκφραζονται παντου ( ii ). ομοιοτητα αλληλουχιας αμινοξεων : η
26
+ αλληλουχια αμινοξεων του ifitm5 ειναι σχετικα ανομοια με τις πρωτεινες ifitm1
27
+ - 3 ( ~ 65 % ομοιοτητα ), ενω οι πρωτεινες ifitm1 - 3 μοιραζονται ~ 85 % ομοιοτητα
28
+ μεταξυ τους ( εικονα 1 - c ). επιπλεον, το ifitm5 εχει μια περιοχη πλουσια σε
29
+ ασπαρτικο στην c - τερματικη περιοχη, η οποια θα μπορουσε να εμπλεκεται στη δεσμευση
30
+ ασβεστιου ( εικονα 1 -'
31
+ - 'οι εργαζομενοι στον τομεα της υγειας θα πρεπει να λαμβανουν τις ακολουθες προφυλαξεις
32
+ : συμπληρωστε τα μετρα προληψης και ελεγχου λοιμωξεων, συμπεριλαμβανομενης της
33
+ υγιεινης των χεριων. σιγουρευτειτε οτι το δωματιο οπου ο ασθενης φροντιζει ειναι
34
+ καλα αεριζομενος, ανοιγοντας παραθυρα, εαν ειναι απαραιτητο. παροχη οδηγιων στους
35
+ φροντιστες και τα μελη του νοικοκυριου για τον καθαρισμο και την απολυμανση στο
36
+ σπιτι, καθως και για τη διαχειριση αποβλητων, πλυντηριου και σκευη που σχετιζονται
37
+ με τον ασθενη. αναζητηστε απο τον ασθενη να φοραει ιατρικη μασκα κατα την παροχη
38
+ φροντιδας η σε αποσταση ενος μετρου. αποθηκευση περιορισμου του αριθμου των μελων
39
+ του νοικοκυριου κατα τη διαρκεια επισκεψεων και διατηρησης τουλαχιστον αποστασης
40
+ 1 μετρου. αφαιρεστε'
41
+ - source_sentence: Ποια είναι μερικά ψηφιακά εργαλεία που χρησιμοποιούνται για την
42
+ υποστήριξη εντοπισμού επαφών; Πώς μπορούν να ενισχύσουν τις διαδικασίες εντοπισμού
43
+ επαφών;
44
+ sentences:
45
+ - δεν ξερουμε ποτε θα τελειωσει η πανδημια, αλλα γνωριζουμε οτι εξαρταται απο καθε
46
+ ατομο που συμβαλλει στη διακοπη της εξαπλωσης του ιου. οι θυσιες που κανατε με
47
+ το να μην δειτε τους φιλους σας και με το να μην πατε στο σχολειο για λιγο, και
48
+ αλλες δραστηριοτητες, ειναι η συμβολη σας στην καταπολεμηση της πανδημιας. βαζοντας
49
+ τις κοινωνιες και τις οικονομιες σε αναμονη, εχουμε μειωσει την ικανοτητα του
50
+ ιου να εξαπλωθει μεσω των κοινοτητων μας. αυτα τα αμυντικα μετρα εχουν βοηθησει
51
+ να περιοριστει η βλαβη που μπορει να προκαλεσει ο ιος, και μας αγορασε χρονο για
52
+ να μαθουμε περισσοτερα για τον ιο και να βρουμε λυσεις ωστε να μπορεσουμε να επιστρεψουμε
53
+ σε εναν πιο οικειο
54
+ - '##02c704 ; huang, lijuan ; nie, shaofa ; liu, zengyan ; yu, hongjie ; yan, weirong
55
+ ; xu, yihuaημερομηνια : 2011 - 05 - 16doi : 10. 1186 / 1471 - 2334 - 11 - 128αδεια
56
+ : cc - byabstract : ιστορικο : η κινα διατρεχει τον μεγαλυτερο κινδυνο της πανδημιας
57
+ ( h1n1 ) 2009 λογω του τεραστιου πληθυσμου της και του υψηλου πληθυσμου της. η
58
+ ασαφης κατανοηση και η αρνητικη σταση απεναντι'
59
+ - οσον αφορα τα ηλεκτρονικα εργαλεια και την τεχνολογια των πληροφοριων μπορουν
60
+ να χρησιμοποιηθουν για την ενισχυση της αποτελεσματικοτητας των διαδικασιων εντοπισμου
61
+ επαφης, και χρησιμοποιουνται επι του παροντος σε αυτες τις περιπτωσεις υγειας.
62
+ ωστοσο, το εν λογω εργατικο δυναμικο μπορει να κατακλυζεται γρηγορα στο πλαισιο
63
+ της εκτεταμενης μεταδοσης sars - cov - 2. τα ηλεκτρονικα εργαλεια και η τεχνολογια
64
+ πληροφοριων μπορουν να χρησιμοποιηθουν για την ενισχυση της αποτελεσματικοτητας
65
+ των υπηρεσιων εντοπισμου επαφων, καθως και για την αποφυγη της χρησης των εν λογω
66
+ εργαλειων. ψηφιακα εργαλεια που υποστηριζουν τις διαδικασιες εντοπισμου επαφων
67
+ μπορουν να χωριζονται σε γενικες γραμμες σε τρεις κατηγοριες που βασιζονται στη
68
+ λειτουργια δημοσιας υγειας κατα τη διαρκεια συγκεκριμενων σταδιων της διαδικασιας
69
+ εντοπισμου επαφων
70
+ - source_sentence: Σχετίζονται οι σύγχρονοι ιοί της γρίπης με τον ιό της ισπανικής
71
+ γρίπης του 1918;
72
+ sentences:
73
+ - '##bdtrp - m4hr ) και εχουμε κανει προκαταρκτικη ερευνα σχετικα με την ανασταλτικη
74
+ τους δραση εναντι των κυτταρων που διαμεσολαβουνται απο τον hiv - 1 env. συντηξη
75
+ 16. στην παρουσα μελετη, σχεδιασαμε ενα νεο τεχνητο πεπτιδιο, το ap3 ( εικ. 1a
76
+ ), με στοχο την εφαρμογη της δομης " m - t hook " για τη σταθεροποιηση της αλληλεπιδρασης
77
+ του τεχνητου πεπτιδιου με τον υδροφοβο θυλακα στο τριμερες gp41 nhr 17, 18. μετα
78
+ απο διεξοδικη μελετη της αντιικης του δρασης, της βιοχημικης'
79
+ - '##ου α σε 648 δειγματα κοπρανων διαφορετικων ζωικων ειδων απο τη βορειοανατολικη
80
+ μεσοπεριοχη της πολιτειας παρα της βραζιλιας, η οποια χαρακτηριζεται ως αστικοποιημενη
81
+ περιοχη με θραυσματα δασων. τα δειγματα κοπρανων συλλεχθηκαν απο τον οκτωβριο
82
+ του 2014 εως τον απριλιο του 2016 και υποβληθηκαν σε ποιοτικη αλυσιδωτη αντιδραση
83
+ πολυμερασης σε πραγματικο χρονο ( rt - qpcr ), χρησιμοποιωντας το γονιδιο nsp3
84
+ ως στοχο. παρατηρηθηκε οτι το 27, 5 % ( 178 / 648 ) των δειγματων παρουσιασε θετικα
85
+ αποτελεσματα για rva, με 178 δειγματα κατανεμημενα σε πτηνα ( 23, 6 % ), κυνοδοντες'
86
+ - ( 7 ). ο αντικτυπος αυτης της πανδημιας δεν περιοριστηκε στο 191871919. ολες οι
87
+ πανδημιες γριπης α απο εκεινη την εποχη, και μαλιστα σχεδον ολες οι περιπτωσεις
88
+ γριπης α παγκοσμιως ( εκτος απο τις ανθρωπινες μολυνσεις απο ιους των πτηνων οπως
89
+ ο h5n1 και ο h7n7 ), εχουν προκληθει απο απογονους του ιου του 1918, συμπεριλαμβανομενων
90
+ των « παρασυρομενων » ιων h1n1 hn2n2 και των ιων h2n2. ιους. τα τελευταια αποτελουνται
91
+ απο βασικα γονιδια απο τον ιο του 1918, ενημερωμενα απο ενσωματωμενα στη συνεχεια
92
+ γονιδια
93
+ - source_sentence: Ποια είναι η θέση της ΠΟΥ σχετικά με τη χρήση του φυτικού υλικού
94
+ Artemisia για την πρόληψη ή τη θεραπεία της ελονοσίας ή/και COVID-19;
95
+ sentences:
96
+ - 'αποφασιζοντας να κλεισουν, να κλεισουν εν μερει η να ανοιξουν ξανα σχολεια θα
97
+ πρεπει να καθοδηγηθουν απο μια προσεγγιση με βαση τον κινδυνο, να μεγιστοποιηθουν
98
+ τα εκπαιδευτικα, ευεξια και υγεια για τους μαθητες, τους εκπαιδευτικους, το προσωπικο
99
+ και την ευρυτερη κοινοτητα, και να συμβαλουν στην προληψη μιας νεας εστιας covid
100
+ - 19 στην κοινοτητα. πολλα στοιχεια θα πρεπει να αξιολογουνται για την αποφαση
101
+ για την επανενωση των σχολειων η τη διατηρηση τους ανοικτα : η επανεκπαιδευση
102
+ του covid - 19 σε τοπικο επιπεδο : αυτο μπορει να διαφερει απο το ενα μερος σε
103
+ αλλο σε μια χωραπλεονεκτηματα και κινδυνοι : ποια ειναι τα πιθανα οφελη και'
104
+ - οι πιο ευρεως χρησιμοποιουμενες αντιμαλατικες θεραπειες, θεραπειες συνδυασμου
105
+ με βαση την αρτεμισινη ( acts ), παραγονται χρησιμοποιωντας την καθαρη ενωση αρτεμισινινης
106
+ που εξαγεται απο το φυτο artemisia annua. υπηρξαν αναφορες οτι τα προιοντα η τα
107
+ εκχυλισματα ( π. χ. φυτικα τσαι η δισκια ) που παραγονται απο το φυτικο υλικο
108
+ artemisia μπορει να εχουν προληπτικη η θεραπευτικη επιδραση στο covid - 19. ωστοσο,
109
+ τα διαθεσιμα in vitro στοιχεια δειχνουν οτι τα καθαρισμενα προιοντα αρτεμισινινης
110
+ η a. annua φυτικα προιοντα η εκχυλισματα δεν εχουν σημαντικη επιδραση κατα του
111
+ covid - 19 σε συγκεντρωσεις που
112
+ - την ανιχνευση της θερμοκρασιας του σωματος των επιβατων που φευγουν απο τη γουχαν
113
+ σε αεροδρομια, σιδηροδρομικους σταθμους, σταθμους λεωφορειων μεγαλων αποστασεων
114
+ και τερματικους σταθμους επιβατων. απο τις 17 ιανουαριου, συνολικα σχεδον 0, 3
115
+ εκατομμυρια ανθρωποι ειχαν δοκιμαστει για τη θερμοκρασια του σωματος [ 23 ]. στη
116
+ γουχαν, υπαρχουν περιπου 2, 87 εκατομμυρια μετακινουμενος πληθυσμος [ 24 ]. υποθεσαμε
117
+ οτι 0, 1 εκατομμυρια ανθρωποι μετακινουνταν στην πολη της γουχαν την ημερα απο
118
+ τις 10 ιανουαριου 2020 και πιστευουμε οτι αυτος ο αριθμος θα αυξανοταν ( κυριως
119
+ λογω των χειμερινων διακοπων και των διακοπων της κινεζικης πρωτοχρονιας ) μεχρι
120
+ τις 24 ιανουαριου
121
+ - source_sentence: Η WHO συνιστά την υδροξυχλωροκίνη ως θεραπεία για το COVID-19;
122
+ sentences:
123
+ - ολα τα εμβολια με χρηση εκτακτης αναγκης who ειναι εξαιρετικα αποτελεσματικα στην
124
+ προληψη σοβαρων ασθενειων, νοσηλειας και θανατου λογω covid - 19. θα πρεπει να
125
+ αποδεχτειτε το εμβολιο που προσφερονται πρωτα και να εμβολιαστειτε αμεσως μολις
126
+ ειναι η σειρα σας για τη μειωση του κινδυνου σας. μην καθυστερησετε να εμβολιαστειτε,
127
+ εκτος εαν σας συμβουλευσει ο παροχος υγειονομικης περιθαλψης σας, καθως αυτο θα
128
+ μπορουσε να σας θεσει σε κινδυνο covid - 19. το getting εμβολιαζομενο θα μπορουσε
129
+ να σας σωσει τη ζωη. τον απριλιο 2020, who δημοσιευσε τα ελαχιστα κριτηρια για
130
+ το ποσο αποτελεσματικα εμβολια covid - 19 θα πρεπει να ειναι για
131
+ - βαση για την εναρξη περαιτερω μελετων σχετικα με την παθογενεση και τη βελτιστοποιηση
132
+ του σχεδιασμου των διαγνωστικων, αντιικων και εμβολιαστικων στρατηγικων για αυτην
133
+ την αναδυομενη μολυνση. η υποοικογενεια coronavirinae, οικογενεια coronavirdiae,
134
+ ταξη nidovirales. υπαρχουν τεσσερα γενη covs, συγκεκριμενα, ο αλφακορωνοιος (
135
+ αcov ), ο βητα κορωνοιος ( βcov ), ο δελτακορωνοιος ( δcov ) και ο γαμμακορωνοιος
136
+ ( γcov ) [ 1 ]. εξελικτικες αναλυσεις εχουν
137
+ - η συσταση αυτη βασιζεται σε 30 δοκιμες με περισσοτερους απο 10 000 ασθενεις με
138
+ covid - 19. η υδροξυχλωροκινη δεν μειωσε τη θνησιμοτητα, την αναγκη η τη διαρκεια
139
+ του μηχανικου εξαερισμου. η ληψη υδροξυχλωροκινης για τη θεραπεια του covid -
140
+ 19 μπορει να αυξησει τον κινδυνο καρδιακων προβληματων, διαταραχων του αιματος
141
+ και των λεμφαδενων, νεφρικων βλαβων, ηπατικων προβληματων και ανεπαρκειας. περισσοτερες
142
+ πληροφοριες μπορουν να βρεθουν εδω. ωστοσο, τα υδροξυχλωροκινη και τα χλωροκινη
143
+ ειναι ασφαλη για χρηση σε ασθενεις με αυτοανοσες ασθενειες η ελονοσια ( οχι covid
144
+ - 19 ).
145
+ ---
146
+
147
+ # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
148
+
149
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
150
+
151
+ ## Model Details
152
+
153
+ ### Model Description
154
+ - **Model Type:** Sentence Transformer
155
+ - **Base model:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) <!-- at revision bf3bf13ab40c3157080a7ab344c831b9ad18b5eb -->
156
+ - **Maximum Sequence Length:** 128 tokens
157
+ - **Output Dimensionality:** 384 tokens
158
+ - **Similarity Function:** Cosine Similarity
159
+ <!-- - **Training Dataset:** Unknown -->
160
+ <!-- - **Language:** Unknown -->
161
+ <!-- - **License:** Unknown -->
162
+
163
+ ### Model Sources
164
+
165
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
166
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
167
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
168
+
169
+ ### Full Model Architecture
170
+
171
+ ```
172
+ SentenceTransformer(
173
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
174
+ (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
175
+ )
176
+ ```
177
+
178
+ ## Usage
179
+
180
+ ### Direct Usage (Sentence Transformers)
181
+
182
+ First install the Sentence Transformers library:
183
+
184
+ ```bash
185
+ pip install -U sentence-transformers
186
+ ```
187
+
188
+ Then you can load this model and run inference.
189
+ ```python
190
+ from sentence_transformers import SentenceTransformer
191
+
192
+ # Download from the 🤗 Hub
193
+ model = SentenceTransformer("panosgriz/covid_el_paraphrase-multilingual-MiniLM-L12-v2")
194
+ # Run inference
195
+ sentences = [
196
+ 'Η WHO συνιστά την υδροξυχλωροκίνη ως θεραπεία για το COVID-19;',
197
+ 'η συσταση αυτη βασιζεται σε 30 δοκιμες με περισσοτερους απο 10 000 ασθενεις με covid - 19. η υδροξυχλωροκινη δεν μειωσε τη θνησιμοτητα, την αναγκη η τη διαρκεια του μηχανικου εξαερισμου. η ληψη υδροξυχλωροκινης για τη θεραπεια του covid - 19 μπορει να αυξησει τον κινδυνο καρδιακων προβληματων, διαταραχων του αιματος και των λεμφαδενων, νεφρικων βλαβων, ηπατικων προβληματων και ανεπαρκειας. περισσοτερες πληροφοριες μπορουν να βρεθουν εδω. ωστοσο, τα υδροξυχλωροκινη και τα χλωροκινη ειναι ασφαλη για χρηση σε ασθ��νεις με αυτοανοσες ασθενειες η ελονοσια ( οχι covid - 19 ).',
198
+ 'ολα τα εμβολια με χρηση εκτακτης αναγκης who ειναι εξαιρετικα αποτελεσματικα στην προληψη σοβαρων ασθενειων, νοσηλειας και θανατου λογω covid - 19. θα πρεπει να αποδεχτειτε το εμβολιο που προσφερονται πρωτα και να εμβολιαστειτε αμεσως μολις ειναι η σειρα σας για τη μειωση του κινδυνου σας. μην καθυστερησετε να εμβολιαστειτε, εκτος εαν σας συμβουλευσει ο παροχος υγειονομικης περιθαλψης σας, καθως αυτο θα μπορουσε να σας θεσει σε κινδυνο covid - 19. το getting εμβολιαζομενο θα μπορουσε να σας σωσει τη ζωη. τον απριλιο 2020, who δημοσιευσε τα ελαχιστα κριτηρια για το ποσο αποτελεσματικα εμβολια covid - 19 θα πρεπει να ειναι για',
199
+ ]
200
+ embeddings = model.encode(sentences)
201
+ print(embeddings.shape)
202
+ # [3, 384]
203
+
204
+ # Get the similarity scores for the embeddings
205
+ similarities = model.similarity(embeddings, embeddings)
206
+ print(similarities.shape)
207
+ # [3, 3]
208
+ ```
209
+
210
+ <!--
211
+ ### Direct Usage (Transformers)
212
+
213
+ <details><summary>Click to see the direct usage in Transformers</summary>
214
+
215
+ </details>
216
+ -->
217
+
218
+ <!--
219
+ ### Downstream Usage (Sentence Transformers)
220
+
221
+ You can finetune this model on your own dataset.
222
+
223
+ <details><summary>Click to expand</summary>
224
+
225
+ </details>
226
+ -->
227
+
228
+ <!--
229
+ ### Out-of-Scope Use
230
+
231
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
232
+ -->
233
+
234
+ <!--
235
+ ## Bias, Risks and Limitations
236
+
237
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
238
+ -->
239
+
240
+ <!--
241
+ ### Recommendations
242
+
243
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
244
+ -->
245
+
246
+ ## Training Details
247
+
248
+ ### Training Dataset
249
+
250
+ #### Unnamed Dataset
251
+
252
+
253
+ * Size: 1,440 training samples
254
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, <code>sentence_2</code>, and <code>label</code>
255
+ * Approximate statistics based on the first 1000 samples:
256
+ | | sentence_0 | sentence_1 | sentence_2 | label |
257
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-----------------------------------|
258
+ | type | string | string | string | list |
259
+ | details | <ul><li>min: 7 tokens</li><li>mean: 22.63 tokens</li><li>max: 60 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 123.43 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 38 tokens</li><li>mean: 125.83 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>size: 2 elements</li></ul> |
260
+ * Samples:
261
+ | sentence_0 | sentence_1 | sentence_2 | label |
262
+ |:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------|
263
+ | <code>Τι είναι το Tamiflu;</code> | <code>/ h3n2 ) " ειχαν ως αποτελεσμα τον θανατο περιπου 2 - 3 εκατομμυριων ανθρωπων παγκοσμιως [ 1, 2 ]. σημερα, οι απογονοι τους συνεχιζουν να προκαλουν την πλειονοτητα των λοιμωξεων απο γριπη στους ανθρωπους [ 3 ]. απο οσο εχει μαθευτει οτι το πιο αποτελεσματικο αντιικο φαρμακο ειναι ο αναστολεας της νευραμινιδασης ( na ), ο οποιος στοχευει τις γλυκοπρωτεινες να του ιου της γριπης α και β [ 4, 5 ]. η απελευθερωση νεων ιοσωματων απο το μολυσμενο κυτταρο ειναι ενα βασικο βημα στον κυκλο ζωης της γριπης και χρειαζονται νευραμινιδαση ( na ) για να</code> | <code>επειδη μπορει να δαπανατε ακομη περισσοτερο χρονο online απο ο, τι πριν, ειναι σοφο να γνωριζετε μερικους απο τους κινδυνους. πρωτα, να ειστε προσεκτικοι τι περιεχομενο μοιραζεστε online. επικινδυνη συμπεριφορα, οπως sexting η ανταλλαγη σεξουαλικου περιεχομενου, μπορει να σας εκθεσει σε κινδυνους εκβιασμου, παρενοχλησης και ταπεινωσης. δευτερον, δαπανωντας περισσοτερο χρονο σε απευθειας συνδεση μπορει να αυξησει τις πιθανοτητες οτι θα μπορουσε να ερθει σε επαφη με online θηρευτες που επιδιωκουν σεξουαλικα εκμεταλλευση των νεων ανθρωπων. οταν μπροστα απο καμερες φορουν καταλληλα ρουχα και να αποφευχθει η χρηση ιδιωτικων υπηρεσιων αμεσης ανταλλαγης μηνυματων στην επικοινωνια σας με τους δασκαλους. επιπλεον, ειναι σημαντικο να σημειωθει</code> | <code>[0.01247549057006836, -0.0069751739501953125]</code> |
264
+ | <code>Τα κορτικοστεροειδή έχουν παρενέργειες;</code> | <code>οταν λαμβανονται για συντομο χρονικο διαστημα, τα κορτικοστεροειδη ειναι γενικα ασφαλη και δεν σχετιζονται με σοβαρες ανεπιθυμητες ενεργειες. τα κορτικοστεροειδη μπορουν να αυξησουν τα επιπεδα γλυκοζης στο αιμα σε ασθενεις και συνισταται σε ολα τα ατομα να παρακολουθουν το σακχαρο του αιματος τους. οι πιθανες επιπλοκες απο κορτικοστεροειδη περιλαμβανουν κακη επουλωση τραυματος, ανοσοκαταστολη ( που μπορει να αυξησει τον κινδυνο για αλλες λοιμωξεις ) και αυξημενο σακχαρο στο αιμα, το οποιο εαν δεν παρακολουθειται μπορει να οδηγησει σε διαβητικη κετοξεωση η μη ελεγχομενο διαβητη. οταν χρησιμοποιειται για μια περιοδο μεγαλυτερη των δυο εβδομαδων, τα κορτικοστεροειδη μπορει να σχετιζονται</code> | <code>αν ενα παιδι πρεπει να παει στο σχολειο εξαρταται απο την κατασταση της υγειας του, την τρεχουσα μεταδοση του covid - 19 στην κοινοτητα του, και τα προστατευτικα μετρα που εχει θεσπισει το σχολειο και η κοινοτητα για να μειωσει τον κινδυνο μεταδοσης covid - 19. ενω τα τρεχοντα στοιχεια δειχνουν οτι ο κινδυνος σοβαρης ασθενειας για τα παιδια ειναι μικροτερος συνολικα απο ο, τι για τους ενηλικες, μπορουν να ληφθουν ειδικες προφυλαξεις για την ελαχιστοποιηση του κινδυνου μολυνσης μεταξυ των παιδιων, και τα οφελη της επιστροφης στο σχολειο θα πρεπει επισης να εξεταστουν. συγκεκριμενα στοιχεια δειχνουν οτι τα ατομα με υποκειμενες παθησεις οπως το χρονιο αναπνευστικο ασθμα ( μεσαιο εως</code> | <code>[-8.302862167358398, 7.267459869384766]</code> |
265
+ | <code>8. Τι μπορώ να κάνω για να προστατεύσω τον εαυτό μου από παραλλαγές;</code> | <code>για να προστατεψετε τον εαυτο σας και αλλους απο τις παραλλαγες covid - 19 : κρατηστε αποσταση τουλαχιστον 1 μετρο απο τους αλλουςφορεσε μια καλα εξοπλισμενη μασκα πανω απο το στομα και τη μυτη σουανοιξτε τα παραθυραβηχας η φτερνισου σε ενα λυγισμενο αγκωνα η ιστοκαθαριστε τα χερια σας συχναπροσεξτε να εμβολιαστειτε, μολις ειναι η σειρα σας</code> | <code>. τα αποτελεσματα της ερευνας παρεχουν ακριβεστερες εκτιμησεις για τα ποσοστα επιπολασμου της φυματιωσης απο ο, τι εκτιμα ο που και μπορουν να χρησιμοποιηθουν για την αξιολογηση της πιθανοτητας η κινα να επιτυχει παγκοσμιους στοχους για τον επιπολασμο της φυματιωσης. η επαρχια σαντονγκ εχει πληθυσμο 94 εκατομμυριων. ειναι μια σχετικα ανεπτυγμενη επαρχια με κατα κεφαλην αεπ 1, 6 φορες τον εθνικο μεσο ορο το 2010 [ 5 ]. το ποσοστο επικρατησης της φυματιωσης στο shandong ηταν χαμηλοτερο σε συγκριση με το μεσο ποσοστο της κινας το 2000 [ 3 ]. αντιπροσωπευτικα δειγματα πληθυσμου ληφθηκαν</code> | <code>[-8.404379844665527, 7.3363752365112305]</code> |
266
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
267
+ ```json
268
+ {
269
+ "scale": 20.0,
270
+ "similarity_fct": "cos_sim"
271
+ }
272
+ ```
273
+
274
+ ### Training Hyperparameters
275
+ #### Non-Default Hyperparameters
276
+
277
+ - `per_device_train_batch_size`: 16
278
+ - `per_device_eval_batch_size`: 16
279
+ - `num_train_epochs`: 20
280
+ - `multi_dataset_batch_sampler`: round_robin
281
+
282
+ #### All Hyperparameters
283
+ <details><summary>Click to expand</summary>
284
+
285
+ - `overwrite_output_dir`: False
286
+ - `do_predict`: False
287
+ - `prediction_loss_only`: True
288
+ - `per_device_train_batch_size`: 16
289
+ - `per_device_eval_batch_size`: 16
290
+ - `per_gpu_train_batch_size`: None
291
+ - `per_gpu_eval_batch_size`: None
292
+ - `gradient_accumulation_steps`: 1
293
+ - `eval_accumulation_steps`: None
294
+ - `learning_rate`: 5e-05
295
+ - `weight_decay`: 0.0
296
+ - `adam_beta1`: 0.9
297
+ - `adam_beta2`: 0.999
298
+ - `adam_epsilon`: 1e-08
299
+ - `max_grad_norm`: 1
300
+ - `num_train_epochs`: 20
301
+ - `max_steps`: -1
302
+ - `lr_scheduler_type`: linear
303
+ - `lr_scheduler_kwargs`: {}
304
+ - `warmup_ratio`: 0.0
305
+ - `warmup_steps`: 0
306
+ - `log_level`: passive
307
+ - `log_level_replica`: warning
308
+ - `log_on_each_node`: True
309
+ - `logging_nan_inf_filter`: True
310
+ - `save_safetensors`: True
311
+ - `save_on_each_node`: False
312
+ - `save_only_model`: False
313
+ - `no_cuda`: False
314
+ - `use_cpu`: False
315
+ - `use_mps_device`: False
316
+ - `seed`: 42
317
+ - `data_seed`: None
318
+ - `jit_mode_eval`: False
319
+ - `use_ipex`: False
320
+ - `bf16`: False
321
+ - `fp16`: False
322
+ - `fp16_opt_level`: O1
323
+ - `half_precision_backend`: auto
324
+ - `bf16_full_eval`: False
325
+ - `fp16_full_eval`: False
326
+ - `tf32`: None
327
+ - `local_rank`: 0
328
+ - `ddp_backend`: None
329
+ - `tpu_num_cores`: None
330
+ - `tpu_metrics_debug`: False
331
+ - `debug`: []
332
+ - `dataloader_drop_last`: False
333
+ - `dataloader_num_workers`: 0
334
+ - `dataloader_prefetch_factor`: None
335
+ - `past_index`: -1
336
+ - `disable_tqdm`: False
337
+ - `remove_unused_columns`: True
338
+ - `label_names`: None
339
+ - `load_best_model_at_end`: False
340
+ - `ignore_data_skip`: False
341
+ - `fsdp`: []
342
+ - `fsdp_min_num_params`: 0
343
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
344
+ - `fsdp_transformer_layer_cls_to_wrap`: None
345
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}
346
+ - `deepspeed`: None
347
+ - `label_smoothing_factor`: 0.0
348
+ - `optim`: adamw_torch
349
+ - `optim_args`: None
350
+ - `adafactor`: False
351
+ - `group_by_length`: False
352
+ - `length_column_name`: length
353
+ - `ddp_find_unused_parameters`: None
354
+ - `ddp_bucket_cap_mb`: None
355
+ - `ddp_broadcast_buffers`: False
356
+ - `dataloader_pin_memory`: True
357
+ - `dataloader_persistent_workers`: False
358
+ - `skip_memory_metrics`: True
359
+ - `use_legacy_prediction_loop`: False
360
+ - `push_to_hub`: False
361
+ - `resume_from_checkpoint`: None
362
+ - `hub_model_id`: None
363
+ - `hub_strategy`: every_save
364
+ - `hub_private_repo`: False
365
+ - `hub_always_push`: False
366
+ - `gradient_checkpointing`: False
367
+ - `gradient_checkpointing_kwargs`: None
368
+ - `include_inputs_for_metrics`: False
369
+ - `fp16_backend`: auto
370
+ - `push_to_hub_model_id`: None
371
+ - `push_to_hub_organization`: None
372
+ - `mp_parameters`:
373
+ - `auto_find_batch_size`: False
374
+ - `full_determinism`: False
375
+ - `torchdynamo`: None
376
+ - `ray_scope`: last
377
+ - `ddp_timeout`: 1800
378
+ - `torch_compile`: False
379
+ - `torch_compile_backend`: None
380
+ - `torch_compile_mode`: None
381
+ - `dispatch_batches`: None
382
+ - `split_batches`: None
383
+ - `include_tokens_per_second`: False
384
+ - `include_num_input_tokens_seen`: False
385
+ - `neftune_noise_alpha`: None
386
+ - `optim_target_modules`: None
387
+ - `batch_sampler`: batch_sampler
388
+ - `multi_dataset_batch_sampler`: round_robin
389
+
390
+ </details>
391
+
392
+ ### Training Logs
393
+ | Epoch | Step | Training Loss |
394
+ |:-------:|:----:|:-------------:|
395
+ | 5.5556 | 500 | 0.7188 |
396
+ | 11.1111 | 1000 | 0.0506 |
397
+ | 16.6667 | 1500 | 0.0161 |
398
+
399
+
400
+ ### Framework Versions
401
+ - Python: 3.8.10
402
+ - Sentence Transformers: 3.0.1
403
+ - Transformers: 4.39.3
404
+ - PyTorch: 2.3.1+cu118
405
+ - Accelerate: 0.30.1
406
+ - Datasets: 2.20.0
407
+ - Tokenizers: 0.15.2
408
+
409
+ ## Citation
410
+
411
+ ### BibTeX
412
+
413
+ #### Sentence Transformers
414
+ ```bibtex
415
+ @inproceedings{reimers-2019-sentence-bert,
416
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
417
+ author = "Reimers, Nils and Gurevych, Iryna",
418
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
419
+ month = "11",
420
+ year = "2019",
421
+ publisher = "Association for Computational Linguistics",
422
+ url = "https://arxiv.org/abs/1908.10084",
423
+ }
424
+ ```
425
+
426
+ #### MultipleNegativesRankingLoss
427
+ ```bibtex
428
+ @misc{henderson2017efficient,
429
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
430
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
431
+ year={2017},
432
+ eprint={1705.00652},
433
+ archivePrefix={arXiv},
434
+ primaryClass={cs.CL}
435
+ }
436
+ ```
437
+
438
+ <!--
439
+ ## Glossary
440
+
441
+ *Clearly define terms in order to be accessible across audiences.*
442
+ -->
443
+
444
+ <!--
445
+ ## Model Card Authors
446
+
447
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
448
+ -->
449
+
450
+ <!--
451
+ ## Model Card Contact
452
+
453
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
454
+ -->
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/home/pgriziotis/thesis/qa-subsystem/dev/retriever/adapted_retriever",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "gradient_checkpointing": false,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 384,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 1536,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 0,
20
+ "position_embedding_type": "absolute",
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.39.3",
23
+ "type_vocab_size": 2,
24
+ "use_cache": true,
25
+ "vocab_size": 250037
26
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.39.3",
5
+ "pytorch": "2.3.1+cu118"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2fa639dfdf16ddef0377f09560de2114abba9b7971d94129ee6df98d1d3d78a3
3
+ size 470637416
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fa685fc160bbdbab64058d4fc91b60e62d207e8dc60b9af5c002c5ab946ded00
3
+ size 17083009
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "do_lower_case": true,
48
+ "eos_token": "</s>",
49
+ "mask_token": "<mask>",
50
+ "max_length": 128,
51
+ "model_max_length": 128,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "strip_accents": null,
59
+ "tokenize_chinese_chars": true,
60
+ "tokenizer_class": "BertTokenizer",
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "<unk>"
64
+ }
unigram.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:da145b5e7700ae40f16691ec32a0b1fdc1ee3298db22a31ea55f57a966c4a65d
3
+ size 14763260