Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup
Paper • 2101.06983 • Published • 2
How to use justifit/DARv2 with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("justifit/DARv2", trust_remote_code=True)
sentences = [
"Query: Una SIM che offre servizi di consulenza in materia di investimenti organizza seminari saltuari di due ore per il proprio personale, sostenendo che l’assenza di contatti diretti con il denaro riduce il rischio di riciclaggio e giustifica un impegno formativo minimo. Questa condotta è conforme agli obblighi AML?",
"Articolo 15\nDiritto di accesso dell'interessato\n1. L'interessato ha il diritto di ottenere dal titolare del trattamento la conferma che sia o meno in corso un trattamento di dati personali che lo riguardano e in tal caso, di ottenere l'accesso ai dati personali e alle seguenti informazioni:\na) le finalità del trattamento;\nb) le categorie di dati personali in questione;\nc) i destinatari o le categorie di destinatari a cui i dati personali sono stati o saranno comunicati, in particolare se destinatari di paesi terzi o organizzazioni internazionali;\nd) quando possibile, il periodo di conservazione dei dati personali previsto oppure, se non è possibile, i criteri utilizzati per determinare tale periodo;\ne) l'esistenza del diritto dell'interessato di chiedere al titolare del trattamento la rettifica o la cancellazione dei dati personali o la limitazione del trattamento dei dati personali che lo riguardano o di opporsi al loro trattamento;\nf) il diritto di proporre reclamo a un'autorità di controllo;\ng) qualora i dati non siano raccolti presso l'interessato, tutte le informazioni disponibili sulla loro origine;\nh) l'esistenza di un processo decisionale automatizzato, compresa la profilazione di cui all'articolo 22, paragrafi 1 e 4, e, almeno in tali casi, informazioni significative sulla logica utilizzata, nonché l'importanza e le conseguenze previste di tale trattamento per l'interessato.\n2. Qualora i dati personali siano trasferiti a un paese terzo o a un'organizzazione internazionale, l'interessato ha il diritto di essere informato dell'esistenza di garanzie adeguate ai sensi dell'articolo 46 relative al trasferimento.\n3. Il titolare del trattamento fornisce una copia dei dati personali oggetto di trattamento. In caso di ulteriori copie richieste dall'interessato, il titolare del trattamento può addebitare un contributo spese ragionevole basato sui costi amministrativi. Se l'interessato presenta la richiesta mediante mezzi elettronici, e salvo indicazione diversa dell'interessato, le informazioni sono fornite in un formato elettronico di uso comune.\n4. Il diritto di ottenere una copia di cui al paragrafo 3 non deve ledere i diritti e le libertà altrui.\n",
"Art. 66.\n((1. Fermo quanto previsto dall'articolo 62, in caso di violazioni gravi, ripetute o sistematiche ovvero plurime delle disposizioni di cui al presente decreto, il Ministero dell'economia e delle finanze informa le competenti amministrazioni interessate e gli organismi di autoregolamentazione, ai fini dell'adozione, ai sensi degli articoli 9 e 11, di ogni atto idoneo ad intimare ai responsabili di porre termine alle violazioni e di astenersi dal ripeterle. Le medesime violazioni costituiscono presupposto per l'applicazione delle sanzioni disciplinari, ai sensi e per gli effetti dei rispettivi ordinamenti di settore. In tali ipotesi l'interdizione dallo svolgimento della funzione, dell'attivita' o dell'incarico non puo' essere inferiore a due mesi e superiore a cinque anni.\n2. Nei casi di violazioni gravi, ripetute o sistematiche ovvero plurime delle disposizioni in materia di adeguata verifica della clientela, di conservazione, di segnalazione di operazione sospetta e di controlli interni, il decreto che irroga le sanzioni e' pubblicato senza ritardo e per estratto, su apposita sezione del sito web del Ministero dell'economia e delle finanze ovvero delle autorita' di vigilanza di settore, in ragione delle attribuzioni e delle modalita' attuative di rispettiva pertinenza. La pubblicazione per estratto reca indicazione delle violazioni accertate, delle disposizioni violate, dei soggetti sanzionati, delle sanzioni rispettivamente applicate nonche', nel caso in cui sia adita l'autorita' giudiziaria, dell'avvio dell'azione giudiziaria e dell'esito della stessa. Le informazioni pubblicate restano sul sito web per un periodo di cinque anni.\n3. Ferma la discrezionalita' dell'autorita' procedente in ordine alla valutazione della proporzionalita' della misura rispetto alla violazione sanzionata, non si da' luogo alla pubblicazione nel caso in cui essa possa comportare rischi per la stabilita' dei mercati finanziari o pregiudicare lo svolgimento di un'indagine in corso.\nQualora detti impedimenti abbiano carattere temporaneo, la pubblicazione puo' essere differita al momento in cui essi siano venuti meno.\n4. Le sanzioni amministrative applicate dalle autorita' di vigilanza di settore ai sensi dell'articolo 62, ivi comprese quelle pubblicate in forma anonima, nonche' le informazioni ricevute dai soggetti interessati sulle azioni da essi avviate avverso i provvedimenti sanzionatori e sull'esito delle stesse sono comunicate all'ABE, all'AEAP e all'AESFEM dall'autorita' di vigilanza di settore che ne e' membro.))\n((23))\n<pre>-------------AGGIORNAMENTO (23)</pre>\n",
"Art. 394.\n(Capacita' dell'emancipato).\nL'emancipazione conferisce al minore la capacita' di compiere gli atti che non eccedono l'ordinaria amministrazione.\nIl minore emancipato puo' con l'assistenza del curatore riscuotere i capitali sotto la condizione di un idoneo impiego e puo' stare in giudizio sia come attore sia come convenuto.\nPer gli altri atti eccedenti l'ordinaria amministrazione, oltre il consenso del curatore, e' necessaria l'autorizzazione del giudice tutelare. PERIODO SOPPRESSO DAL D.LGS. 10 OTTOBRE 2022, N. 149.\nQualora nasca conflitto di interessi fra il minore e il curatore, e' nominato un curatore speciale a norma dell'ultimo comma dell'art. 320.\n"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from jinaai/jina-embeddings-v5-text-nano-retrieval. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 2048, 'do_lower_case': False, 'architecture': 'EuroBertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("justifit/DARv2", trust_remote_code=True)
# Run inference
queries = [
"Query: Davide vuole costruire contro un muro che il vicino ha costruito a meno di 1,5 metri dal confine. Pu\u00f2 chiedere la comunione del muro?",
]
documents = [
"Art. 875.\n(Comunione forzosa del muro che non e' sul confine).\nQuando il muro si trova a una distanza dal confine minore di un metro e mezzo ovvero a distanza minore della meta' di quella stabilita dai regolamenti locali, il vicino puo' chiedere la comunione del muro soltanto allo scopo di fabbricare contro il muro stesso, pagando, oltre il valore della meta' del muro, il valore del suolo da occupare con la nuova fabbrica, salvo che il proprietario preferisca estendere il suo muro sino al confine.\nIl vicino che intende domandare la comunione deve interpellare preventivamente il proprietario se preferisca di estendere il muro al confine o di procedere alla sua demolizione. Questi deve manifestare la propria volonta' entro un termine di giorni quindici e deve procedere alla costruzione o alla demolizione entro sei mesi dal giorno in cui ha comunicato la risposta.\n",
"Articolo 9\nTrattamento di categorie particolari di dati personali\n1. È vietato trattare dati personali che rivelino l'origine razziale o etnica, le opinioni politiche, le convinzioni religiose o filosofiche, o l'appartenenza sindacale, nonché trattare dati genetici, dati biometrici intesi a identificare in modo univoco una persona fisica, dati relativi alla salute o alla vita sessuale o all'orientamento sessuale della persona.\n2. Il paragrafo 1 non si applica se si verifica uno dei seguenti casi:\na) l'interessato ha prestato il proprio consenso esplicito al trattamento di tali dati personali per una o più finalità specifiche, salvo nei casi in cui il diritto dell'Unione o degli Stati membri dispone che l'interessato non possa revocare il divieto di cui al paragrafo 1;\nb) il trattamento è necessario per assolvere gli obblighi ed esercitare i diritti specifici del titolare del trattamento o dell'interessato in materia di diritto del lavoro e della sicurezza sociale e protezione sociale, nella misura in cui sia autorizzato dal diritto dell'Unione o degli Stati membri o da un contratto collettivo ai sensi del diritto degli Stati membri, in presenza di garanzie appropriate per i diritti fondamentali e gli interessi dell'interessato;\nc) il trattamento è necessario per tutelare un interesse vitale dell'interessato o di un'altra persona fisica qualora l'interessato si trovi nell'incapacità fisica o giuridica di prestare il proprio consenso;\nd) il trattamento è effettuato, nell'ambito delle sue legittime attività e con adeguate garanzie, da una fondazione, associazione o altro organismo senza scopo di lucro che persegua finalità politiche, filosofiche, religiose o sindacali, a condizione che il trattamento riguardi unicamente i membri, gli ex membri o le persone che hanno regolari contatti con la fondazione, l'associazione o l'organismo a motivo delle sue finalità e che i dati personali non siano comunicati all'esterno senza il consenso dell'interessato;\ne) il trattamento riguarda dati personali resi manifestamente pubblici dall'interessato;\nf) il trattamento è necessario per accertare, esercitare o difendere un diritto in sede giudiziaria o ogniqualvolta le autorità giurisdizionali esercitino le loro funzioni giurisdizionali;\ng) il trattamento è necessario per motivi di interesse pubblico rilevante sulla base del diritto dell'Unione o degli Stati membri, che deve essere proporzionato alla finalità perseguita, rispettare l'essenza del diritto alla protezione dei dati e prevedere misure appropriate e specifiche per tutelare i diritti fondamentali e gli interessi dell'interessato;\nh) il trattamento è necessario per finalità di medicina preventiva o di medicina del lavoro, valutazione della capacità lavorativa del dipendente, diagnosi, assistenza o terapia sanitaria o sociale ovvero gestione dei sistemi e servizi sanitari o sociali sulla base del diritto dell'Unione o degli Stati membri o conformemente al contratto con un professionista della sanità, fatte salve le condizioni e le garanzie di cui al paragrafo 3;\ni) il trattamento è necessario per motivi di interesse pubblico nel settore della sanità pubblica, quali la protezione da gravi minacce per la salute a carattere transfrontaliero o la garanzia di parametri elevati di qualità e sicurezza dell'assistenza sanitaria e dei medicinali e dei dispositivi medici, sulla base del diritto dell'Unione o degli Stati membri che prevede misure appropriate e specifiche per tutelare i diritti e le libertà dell'interessato, in particolare il segreto professionale;\nj) il trattamento è necessario a fini di archiviazione nel pubblico interesse, di ricerca scientifica o storica o a fini statistici in conformità dell'articolo 89, paragrafo 1, sulla base del diritto dell'Unione o nazionale, che è proporzionato alla finalità perseguita, rispetta l'essenza del diritto alla protezione dei dati e prevede misure appropriate e specifiche per tutelare i diritti fondamentali e gli interessi dell'interessato.\n3. I dati personali di cui al paragrafo 1 possono essere trattati per le finalità di cui al paragrafo 2, lettera h), se tali dati sono trattati da o sotto la responsabilità di un professionista soggetto al segreto professionale conformemente al diritto dell'Unione o degli Stati membri o alle norme stabilite dagli organismi nazionali competenti o da altra persona anch'essa soggetta all'obbligo di segretezza conformemente al diritto dell'Unione o degli Stati membri o alle norme stabilite dagli organismi nazionali competenti.\n4. Gli Stati membri possono mantenere o introdurre ulteriori condizioni, comprese limitazioni, con riguardo al trattamento di dati genetici, dati biometrici o dati relativi alla salute.\n",
"Sezione II. Contenuto e modalità di esecuzione degli obblighi\nIn caso di utilizzo dei soggetti terzi previsti alla lettera a) della Sezione I, gli obblighi di adeguata verifica si considerano soddisfatti attraverso un'idonea attestazione rilasciata dal terzo che abbia provveduto ad adempierli direttamente in relazione alla costituzione di un rapporto continuativo ovvero all'esecuzione di un'operazione occasionale.\nL'attestazione è chiaramente riconducibile al terzo attestante, attraverso accorgimenti idonei (sottoscrizione da parte del personale a ciò autorizzato, invio con sistemi informatici, ecc.), ed è trasmessa dal terzo attestante e non dal cliente.\nPer standardizzare il processo di acquisizione delle informazioni, il destinatario può predisporre una specifica modulistica per il rilascio delle attestazioni.\nL'attestazione conferma espressamente il corretto adempimento degli obblighi antiriciclaggio da parte dell'attestante, in relazione alle varie attività effettuate. Il contenuto dell'attestazione varia a seconda dello specifico obbligo di adeguata verifica cui essa è diretta; in base a tale criterio, essa contiene:\na) i dati identificativi del cliente, dell'esecutore e del titolare effettivo ai fini dell'adempimento dell'obbligo di identificazione;\nb) l'indicazione delle tipologie delle fonti utilizzate per l'accertamento e per la verifica dell'identità;\nc) le informazioni sulla natura e sullo scopo del rapporto da aprire e dell'operazione occasionale da eseguire ai fini dell'adempimento del relativo obbligo.\nIl destinatario si assicura che, oltre all'attestazione, i terzi siano in grado di trasmettere tempestivamente copia dei documenti e delle informazioni acquisiti, quando il destinatario ne faccia richiesta.\nL'attestazione può essere resa in forma cartacea o informatica, in via autonoma ovvero in connessione con specifiche operazioni.\nIl destinatario rimane responsabile dell'adeguata verifica e valuta se gli elementi raccolti e le verifiche effettuate dai soggetti terzi siano aggiornati, idonei e sufficienti per l'assolvimento degli obblighi previsti dalla legge. In caso contrario il destinatario provvede, a seconda dei casi e delle circostanze, a:\n- informare il terzo attestante delle eventuali irregolarità, carenze o incongruenze riscontrate nella documentazione ricevuta;\n- apportare le necessarie rettifiche o integrazioni;\n- adempiere in via diretta agli obblighi di adeguata verifica;\n- astenersi dall'instaurare il rapporto continuativo o dall'eseguire l'operazione, valutando se effettuare una segnalazione alla UIF se ricorrono i presupposti previsti all'articolo 35 del decreto antiriciclaggio (la scelta di cui al presente alinea è assunta, in particolare, quando l'intermediario si trova nell'impossibilità di rispettare gli obblighi di adeguata verifica).\nIn caso di utilizzo di soggetti terzi che possono effettuare solo l'identificazione del cliente (cfr. Sezione I, lettera b), il destinatario assicura che i terzi gli trasmettano in ogni caso i dati e le informazioni acquisiti, affinché il destinatario stesso possa completare la procedura di adeguata verifica (21).\nNell'ambito delle modalità di raccolta e scambio delle informazioni con i terzi, il destinatario:\n- definisce le fasi dell'adeguata verifica demandate ai terzi, individua i dati e le informazioni che è necessario siano trasmesse dai terzi e le modalità e la tempistica della trasmissione;\n- predispone strumenti, in formato cartaceo o elettronico, per lo scambio tempestivo dei flussi informativi;\n- verifica la veridicità dei documenti ricevuti e la correttezza e attendibilità delle informazioni da essi desunte;\n- acquisisce, ove necessario, informazioni supplementari, dai terzi, dal cliente ovvero da altre fonti.\n",
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[ 0.8164, -0.0583, -0.0664]])
validInformationRetrievalEvaluator| Metric | Value |
|---|---|
| cosine_accuracy@3 | 0.8492 |
| cosine_accuracy@5 | 0.8994 |
| cosine_accuracy@10 | 0.933 |
| cosine_accuracy@20 | 0.9665 |
| cosine_accuracy@40 | 0.9888 |
| cosine_accuracy@60 | 1.0 |
| cosine_accuracy@80 | 1.0 |
| cosine_accuracy@100 | 1.0 |
| cosine_accuracy@300 | 1.0 |
| cosine_precision@3 | 0.3352 |
| cosine_precision@5 | 0.2346 |
| cosine_precision@10 | 0.1397 |
| cosine_precision@20 | 0.0841 |
| cosine_precision@40 | 0.0506 |
| cosine_precision@60 | 0.0372 |
| cosine_precision@80 | 0.0301 |
| cosine_precision@100 | 0.0258 |
| cosine_precision@300 | 0.0103 |
| cosine_recall@3 | 0.7114 |
| cosine_recall@5 | 0.7668 |
| cosine_recall@10 | 0.807 |
| cosine_recall@20 | 0.8487 |
| cosine_recall@40 | 0.8995 |
| cosine_recall@60 | 0.9201 |
| cosine_recall@80 | 0.9263 |
| cosine_recall@100 | 0.9359 |
| cosine_recall@300 | 0.9576 |
| cosine_ndcg@3 | 0.7403 |
| cosine_ndcg@5 | 0.754 |
| cosine_ndcg@10 | 0.7588 |
| cosine_ndcg@20 | 0.7632 |
| cosine_ndcg@40 | 0.7733 |
| cosine_ndcg@60 | 0.7787 |
| cosine_ndcg@80 | 0.781 |
| cosine_ndcg@100 | 0.7843 |
| cosine_ndcg@300 | 0.7921 |
| cosine_mrr@3 | 0.7691 |
| cosine_mrr@5 | 0.7805 |
| cosine_mrr@10 | 0.7854 |
| cosine_mrr@20 | 0.7878 |
| cosine_mrr@40 | 0.7885 |
| cosine_mrr@60 | 0.7888 |
| cosine_mrr@80 | 0.7888 |
| cosine_mrr@100 | 0.7888 |
| cosine_mrr@300 | 0.7888 |
| cosine_map@3 | 0.7081 |
| cosine_map@5 | 0.7094 |
| cosine_map@10 | 0.7044 |
| cosine_map@20 | 0.7004 |
| cosine_map@40 | 0.7011 |
| cosine_map@60 | 0.7022 |
| cosine_map@80 | 0.7027 |
| cosine_map@100 | 0.7036 |
| cosine_map@300 | 0.7054 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Query: In quali specifici casi il pubblico ministero è autorizzato a procedere al giudizio direttissimo ai sensi del testo fornito? |
9. Il pubblico ministero puo', altresi', procedere al giudizio direttissimo nei casi previsti dall'art. 449, commi 4 e 5.". |
Query: Qual è il compito del Garante per la protezione dei dati personali in relazione alle autorizzazioni generali già adottate, secondo il decreto di adeguamento al Regolamento (UE) 2016/679? |
Articolo 58 |
Query: Quali sono i presupposti sostanziali e le condizioni di esclusione necessari affinché due persone maggiorenni siano qualificate come conviventi di fatto ai fini delle disposizioni applicabili? |
Note all'art. 42: - Per l'articolo 344-bis del codice di procedura penale si vedano le note all'articolo 16. - Si riporta il testo dell'articolo1, commi 2 e 36, della legge 20 maggio 2016, n. 76 (Regolamentazione delle unioni civili tra persone dello stesso sesso e disciplina delle convivenze): "Art. 1. - 1. (Omissis). 2. Due persone maggiorenni dello stesso sesso costituiscono un'unione civile mediante dichiarazione di fronte all'ufficiale di stato civile ed alla presenza di due testimoni.". 3.- 35. (Omissis). 36. Ai fini delle disposizioni di cui ai commi da 37 a 67 si intendono per «conviventi di fatto» due persone maggiorenni unite stabilmente da legami affettivi di coppia e di reciproca assistenza morale e materiale, non vincolate da rapporti di parentela, affinita' o adozione, da matrimonio o da un'unione civile. 37. - 69. (Omissis).". |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 64,
"gather_across_devices": false
}
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Query: L’usucapione si interrompe se chi possiede perde il possesso per più di un anno? |
Art. 1167. |
Query: Una società elabora dati aggregati e anonimizzati per analisi statistiche, senza raccogliere informazioni che permettano di risalire all’identità delle persone. Un utente chiede l’accesso ai propri dati. L’azienda è tenuta a fornirglieli? |
Articolo 11 |
Query: Giovanni, infastidito dal cane del vicino che abbaia di continuo, lo avvelena. Non aveva alcuna necessità di farlo. Ha commesso un reato? |
Art. 638. |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 64,
"gather_across_devices": false
}
eval_strategy: epochper_device_train_batch_size: 768per_device_eval_batch_size: 64learning_rate: 3.5e-05weight_decay: 0.01num_train_epochs: 40warmup_steps: 5log_level: debugsave_only_model: Truebf16: Truedataloader_num_workers: 4load_best_model_at_end: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: epochprediction_loss_only: Trueper_device_train_batch_size: 768per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 3.5e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 40max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: Nonewarmup_ratio: 0.0warmup_steps: 5log_level: debuglog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Truerestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 4dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthproject: huggingfacetrackio_space_id: trackioddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: noneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss | valid_cosine_ndcg@300 |
|---|---|---|---|---|
| 0.0794 | 5 | 0.97 | - | - |
| 0.1587 | 10 | 0.6194 | - | - |
| 0.2381 | 15 | 0.5026 | - | - |
| 0.3175 | 20 | 0.479 | - | - |
| 0.3968 | 25 | 0.4283 | - | - |
| 0.4762 | 30 | 0.4128 | - | - |
| 0.5556 | 35 | 0.3958 | - | - |
| 0.6349 | 40 | 0.361 | - | - |
| 0.7143 | 45 | 0.3803 | - | - |
| 0.7937 | 50 | 0.3679 | - | - |
| 0.8730 | 55 | 0.3432 | - | - |
| 0.9524 | 60 | 0.3332 | - | - |
| 1.0 | 63 | - | 1.1736 | 0.7287 |
| 1.0317 | 65 | 0.6066 | - | - |
| 1.1111 | 70 | 0.2725 | - | - |
| 1.1905 | 75 | 0.2664 | - | - |
| 1.2698 | 80 | 0.2405 | - | - |
| 1.3492 | 85 | 0.2701 | - | - |
| 1.4286 | 90 | 0.2699 | - | - |
| 1.5079 | 95 | 0.2487 | - | - |
| 1.5873 | 100 | 0.2454 | - | - |
| 1.6667 | 105 | 0.2621 | - | - |
| 1.7460 | 110 | 0.2655 | - | - |
| 1.8254 | 115 | 0.229 | - | - |
| 1.9048 | 120 | 0.262 | - | - |
| 1.9841 | 125 | 0.2647 | - | - |
| 2.0 | 126 | - | 1.1476 | 0.7440 |
| 2.0635 | 130 | 0.4631 | - | - |
| 2.1429 | 135 | 0.1822 | - | - |
| 2.2222 | 140 | 0.1779 | - | - |
| 2.3016 | 145 | 0.1957 | - | - |
| 2.3810 | 150 | 0.1937 | - | - |
| 2.4603 | 155 | 0.1919 | - | - |
| 2.5397 | 160 | 0.194 | - | - |
| 2.6190 | 165 | 0.2017 | - | - |
| 2.6984 | 170 | 0.2218 | - | - |
| 2.7778 | 175 | 0.2019 | - | - |
| 2.8571 | 180 | 0.1982 | - | - |
| 2.9365 | 185 | 0.2121 | - | - |
| 3.0 | 189 | - | 1.1612 | 0.7612 |
| 3.0159 | 190 | 0.2729 | - | - |
| 3.0952 | 195 | 0.1505 | - | - |
| 3.1746 | 200 | 0.1637 | - | - |
| 3.2540 | 205 | 0.1435 | - | - |
| 3.3333 | 210 | 0.1737 | - | - |
| 3.4127 | 215 | 0.1693 | - | - |
| 3.4921 | 220 | 0.171 | - | - |
| 3.5714 | 225 | 0.1683 | - | - |
| 3.6508 | 230 | 0.173 | - | - |
| 3.7302 | 235 | 0.1815 | - | - |
| 3.8095 | 240 | 0.1644 | - | - |
| 3.8889 | 245 | 0.1729 | - | - |
| 3.9683 | 250 | 0.1716 | - | - |
| 4.0 | 252 | - | 1.1866 | 0.7701 |
| 4.0476 | 255 | 0.221 | - | - |
| 4.1270 | 260 | 0.1401 | - | - |
| 4.2063 | 265 | 0.1305 | - | - |
| 4.2857 | 270 | 0.1449 | - | - |
| 4.3651 | 275 | 0.1352 | - | - |
| 4.4444 | 280 | 0.1387 | - | - |
| 4.5238 | 285 | 0.159 | - | - |
| 4.6032 | 290 | 0.1508 | - | - |
| 4.6825 | 295 | 0.1534 | - | - |
| 4.7619 | 300 | 0.1537 | - | - |
| 4.8413 | 305 | 0.1543 | - | - |
| 4.9206 | 310 | 0.1593 | - | - |
| 5.0 | 315 | 0.2452 | 1.2840 | 0.7687 |
| 5.0794 | 320 | 0.1262 | - | - |
| 5.1587 | 325 | 0.1338 | - | - |
| 5.2381 | 330 | 0.1211 | - | - |
| 5.3175 | 335 | 0.1425 | - | - |
| 5.3968 | 340 | 0.1435 | - | - |
| 5.4762 | 345 | 0.1281 | - | - |
| 5.5556 | 350 | 0.1357 | - | - |
| 5.6349 | 355 | 0.1294 | - | - |
| 5.7143 | 360 | 0.1465 | - | - |
| 5.7937 | 365 | 0.124 | - | - |
| 5.8730 | 370 | 0.1363 | - | - |
| 5.9524 | 375 | 0.1354 | - | - |
| 6.0 | 378 | - | 1.2176 | 0.7723 |
| 6.0317 | 380 | 0.2087 | - | - |
| 6.1111 | 385 | 0.1197 | - | - |
| 6.1905 | 390 | 0.1158 | - | - |
| 6.2698 | 395 | 0.1201 | - | - |
| 6.3492 | 400 | 0.1241 | - | - |
| 6.4286 | 405 | 0.13 | - | - |
| 6.5079 | 410 | 0.1196 | - | - |
| 6.5873 | 415 | 0.1218 | - | - |
| 6.6667 | 420 | 0.1326 | - | - |
| 6.7460 | 425 | 0.1359 | - | - |
| 6.8254 | 430 | 0.1283 | - | - |
| 6.9048 | 435 | 0.1317 | - | - |
| 6.9841 | 440 | 0.1384 | - | - |
| 7.0 | 441 | - | 1.1866 | 0.7649 |
| 7.0635 | 445 | 0.1835 | - | - |
| 7.1429 | 450 | 0.1082 | - | - |
| 7.2222 | 455 | 0.1094 | - | - |
| 7.3016 | 460 | 0.1014 | - | - |
| 7.3810 | 465 | 0.1186 | - | - |
| 7.4603 | 470 | 0.1162 | - | - |
| 7.5397 | 475 | 0.1162 | - | - |
| 7.6190 | 480 | 0.1295 | - | - |
| 7.6984 | 485 | 0.1199 | - | - |
| 7.7778 | 490 | 0.1298 | - | - |
| 7.8571 | 495 | 0.1305 | - | - |
| 7.9365 | 500 | 0.1239 | - | - |
| 8.0 | 504 | - | 1.2229 | 0.7776 |
| 8.0159 | 505 | 0.2114 | - | - |
| 8.0952 | 510 | 0.1023 | - | - |
| 8.1746 | 515 | 0.1117 | - | - |
| 8.2540 | 520 | 0.1096 | - | - |
| 8.3333 | 525 | 0.11 | - | - |
| 8.4127 | 530 | 0.1148 | - | - |
| 8.4921 | 535 | 0.1137 | - | - |
| 8.5714 | 540 | 0.1159 | - | - |
| 8.6508 | 545 | 0.1194 | - | - |
| 8.7302 | 550 | 0.135 | - | - |
| 8.8095 | 555 | 0.1188 | - | - |
| 8.8889 | 560 | 0.1084 | - | - |
| 8.9683 | 565 | 0.1034 | - | - |
| 9.0 | 567 | - | 1.2485 | 0.7868 |
| 9.0476 | 570 | 0.1817 | - | - |
| 9.1270 | 575 | 0.0974 | - | - |
| 9.2063 | 580 | 0.0979 | - | - |
| 9.2857 | 585 | 0.0962 | - | - |
| 9.3651 | 590 | 0.1064 | - | - |
| 9.4444 | 595 | 0.1062 | - | - |
| 9.5238 | 600 | 0.1054 | - | - |
| 9.6032 | 605 | 0.1062 | - | - |
| 9.6825 | 610 | 0.1068 | - | - |
| 9.7619 | 615 | 0.1161 | - | - |
| 9.8413 | 620 | 0.1125 | - | - |
| 9.9206 | 625 | 0.129 | - | - |
| 10.0 | 630 | 0.2126 | 1.2270 | 0.7846 |
| 10.0794 | 635 | 0.0874 | - | - |
| 10.1587 | 640 | 0.0943 | - | - |
| 10.2381 | 645 | 0.0951 | - | - |
| 10.3175 | 650 | 0.1056 | - | - |
| 10.3968 | 655 | 0.1048 | - | - |
| 10.4762 | 660 | 0.109 | - | - |
| 10.5556 | 665 | 0.1007 | - | - |
| 10.6349 | 670 | 0.0951 | - | - |
| 10.7143 | 675 | 0.1153 | - | - |
| 10.7937 | 680 | 0.1014 | - | - |
| 10.8730 | 685 | 0.1009 | - | - |
| 10.9524 | 690 | 0.1044 | - | - |
| 11.0 | 693 | - | 1.2391 | 0.7877 |
| 11.0317 | 695 | 0.1764 | - | - |
| 11.1111 | 700 | 0.0963 | - | - |
| 11.1905 | 705 | 0.1088 | - | - |
| 11.2698 | 710 | 0.0951 | - | - |
| 11.3492 | 715 | 0.1012 | - | - |
| 11.4286 | 720 | 0.0949 | - | - |
| 11.5079 | 725 | 0.107 | - | - |
| 11.5873 | 730 | 0.0975 | - | - |
| 11.6667 | 735 | 0.0967 | - | - |
| 11.7460 | 740 | 0.1037 | - | - |
| 11.8254 | 745 | 0.1018 | - | - |
| 11.9048 | 750 | 0.1044 | - | - |
| 11.9841 | 755 | 0.1017 | - | - |
| 12.0 | 756 | - | 1.2689 | 0.7818 |
| 12.0635 | 760 | 0.1852 | - | - |
| 12.1429 | 765 | 0.0914 | - | - |
| 12.2222 | 770 | 0.096 | - | - |
| 12.3016 | 775 | 0.0942 | - | - |
| 12.3810 | 780 | 0.0935 | - | - |
| 12.4603 | 785 | 0.1016 | - | - |
| 12.5397 | 790 | 0.097 | - | - |
| 12.6190 | 795 | 0.0967 | - | - |
| 12.6984 | 800 | 0.1093 | - | - |
| 12.7778 | 805 | 0.103 | - | - |
| 12.8571 | 810 | 0.1008 | - | - |
| 12.9365 | 815 | 0.1057 | - | - |
| 13.0 | 819 | - | 1.2390 | 0.7866 |
| 13.0159 | 820 | 0.1738 | - | - |
| 13.0952 | 825 | 0.0932 | - | - |
| 13.1746 | 830 | 0.0924 | - | - |
| 13.2540 | 835 | 0.0861 | - | - |
| 13.3333 | 840 | 0.0954 | - | - |
| 13.4127 | 845 | 0.0959 | - | - |
| 13.4921 | 850 | 0.0988 | - | - |
| 13.5714 | 855 | 0.0877 | - | - |
| 13.6508 | 860 | 0.0888 | - | - |
| 13.7302 | 865 | 0.0931 | - | - |
| 13.8095 | 870 | 0.099 | - | - |
| 13.8889 | 875 | 0.1046 | - | - |
| 13.9683 | 880 | 0.1065 | - | - |
| 14.0 | 882 | - | 1.2249 | 0.7832 |
| 14.0476 | 885 | 0.1779 | - | - |
| 14.1270 | 890 | 0.0771 | - | - |
| 14.2063 | 895 | 0.08 | - | - |
| 14.2857 | 900 | 0.0855 | - | - |
| 14.3651 | 905 | 0.0897 | - | - |
| 14.4444 | 910 | 0.0904 | - | - |
| 14.5238 | 915 | 0.0989 | - | - |
| 14.6032 | 920 | 0.0983 | - | - |
| 14.6825 | 925 | 0.0997 | - | - |
| 14.7619 | 930 | 0.1058 | - | - |
| 14.8413 | 935 | 0.093 | - | - |
| 14.9206 | 940 | 0.1022 | - | - |
| 15.0 | 945 | 0.1683 | 1.2501 | 0.7869 |
| 15.0794 | 950 | 0.0786 | - | - |
| 15.1587 | 955 | 0.0831 | - | - |
| 15.2381 | 960 | 0.0927 | - | - |
| 15.3175 | 965 | 0.0907 | - | - |
| 15.3968 | 970 | 0.0887 | - | - |
| 15.4762 | 975 | 0.0922 | - | - |
| 15.5556 | 980 | 0.0906 | - | - |
| 15.6349 | 985 | 0.097 | - | - |
| 15.7143 | 990 | 0.0895 | - | - |
| 15.7937 | 995 | 0.0961 | - | - |
| 15.8730 | 1000 | 0.0955 | - | - |
| 15.9524 | 1005 | 0.0932 | - | - |
| 16.0 | 1008 | - | 1.2647 | 0.7906 |
| 16.0317 | 1010 | 0.141 | - | - |
| 16.1111 | 1015 | 0.0806 | - | - |
| 16.1905 | 1020 | 0.088 | - | - |
| 16.2698 | 1025 | 0.0859 | - | - |
| 16.3492 | 1030 | 0.0921 | - | - |
| 16.4286 | 1035 | 0.0887 | - | - |
| 16.5079 | 1040 | 0.0872 | - | - |
| 16.5873 | 1045 | 0.0909 | - | - |
| 16.6667 | 1050 | 0.0917 | - | - |
| 16.7460 | 1055 | 0.09 | - | - |
| 16.8254 | 1060 | 0.1051 | - | - |
| 16.9048 | 1065 | 0.0979 | - | - |
| 16.9841 | 1070 | 0.0825 | - | - |
| 17.0 | 1071 | - | 1.2042 | 0.7864 |
| 17.0635 | 1075 | 0.155 | - | - |
| 17.1429 | 1080 | 0.0712 | - | - |
| 17.2222 | 1085 | 0.0968 | - | - |
| 17.3016 | 1090 | 0.0777 | - | - |
| 17.3810 | 1095 | 0.0835 | - | - |
| 17.4603 | 1100 | 0.0941 | - | - |
| 17.5397 | 1105 | 0.0936 | - | - |
| 17.6190 | 1110 | 0.0952 | - | - |
| 17.6984 | 1115 | 0.0883 | - | - |
| 17.7778 | 1120 | 0.088 | - | - |
| 17.8571 | 1125 | 0.0965 | - | - |
| 17.9365 | 1130 | 0.0971 | - | - |
| 18.0 | 1134 | - | 1.2814 | 0.7882 |
| 18.0159 | 1135 | 0.1103 | - | - |
| 18.0952 | 1140 | 0.0701 | - | - |
| 18.1746 | 1145 | 0.076 | - | - |
| 18.2540 | 1150 | 0.0848 | - | - |
| 18.3333 | 1155 | 0.0881 | - | - |
| 18.4127 | 1160 | 0.0856 | - | - |
| 18.4921 | 1165 | 0.0966 | - | - |
| 18.5714 | 1170 | 0.0911 | - | - |
| 18.6508 | 1175 | 0.0885 | - | - |
| 18.7302 | 1180 | 0.0851 | - | - |
| 18.8095 | 1185 | 0.0831 | - | - |
| 18.8889 | 1190 | 0.087 | - | - |
| 18.9683 | 1195 | 0.0834 | - | - |
| 19.0 | 1197 | - | 1.2554 | 0.7833 |
| 19.0476 | 1200 | 0.1669 | - | - |
| 19.1270 | 1205 | 0.0887 | - | - |
| 19.2063 | 1210 | 0.0855 | - | - |
| 19.2857 | 1215 | 0.0805 | - | - |
| 19.3651 | 1220 | 0.091 | - | - |
| 19.4444 | 1225 | 0.0793 | - | - |
| 19.5238 | 1230 | 0.0879 | - | - |
| 19.6032 | 1235 | 0.0875 | - | - |
| 19.6825 | 1240 | 0.0845 | - | - |
| 19.7619 | 1245 | 0.0854 | - | - |
| 19.8413 | 1250 | 0.0867 | - | - |
| 19.9206 | 1255 | 0.0913 | - | - |
| 20.0 | 1260 | 0.1559 | 1.2729 | 0.7822 |
| 20.0794 | 1265 | 0.0707 | - | - |
| 20.1587 | 1270 | 0.0841 | - | - |
| 20.2381 | 1275 | 0.0823 | - | - |
| 20.3175 | 1280 | 0.0814 | - | - |
| 20.3968 | 1285 | 0.0745 | - | - |
| 20.4762 | 1290 | 0.0871 | - | - |
| 20.5556 | 1295 | 0.0816 | - | - |
| 20.6349 | 1300 | 0.0858 | - | - |
| 20.7143 | 1305 | 0.0795 | - | - |
| 20.7937 | 1310 | 0.0902 | - | - |
| 20.8730 | 1315 | 0.0884 | - | - |
| 20.9524 | 1320 | 0.0855 | - | - |
| 21.0 | 1323 | - | 1.2855 | 0.7935 |
| 21.0317 | 1325 | 0.1277 | - | - |
| 21.1111 | 1330 | 0.0702 | - | - |
| 21.1905 | 1335 | 0.0806 | - | - |
| 21.2698 | 1340 | 0.0847 | - | - |
| 21.3492 | 1345 | 0.083 | - | - |
| 21.4286 | 1350 | 0.0863 | - | - |
| 21.5079 | 1355 | 0.0774 | - | - |
| 21.5873 | 1360 | 0.0805 | - | - |
| 21.6667 | 1365 | 0.0905 | - | - |
| 21.7460 | 1370 | 0.087 | - | - |
| 21.8254 | 1375 | 0.0873 | - | - |
| 21.9048 | 1380 | 0.0866 | - | - |
| 21.9841 | 1385 | 0.0855 | - | - |
| 22.0 | 1386 | - | 1.2776 | 0.7853 |
| 22.0635 | 1390 | 0.1592 | - | - |
| 22.1429 | 1395 | 0.0866 | - | - |
| 22.2222 | 1400 | 0.0798 | - | - |
| 22.3016 | 1405 | 0.0809 | - | - |
| 22.3810 | 1410 | 0.0695 | - | - |
| 22.4603 | 1415 | 0.0819 | - | - |
| 22.5397 | 1420 | 0.077 | - | - |
| 22.6190 | 1425 | 0.0803 | - | - |
| 22.6984 | 1430 | 0.0825 | - | - |
| 22.7778 | 1435 | 0.0773 | - | - |
| 22.8571 | 1440 | 0.0896 | - | - |
| 22.9365 | 1445 | 0.0826 | - | - |
| 23.0 | 1449 | - | 1.2882 | 0.7862 |
| 23.0159 | 1450 | 0.1399 | - | - |
| 23.0952 | 1455 | 0.0677 | - | - |
| 23.1746 | 1460 | 0.0758 | - | - |
| 23.2540 | 1465 | 0.0786 | - | - |
| 23.3333 | 1470 | 0.076 | - | - |
| 23.4127 | 1475 | 0.0822 | - | - |
| 23.4921 | 1480 | 0.0806 | - | - |
| 23.5714 | 1485 | 0.0909 | - | - |
| 23.6508 | 1490 | 0.0759 | - | - |
| 23.7302 | 1495 | 0.0824 | - | - |
| 23.8095 | 1500 | 0.0768 | - | - |
| 23.8889 | 1505 | 0.0885 | - | - |
| 23.9683 | 1510 | 0.101 | - | - |
| 24.0 | 1512 | - | 1.3147 | 0.7868 |
| 24.0476 | 1515 | 0.1744 | - | - |
| 24.1270 | 1520 | 0.0722 | - | - |
| 24.2063 | 1525 | 0.0831 | - | - |
| 24.2857 | 1530 | 0.0889 | - | - |
| 24.3651 | 1535 | 0.0796 | - | - |
| 24.4444 | 1540 | 0.0762 | - | - |
| 24.5238 | 1545 | 0.0807 | - | - |
| 24.6032 | 1550 | 0.0756 | - | - |
| 24.6825 | 1555 | 0.0854 | - | - |
| 24.7619 | 1560 | 0.0887 | - | - |
| 24.8413 | 1565 | 0.0735 | - | - |
| 24.9206 | 1570 | 0.083 | - | - |
| 25.0 | 1575 | 0.1206 | 1.3050 | 0.7908 |
| 25.0794 | 1580 | 0.0785 | - | - |
| 25.1587 | 1585 | 0.0719 | - | - |
| 25.2381 | 1590 | 0.0783 | - | - |
| 25.3175 | 1595 | 0.0826 | - | - |
| 25.3968 | 1600 | 0.0813 | - | - |
| 25.4762 | 1605 | 0.074 | - | - |
| 25.5556 | 1610 | 0.0797 | - | - |
| 25.6349 | 1615 | 0.0819 | - | - |
| 25.7143 | 1620 | 0.077 | - | - |
| 25.7937 | 1625 | 0.078 | - | - |
| 25.8730 | 1630 | 0.0763 | - | - |
| 25.9524 | 1635 | 0.0831 | - | - |
| 26.0 | 1638 | - | 1.3027 | 0.7922 |
| 26.0317 | 1640 | 0.107 | - | - |
| 26.1111 | 1645 | 0.0738 | - | - |
| 26.1905 | 1650 | 0.0686 | - | - |
| 26.2698 | 1655 | 0.0842 | - | - |
| 26.3492 | 1660 | 0.0775 | - | - |
| 26.4286 | 1665 | 0.0747 | - | - |
| 26.5079 | 1670 | 0.0834 | - | - |
| 26.5873 | 1675 | 0.082 | - | - |
| 26.6667 | 1680 | 0.0737 | - | - |
| 26.7460 | 1685 | 0.074 | - | - |
| 26.8254 | 1690 | 0.0823 | - | - |
| 26.9048 | 1695 | 0.0855 | - | - |
| 26.9841 | 1700 | 0.0824 | - | - |
| 27.0 | 1701 | - | 1.3051 | 0.7872 |
| 27.0635 | 1705 | 0.162 | - | - |
| 27.1429 | 1710 | 0.077 | - | - |
| 27.2222 | 1715 | 0.0645 | - | - |
| 27.3016 | 1720 | 0.0789 | - | - |
| 27.3810 | 1725 | 0.0724 | - | - |
| 27.4603 | 1730 | 0.0772 | - | - |
| 27.5397 | 1735 | 0.0823 | - | - |
| 27.6190 | 1740 | 0.0764 | - | - |
| 27.6984 | 1745 | 0.0796 | - | - |
| 27.7778 | 1750 | 0.0807 | - | - |
| 27.8571 | 1755 | 0.0848 | - | - |
| 27.9365 | 1760 | 0.0817 | - | - |
| 28.0 | 1764 | - | 1.3084 | 0.7864 |
| 28.0159 | 1765 | 0.1393 | - | - |
| 28.0952 | 1770 | 0.0761 | - | - |
| 28.1746 | 1775 | 0.0781 | - | - |
| 28.2540 | 1780 | 0.0811 | - | - |
| 28.3333 | 1785 | 0.0762 | - | - |
| 28.4127 | 1790 | 0.0704 | - | - |
| 28.4921 | 1795 | 0.0696 | - | - |
| 28.5714 | 1800 | 0.0805 | - | - |
| 28.6508 | 1805 | 0.0837 | - | - |
| 28.7302 | 1810 | 0.0814 | - | - |
| 28.8095 | 1815 | 0.08 | - | - |
| 28.8889 | 1820 | 0.0799 | - | - |
| 28.9683 | 1825 | 0.0831 | - | - |
| 29.0 | 1827 | - | 1.3068 | 0.7909 |
| 29.0476 | 1830 | 0.0839 | - | - |
| 29.1270 | 1835 | 0.0723 | - | - |
| 29.2063 | 1840 | 0.076 | - | - |
| 29.2857 | 1845 | 0.0752 | - | - |
| 29.3651 | 1850 | 0.0751 | - | - |
| 29.4444 | 1855 | 0.0771 | - | - |
| 29.5238 | 1860 | 0.066 | - | - |
| 29.6032 | 1865 | 0.0776 | - | - |
| 29.6825 | 1870 | 0.0776 | - | - |
| 29.7619 | 1875 | 0.0796 | - | - |
| 29.8413 | 1880 | 0.0768 | - | - |
| 29.9206 | 1885 | 0.0871 | - | - |
| 30.0 | 1890 | 0.1322 | 1.3060 | 0.7900 |
| 30.0794 | 1895 | 0.0714 | - | - |
| 30.1587 | 1900 | 0.0756 | - | - |
| 30.2381 | 1905 | 0.0674 | - | - |
| 30.3175 | 1910 | 0.0649 | - | - |
| 30.3968 | 1915 | 0.0791 | - | - |
| 30.4762 | 1920 | 0.0678 | - | - |
| 30.5556 | 1925 | 0.0767 | - | - |
| 30.6349 | 1930 | 0.0876 | - | - |
| 30.7143 | 1935 | 0.0853 | - | - |
| 30.7937 | 1940 | 0.084 | - | - |
| 30.8730 | 1945 | 0.0767 | - | - |
| 30.9524 | 1950 | 0.0742 | - | - |
| 31.0 | 1953 | - | 1.3033 | 0.7921 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
Base model
EuroBERT/EuroBERT-210m