RoBERTa Amharic Text Embedding Medium

This is a sentence-transformers model finetuned from yosefw/roberta-base-am-embed on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: yosefw/roberta-base-am-embed
  • Maximum Sequence Length: 510 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 510, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/roberta-amharic-embed-base")
# Run inference
sentences = [
    'አፀፋዊ እርምጃዉ ሻዕቢያ ለሚፈፅማቸው ጥፋቶች ቆም ብሎ እንዲያስብ የሚያደርግ መሆኑን ተገለጸ',
    'ሃላፊው ባሳለፍነው ሳምንት መጨረሻ በኤርትራ ጦር ላይ የተወሰደውን አፀፋዊ እርምጃ አስመልክተው በሰጡት ጋዜጣዊ መግለጫ፥ እርምጃው የኤርትራ መንግስት የሚያደርጋቸውን ትንኮሳዎች ሊያስቆም ይችላል የሚል እምነት እንዳላቸውም ገልጸዋል።በዚህ አጸፋዊ እርምጃ የተፈለገው ውጤት መገኘቱን ጠቅሰው፥ በኢትዮ – ኤርትራ ድንበር አካባቢ ከዚህ በኋላ ለሚፈጠር ችግርም የኤርትራ መንግስት ተጠያቂ መሆኑን ነው አጽንኦት ሰጥተው የተናገሩት።የኤርትራ መንግስት ከዚህ በኋላ የሚያደርገውን ትንኮሳ ከቀጠለ፥ መንግስት የሚወስደውን ተመጣጣኝ እርምጃ እንደሚቀጥልም ገልጸዋል።ሃገራቱ ወደ ጦርነት የሚገቡበት እድል ስለመኖሩ ለቀረበላቸው ጥያቄም፥ ሁኔታዎች የኤርትራ መንግስት በሚያደርጋቸው እንቅስቃሴዎች ላይ የተመሰረቱ ናቸው ብለዋል።ከዚህ ባለፈ ግን ከደረሰበት ኪሳራ እና ካለበት ሁኔታ አንጻር፥ የኤርትራ መንግስት ወደ ጦርነት ሊገባ እንደማይችል አስረድተዋል።በአሁኑ ወቅት የኢፌዴሪ መከላከያ ሰራዊት የሚፈለገውን ግብ አሳክቶ ወደ ቦታው መመለሱንም ነው ያስረዱት።ከአል ሸባብ ጋር ተያይዞ በሰጡት መግለጫም፥ ቡድኑ በሶማሊያ የኢትዮጵያን የጦር ቤዝ ለመቆጣጠር ያደረገው ጥረት እንዳልተሳከለት እና ከፍተኛ ኪሳራ እንደደረሰበት ጠቅሰዋል።መሰል የአል ሸባብ ጥቃቶች በሰላም አስከባሪ ሃይሎች ላይ እንደሚፈጸሙ አንስተው፥ የኢፌዴሪ መከላከያ ሰራዊት በሌሎች ሃገራት ካገኘው ተሞክሮ በመነሳት በቡድኑ ላይ ጠንካራ አፀፋዊ እርምጃ መውሰዱን አውስተዋል።አቶ ጌታቸው መከላከያ ሰራዊቱ በአሁኑ ሰአት በመደበኛ የሰላም ማስከበር ተልዕኮው ይገኛልም ነው ያሉት። (ኤፍ ቢ ሲ)',
    'በቅርቡ ኦፌኮን የተቀላቀሉት ጃዋር መሃመድ የፌደራል ፖሊስ ሲያደርግላቸው የነበረውን ጥበቃ ከ እሁድ ጥር 17/2012 ጀምሮ ማንሳቱን የኦሮሚያ ብሮድካስት ኮርፖሬሽን አስታወቀ፡፡ኦቢኤን በምሽት ሁለት ሰአት ዜናው ላይ አንዳስነበበው መንግስት ለማንኛውም ተፎካካሪ ፓርቲ አመራርም ሆነ አባል የግል ጥበቃ ስለማያደርግ እና አሰራሩም ስለማይፈቅድ ጥበቃዎቹ እንደተነሱ ፌደረላ ፖሊስ አስታውቋል፡፡አዲስ ማለዳም ባደረገችው ማጣራት ጃዋር ጠባቂዎቻቸው ወደ መደበኛ ስራቸው እንዲመለሱ እንዲያደርጉ የፌደራል ፖሊስ የወንጀል መከላከል ዘርፍ በፃፈው ደብዳቤ ማስታወቁን አረጋግጣለች፡፡አዲስ ማለዳ ወደ ጃዋር መሃመድ በተደጋጋሚ የስልክ ጥሪ ብታደርግም ለግዜው አስተያየት ከመስጠት ተቆጥበዋል፡፡',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_256
cosine_accuracy@1 0.6929 0.682
cosine_accuracy@3 0.8231 0.8099
cosine_accuracy@5 0.8564 0.8484
cosine_accuracy@10 0.8944 0.8882
cosine_precision@1 0.6929 0.682
cosine_precision@3 0.2744 0.27
cosine_precision@5 0.1713 0.1697
cosine_precision@10 0.0894 0.0888
cosine_recall@1 0.6929 0.682
cosine_recall@3 0.8231 0.8099
cosine_recall@5 0.8564 0.8484
cosine_recall@10 0.8944 0.8882
cosine_ndcg@10 0.7965 0.7871
cosine_mrr@10 0.7648 0.7545
cosine_map@100 0.7686 0.7586

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 40,237 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 14.57 tokens
    • max: 37 tokens
    • min: 47 tokens
    • mean: 295.23 tokens
    • max: 510 tokens
  • Samples:
    anchor positive
    በጠበቃ የመወከል መብቱ አልተከበረም የተባለ ፍርደኛ ውሳኔ ተቀለበሰ የፌዴራል ከፍተኛው ፍርድ ቤት በአንድ ተከሳሽ ላይ መጋቢት 13 ቀን 2008 ዓ.ም. በዕድሜ ልክ ጽኑ እስራት እንዲቀጣ የሰጠውን ፍርድ፣ በጠበቃ የመወከል መብቱ አልተከበረም በማለት የፌዴራል ጠቅላይ ፍርድ ቤት ይግባኝ ሰሚ ችሎት ታኅሳስ 14 ቀን 2009 ዓ.ም. ውድቅ አደረገው፡፡የፌዴራል ዓቃቤ ሕግ ወርቁ ከበደ ካሳ የተባለ ግለሰብ የወንጀል ሕግ አንቀጽ 32(1ሀ) እና 539(1ሀ) ሥር የተደነገገውን በመተላለፍ፣ ከባድ የግፍ አገዳደል በመጠቀም ሰው መግደሉን በመጥቀስ ለከፍተኛ ፍርድ ቤት ክስ ያቀርባል፡፡ ከፍተኛው ፍርድ ቤት የዓቃቤ ሕግ አንድ ምስክርን በመስማትና ተከሳሽ በአግባቡ ሊከላከል እንዳልቻለ በመግለጽ፣ በዕድሜ ልክ ጽኑ እስራት እንዲቀጣ ፍርድ መስጠቱን የጠቅላይ ፍርድ ቤት ውሳኔ ያስረዳል፡፡ፍርደኛው ለጠቅላይ ፍርድ ቤት ባቀረበው የይግባኝ አቤቱታ እንደገለጸው፣ ዓቃቤ ሕግ በሥር ፍርድ ቤት ያቀረበው ምስክሮች የሚመሰክሩበት ጭብጥና ያቀረባቸው ምስክሮች በሌላ ተከሳሽ ላይ የሚያስረዱ መሆኑ ተረጋግጧል፡፡ ሌላኛው ተከሳሽም ወንጀሉን መፈጸሙን መርቶ አሳይቷል፡፡ ሒደቱ ይህንን የሚያስረዳ ቢሆንም፣ ፍርድ ቤቱ ይግባኝ ባይን ጥፋተኛ በማለት ቅጣቱን እንደጣለበት አስረድቷል፡፡ በተጨማሪም ጥፋተኛ ሲባል ያቀረበው የቅጣት ማቅለያ እንዳልተያዘለት፣ ቅጣቱ በቅጣት ማንዋሉ መሠረት ሲሰላ ስህተት እንደተፈጸመና አቅም እንደሌለው እየታወቀ ተከላካይ ጠበቃ ሊቆምለት ሲገባ እንዳልቆመለት አስረድቷል፡፡ በሥር ፍርድ ቤት በሰነድ ማስረጃነት የቀረበበት በቀዳሚ ምርመራ አድራጊ ፍርድ ቤት የተሰጠ የምስክር ቃል ሲሆን፣ እሱ የሕግ ዕውቀት የሌለውና የተከሰሰበትም ድንጋጌ ከባድ መሆኑ እየታወቀ፣ ያለ ተከላካይ ጠበቃ መታየቱ ተገቢ አለመሆኑንና ሕገ መንግሥታዊ መብቱ ያልተጠበቀለት መሆኑን አስረድ...
    የሱዳን ጦር እና የቀድሞ የደህንነት ሃይሎች ተጋጩ አዲስ አበባ፣ ጥር 6፣ 2012 (ኤፍ.ቢ.ሲ) የሱዳን ጦር እና የሱዳን የቀድሞው ፕሬዚዳንት ኦማር ሃሰን አልበሽር ታማኝ ናቸው የተባሉ የደህንነት ሃይሎች ተጋጩ።የቀድሞ የደህንነት አካላት በሰሜናዊ ካርቱም ከባድ መሳሪያዎችን መተኮሳቸውን ነዋሪዎች ተናግረዋል።ከዚህ ባለፈም ከአውሮፕላን ማረፊያው አቅራቢያ የሚገኝን የደህንነት መስሪያ ቤት ህንጻም ተቆጣጥረዋል ተብሏል።የሱዳን ወታደራዊ ምንጮች ደግሞ የመንግሥት ወታደሮች በተቀናቃኞቻቸው የተያዙትን ህንጻዎች መልሰው መቆጣጠራቸውን ገልጸዋል።በተኩስ ልውውጡ አምስት ሰዎች መቁሰላቸውም ነው የተነገረው።የሱዳን ሉዓላዊ ምክር ቤት የቀድሞ የደህንነት ሰዎች በሃገሪቱ መረጋጋት እንዳይሰፍን እያደረጉ ነው በሚል ይወነጅላቸዋል።አሁን ላይ በሃገሪቱ ለሚስተዋለው አመጽና አለመረጋጋትም የቀድሞው የደህንነት ሃላፊ ሳላህ ጎሽ አስተዋጽኦ አድርገዋልም ነው ያለው።የሉዓላዊ ምክር ቤቱ ከፍተኛ የስራ ሃላፊ የሆኑት ጀኔራል ሞሃመድ ሃምዳን ዳጋሎ፥ ድርጊቱን እንደማይታገሱ ተናግረዋል።አሁን ላይ በሃገሪቱ እየታየ ያለው ሰላምና መረጋጋት የሃገሪቱ የቀድሞ ፕሬዚዳንት ኦማር ሃሰን አልበሽር ከስልጣን ከወረዱ በኋላ የተካሄደውን ማሻሻያ ሲቃወሙ በነበሩ አካላት ፈተና ሊገጥመው ይችላል የሚል ስጋትም አጭሯል።ከዚህ ቀደም የተካሄዱ ተቃውሞዎችን ሲመሩ የነበሩ አካላት መሰል ኃላፊነት የጎደላቸው ተግባራት እንዲቆሙ ጥሪ አቅርበዋል።ምንጭ፦ ቢ.ቢ.ሲ
    የ2018 ኦስካር ዕጩዎች ይፋ ተደርገዋል ለ90ኛ ጊዜ የሚካሄደው የ2018 የኦስካር ሽልማት ዕጩዎች ዝርዝር ከሰሞኑ ይፋ የተደረገ ሲሆን፣ 13 ጊዜ ለሽልማት የታጨው ዘ ሼፕ ኦፍ ዋተር፣ በአመቱ በብዛት በመታጨት ቀዳሚነቱን የያዘ ፊልም ሆኗል፡፡የሮማንቲክ ሳይንስ ፊክሽን ዘውግ ያለው ዘ ሼፕ ኦፍ ዋተር፣ በዘንድሮው የኦስካር ሽልማት በብዛት በመታጨት ታሪክ ቢሰራም፣ በኦስካር ታሪክ 14 ጊዜ በመታጨት ክብረወሰኑን ከያዙት ታይታኒክ፣ ኦል አባውት ኢቭ እና ላላ ላንድ ተርታ በመሰለፍ ሌላ ታሪክ መስራቱ ለጥቂት ሳይሳካለት ቀርቷል፡፡በ24 የተለያዩ ዘርፎች ዕጩዎች በቀረቡበት በዘንድሮው ኦስካር፣ በብዛት በመታጨት የሚመራው በስምንት ዘርፎች የታጨው ዳንኪርክ ሲሆን፣ ስሪ ቢልቦርድስ አውትሳይድ ኢቢንግ ሚሱሪ በ7፣ ፋንተም ትሬድ በ6 ይከተላሉ፡፡ የ22 አመቱ የፊልም ተዋናይ ቲሞቲ ቻላሜት፣ በኦስካር ታሪክ በለጋ እድሜው ለምርጥ ወንድ ተዋናይነት በመታጨት የሶስተኛነት ደረጃን መያዙን ያስታወቀው ተቋሙ፣ ሁለቱን ደረጃዎች የያዙት ጃኪ ኩፐር የተባለው የ9 አመት ታዳጊና ሚኪ ሩኒ የተባለው የ19 ወጣት መሆናቸውን አስታውሷል፡፡ ኦል ዘ መኒ ኢን ዘወርልድ በሚለው ፊልሙ በምርጥ ረዳት ተዋናይ ዘርፍ ለሽልማት የታጨው የ88 አመቱ የፊልም ተዋናይ ክሪስቶፈር ፕላመር፣ ረጅም እድሜ የገፋ የኦስካር ዕጩ በመሆን በታሪክ ተመዝግቧል፡፡በብዛት በታጨው ዘ ሼፕ ኦፍ ዋተር ላይ የምትተውነው ኦክታቪያ ስፔንሰር፣ ለሶስት ጊዜ ለኦስካር ሽልማት በመታጨት ቀዳሚዋ ጥቁር ሴት ተዋናይት የሚለውን ማዕረግ ከቪዮላ ዳቪስ ጋር ተጋርታለች፡፡ ዴንዘል ዋሽንግተን በበኩሉ፤ ስምንት ጊዜ በመታጨት ቀዳሚው ጥቁር የፊልም ተዋናይ በመሆን ታሪክ ሰርቷል፡፡ ሁለቱም ጥቁር ተዋንያን በብዛት በመታጨት ብቻ ሳይሆን፣ በተከታታይ አመታት ለዕጩነት በመቅረብም ታሪክ መስረታቸው...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            256
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • learning_rate: 4e-05
  • num_train_epochs: 4
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 4e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_768_cosine_ndcg@10 dim_256_cosine_ndcg@10
0.0159 10 5.3948 - -
0.0318 20 4.295 - -
0.0477 30 2.7454 - -
0.0636 40 1.455 - -
0.0795 50 0.9021 - -
0.0954 60 0.7387 - -
0.1113 70 0.5439 - -
0.1272 80 0.5259 - -
0.1431 90 0.4271 - -
0.1590 100 0.3868 - -
0.1749 110 0.3815 - -
0.1908 120 0.3284 - -
0.2067 130 0.2866 - -
0.2226 140 0.3329 - -
0.2385 150 0.3052 - -
0.2544 160 0.3107 - -
0.2703 170 0.3236 - -
0.2862 180 0.3185 - -
0.3021 190 0.2564 - -
0.3180 200 0.2927 - -
0.3339 210 0.2404 - -
0.3498 220 0.2847 - -
0.3657 230 0.2355 - -
0.3816 240 0.2852 - -
0.3975 250 0.2981 - -
0.4134 260 0.2617 - -
0.4293 270 0.2528 - -
0.4452 280 0.2394 - -
0.4610 290 0.2404 - -
0.4769 300 0.3225 - -
0.4928 310 0.2278 - -
0.5087 320 0.2332 - -
0.5246 330 0.2973 - -
0.5405 340 0.2005 - -
0.5564 350 0.2949 - -
0.5723 360 0.2743 - -
0.5882 370 0.1886 - -
0.6041 380 0.2491 - -
0.6200 390 0.2303 - -
0.6359 400 0.1426 - -
0.6518 410 0.2039 - -
0.6677 420 0.1995 - -
0.6836 430 0.131 - -
0.6995 440 0.1744 - -
0.7154 450 0.1891 - -
0.7313 460 0.1883 - -
0.7472 470 0.2624 - -
0.7631 480 0.1986 - -
0.7790 490 0.2006 - -
0.7949 500 0.2297 - -
0.8108 510 0.1576 - -
0.8267 520 0.1551 - -
0.8426 530 0.1732 - -
0.8585 540 0.1698 - -
0.8744 550 0.1169 - -
0.8903 560 0.1711 - -
0.9062 570 0.1687 - -
0.9221 580 0.1842 - -
0.9380 590 0.1776 - -
0.9539 600 0.1577 - -
0.9698 610 0.2105 - -
0.9857 620 0.2254 - -
1.0 629 - 0.7361 0.7234
1.0016 630 0.2016 - -
1.0175 640 0.1002 - -
1.0334 650 0.1702 - -
1.0493 660 0.0956 - -
1.0652 670 0.1105 - -
1.0811 680 0.1065 - -
1.0970 690 0.1081 - -
1.1129 700 0.0763 - -
1.1288 710 0.1071 - -
1.1447 720 0.0976 - -
1.1606 730 0.0736 - -
1.1765 740 0.0914 - -
1.1924 750 0.0877 - -
1.2083 760 0.0595 - -
1.2242 770 0.0967 - -
1.2401 780 0.0901 - -
1.2560 790 0.1052 - -
1.2719 800 0.109 - -
1.2878 810 0.0954 - -
1.3037 820 0.0917 - -
1.3196 830 0.1052 - -
1.3355 840 0.0905 - -
1.3514 850 0.0743 - -
1.3672 860 0.087 - -
1.3831 870 0.1757 - -
1.3990 880 0.0661 - -
1.4149 890 0.1133 - -
1.4308 900 0.0874 - -
1.4467 910 0.0976 - -
1.4626 920 0.0659 - -
1.4785 930 0.1194 - -
1.4944 940 0.0924 - -
1.5103 950 0.0654 - -
1.5262 960 0.0727 - -
1.5421 970 0.0913 - -
1.5580 980 0.0683 - -
1.5739 990 0.0934 - -
1.5898 1000 0.0578 - -
1.6057 1010 0.0617 - -
1.6216 1020 0.0918 - -
1.6375 1030 0.0673 - -
1.6534 1040 0.0546 - -
1.6693 1050 0.092 - -
1.6852 1060 0.0772 - -
1.7011 1070 0.0849 - -
1.7170 1080 0.1058 - -
1.7329 1090 0.0773 - -
1.7488 1100 0.0478 - -
1.7647 1110 0.0839 - -
1.7806 1120 0.0376 - -
1.7965 1130 0.0816 - -
1.8124 1140 0.0652 - -
1.8283 1150 0.0583 - -
1.8442 1160 0.1167 - -
1.8601 1170 0.1016 - -
1.8760 1180 0.0709 - -
1.8919 1190 0.0579 - -
1.9078 1200 0.0625 - -
1.9237 1210 0.0658 - -
1.9396 1220 0.0868 - -
1.9555 1230 0.0938 - -
1.9714 1240 0.0819 - -
1.9873 1250 0.0731 - -
2.0 1258 - 0.7672 0.7548
2.0032 1260 0.1169 - -
2.0191 1270 0.0719 - -
2.0350 1280 0.0453 - -
2.0509 1290 0.0283 - -
2.0668 1300 0.0306 - -
2.0827 1310 0.0308 - -
2.0986 1320 0.0312 - -
2.1145 1330 0.0434 - -
2.1304 1340 0.0327 - -
2.1463 1350 0.0283 - -
2.1622 1360 0.04 - -
2.1781 1370 0.0518 - -
2.1940 1380 0.0452 - -
2.2099 1390 0.0455 - -
2.2258 1400 0.033 - -
2.2417 1410 0.028 - -
2.2576 1420 0.0345 - -
2.2734 1430 0.0408 - -
2.2893 1440 0.0416 - -
2.3052 1450 0.0289 - -
2.3211 1460 0.0304 - -
2.3370 1470 0.0536 - -
2.3529 1480 0.0537 - -
2.3688 1490 0.0233 - -
2.3847 1500 0.0418 - -
2.4006 1510 0.0415 - -
2.4165 1520 0.0238 - -
2.4324 1530 0.0447 - -
2.4483 1540 0.042 - -
2.4642 1550 0.0339 - -
2.4801 1560 0.0242 - -
2.4960 1570 0.0351 - -
2.5119 1580 0.0387 - -
2.5278 1590 0.0378 - -
2.5437 1600 0.0275 - -
2.5596 1610 0.0389 - -
2.5755 1620 0.028 - -
2.5914 1630 0.0302 - -
2.6073 1640 0.0441 - -
2.6232 1650 0.0574 - -
2.6391 1660 0.0326 - -
2.6550 1670 0.0309 - -
2.6709 1680 0.0429 - -
2.6868 1690 0.0304 - -
2.7027 1700 0.0414 - -
2.7186 1710 0.0303 - -
2.7345 1720 0.0288 - -
2.7504 1730 0.0315 - -
2.7663 1740 0.0268 - -
2.7822 1750 0.029 - -
2.7981 1760 0.0292 - -
2.8140 1770 0.0527 - -
2.8299 1780 0.0443 - -
2.8458 1790 0.0412 - -
2.8617 1800 0.0369 - -
2.8776 1810 0.0314 - -
2.8935 1820 0.0281 - -
2.9094 1830 0.0215 - -
2.9253 1840 0.0291 - -
2.9412 1850 0.0224 - -
2.9571 1860 0.0321 - -
2.9730 1870 0.0171 - -
2.9889 1880 0.0302 - -
3.0 1887 - 0.7911 0.7827
3.0048 1890 0.0237 - -
3.0207 1900 0.0288 - -
3.0366 1910 0.0242 - -
3.0525 1920 0.0282 - -
3.0684 1930 0.0331 - -
3.0843 1940 0.0302 - -
3.1002 1950 0.0312 - -
3.1161 1960 0.0211 - -
3.1320 1970 0.0201 - -
3.1479 1980 0.0341 - -
3.1638 1990 0.0171 - -
3.1797 2000 0.0251 - -
3.1955 2010 0.0182 - -
3.2114 2020 0.0343 - -
3.2273 2030 0.0205 - -
3.2432 2040 0.0243 - -
3.2591 2050 0.0294 - -
3.2750 2060 0.021 - -
3.2909 2070 0.0186 - -
3.3068 2080 0.027 - -
3.3227 2090 0.0109 - -
3.3386 2100 0.0296 - -
3.3545 2110 0.0201 - -
3.3704 2120 0.0218 - -
3.3863 2130 0.0171 - -
3.4022 2140 0.0261 - -
3.4181 2150 0.0239 - -
3.4340 2160 0.0216 - -
3.4499 2170 0.0278 - -
3.4658 2180 0.0188 - -
3.4817 2190 0.0254 - -
3.4976 2200 0.0396 - -
3.5135 2210 0.0148 - -
3.5294 2220 0.0218 - -
3.5453 2230 0.0163 - -
3.5612 2240 0.0272 - -
3.5771 2250 0.0264 - -
3.5930 2260 0.0156 - -
3.6089 2270 0.0245 - -
3.6248 2280 0.0229 - -
3.6407 2290 0.0192 - -
3.6566 2300 0.0471 - -
3.6725 2310 0.0137 - -
3.6884 2320 0.0289 - -
3.7043 2330 0.0272 - -
3.7202 2340 0.0141 - -
3.7361 2350 0.0235 - -
3.7520 2360 0.0252 - -
3.7679 2370 0.0151 - -
3.7838 2380 0.0267 - -
3.7997 2390 0.0158 - -
3.8156 2400 0.0254 - -
3.8315 2410 0.0146 - -
3.8474 2420 0.0106 - -
3.8633 2430 0.0207 - -
3.8792 2440 0.0125 - -
3.8951 2450 0.0202 - -
3.9110 2460 0.026 - -
3.9269 2470 0.0148 - -
3.9428 2480 0.0284 - -
3.9587 2490 0.0248 - -
3.9746 2500 0.0243 - -
3.9905 2510 0.0274 - -
4.0 2516 - 0.7965 0.7871
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.48.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.3.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
8
Safetensors
Model size
111M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for yosefw/roberta-amharic-embed-base

Finetuned
(3)
this model

Evaluation results