Updated model with better training and evaluation. Test and val data included as pickle files. Older Legacy files were removed to avoid confusion.

Browse files

Files changed (9) hide show

.gitattributes +3 -40
Information-Retrieval_evaluation_eval_results.csv +6 -0
Information-Retrieval_evaluation_test_results.csv +5 -0
README.md +1 -1
config.json +1 -1
eval/Information-Retrieval_evaluation_eval_results.csv +0 -0
special_tokens_map.json +5 -35
pytorch_model.bin → test_data.pickle +2 -2
val_data.pickle +3 -0

.gitattributes CHANGED Viewed

@@ -1,42 +1,5 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text
-pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
-.git/lfs/objects/3e/02/3e02186ca2008bfd4ebb104de46ce9beba276ae45c453fedfaeda087cc99f02e filter=lfs diff=lfs merge=lfs -text
 model.safetensors filter=lfs diff=lfs merge=lfs -text
 .git/lfs/objects/21/3e/213e31b950d84bee8f77e75c3cd557932d9bc7dc76dcd03aba223c2e4f841a0f filter=lfs diff=lfs merge=lfs -text
-.git/lfs/objects/3f/07/3f07f428adbf03a3e7902665664f5dd6f342a6b6c7a2a47a7026772c48cb0e73 filter=lfs diff=lfs merge=lfs -text
-.git/lfs/objects/3d/42/3d42ebe4f358451d3fde5790fe6516dcd94dc0e5c0159c25ebfe679e11eab41d filter=lfs diff=lfs merge=lfs -text
-.git/lfs/objects/82/e8/82e8a4b706199c597b03c69c5184163d6bded50042bbb9e85f3928b2f5be3818 filter=lfs diff=lfs merge=lfs -text

 model.safetensors filter=lfs diff=lfs merge=lfs -text
+.git/lfs/objects/3e/6b/3e6bdbead621753c09514da26bdf850f9758533dfd9d599e6ee947c8daea59e4 filter=lfs diff=lfs merge=lfs -text
 .git/lfs/objects/21/3e/213e31b950d84bee8f77e75c3cd557932d9bc7dc76dcd03aba223c2e4f841a0f filter=lfs diff=lfs merge=lfs -text
+test_data.pickle filter=lfs diff=lfs merge=lfs -text
+val_data.pickle filter=lfs diff=lfs merge=lfs -text

Information-Retrieval_evaluation_eval_results.csv ADDED Viewed

	@@ -0,0 +1,6 @@

+epoch,steps,cos_sim-Accuracy@1,cos_sim-Accuracy@3,cos_sim-Accuracy@5,cos_sim-Accuracy@10,cos_sim-Precision@1,cos_sim-Recall@1,cos_sim-Precision@3,cos_sim-Recall@3,cos_sim-Precision@5,cos_sim-Recall@5,cos_sim-Precision@10,cos_sim-Recall@10,cos_sim-MRR@10,cos_sim-NDCG@10,cos_sim-MAP@100
+0,0,0.7225806451612903,0.8580645161290322,0.9096774193548387,0.9419354838709677,0.7225806451612903,0.7161290322580646,0.2860215053763441,0.8516129032258064,0.18193548387096772,0.9032258064516129,0.09419354838709676,0.9354838709677419,0.7968433179723501,0.8271966295960388,0.7941603020635278
+0,0,0.40836012861736337,0.6334405144694534,0.7218649517684887,0.7958199356913184,0.40836012861736337,0.40836012861736337,0.21114683815648444,0.6334405144694534,0.14437299035369774,0.7218649517684887,0.07958199356913183,0.7958199356913184,0.5376760832950542,0.6002459895262535,0.5464104053868796
+0,0,0.40836012861736337,0.6334405144694534,0.7218649517684887,0.7958199356913184,0.40836012861736337,0.40836012861736337,0.21114683815648444,0.6334405144694534,0.14437299035369774,0.7218649517684887,0.07958199356913183,0.7958199356913184,0.5376760832950542,0.6002459895262535,0.5464104053868796
+0,0,0.40836012861736337,0.6334405144694534,0.7218649517684887,0.7958199356913184,0.40836012861736337,0.40836012861736337,0.21114683815648444,0.6334405144694534,0.14437299035369774,0.7218649517684887,0.07958199356913183,0.7958199356913184,0.5376760832950542,0.6002459895262535,0.5464104053868796
+0,0,0.40836012861736337,0.6334405144694534,0.7218649517684887,0.7958199356913184,0.40836012861736337,0.40836012861736337,0.21114683815648444,0.6334405144694534,0.14437299035369774,0.7218649517684887,0.07958199356913183,0.7958199356913184,0.5376760832950542,0.6002459895262535,0.5464104053868796

Information-Retrieval_evaluation_test_results.csv ADDED Viewed

	@@ -0,0 +1,5 @@

+epoch,steps,cos_sim-Accuracy@1,cos_sim-Accuracy@3,cos_sim-Accuracy@5,cos_sim-Accuracy@10,cos_sim-Precision@1,cos_sim-Recall@1,cos_sim-Precision@3,cos_sim-Recall@3,cos_sim-Precision@5,cos_sim-Recall@5,cos_sim-Precision@10,cos_sim-Recall@10,cos_sim-MRR@10,cos_sim-NDCG@10,cos_sim-MAP@100
+0,0,0.43214556482183475,0.654030831437958,0.7556229466767753,0.8660601465756886,0.43214556482183475,0.3960224195819343,0.22778198972285402,0.6125801773830585,0.16254738438210767,0.7189633801460943,0.0964619661359616,0.8379727908348076,0.5708841273852633,0.6230490170650043,0.5550214647187748
+0,0,0.7132075471698113,0.9075471698113208,0.9641509433962264,0.9943396226415094,0.7132075471698113,0.7132075471698113,0.30251572327044024,0.9075471698113208,0.19283018867924526,0.9641509433962264,0.09943396226415095,0.9943396226415094,0.8202126385145252,0.863367502871466,0.8205632189982911
+0,0,0.7056603773584905,0.9037735849056604,0.9547169811320755,0.9943396226415094,0.7056603773584905,0.7056603773584905,0.3012578616352201,0.9037735849056604,0.1909433962264151,0.9547169811320755,0.09943396226415095,0.9943396226415094,0.8155480682839175,0.8597937744367032,0.8159563688254032
+0,0,0.7188679245283018,0.9150943396226415,0.9641509433962264,0.9943396226415094,0.7188679245283018,0.7188679245283018,0.30503144654088044,0.9150943396226415,0.19283018867924526,0.9641509433962264,0.09943396226415095,0.9943396226415094,0.8241719077568133,0.8663694271169878,0.8245394331184973

README.md CHANGED Viewed

@@ -10,7 +10,7 @@ tags:
 ---
-# dell-research-harvard/lt-un-data-fine-industry-es
 This is a [LinkTransformer](https://linktransformer.github.io/) model. At its core this model this is a sentence transformer model [sentence-transformers](https://www.SBERT.net) model- it just wraps around the class.
 It is designed for quick and easy record linkage (entity-matching) through the LinkTransformer package. The tasks include clustering, deduplication, linking, aggregation and more.

 ---
+# {MODEL_NAME}
 This is a [LinkTransformer](https://linktransformer.github.io/) model. At its core this model this is a sentence transformer model [sentence-transformers](https://www.SBERT.net) model- it just wraps around the class.
 It is designed for quick and easy record linkage (entity-matching) through the LinkTransformer package. The tasks include clustering, deduplication, linking, aggregation and more.

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "models/linkage_un_data_es_fine_industry",
   "architectures": [
     "BertModel"
   ],

 {
+  "_name_or_path": "hiiamsid/sentence_similarity_spanish_es",
   "architectures": [
     "BertModel"
   ],

eval/Information-Retrieval_evaluation_eval_results.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json CHANGED Viewed

@@ -1,37 +1,7 @@
 {
-  "cls_token": {
-    "content": "[CLS]",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "mask_token": {
-    "content": "[MASK]",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "[PAD]",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "[SEP]",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "[UNK]",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
 }

pytorch_model.bin → test_data.pickle RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:213e31b950d84bee8f77e75c3cd557932d9bc7dc76dcd03aba223c2e4f841a0f
-size 439467497

 version https://git-lfs.github.com/spec/v1
+oid sha256:258a6afd4ec0a61ce7ba4d9c64eaacba49cc242d396981ac6224dd00efc5c5e6
+size 68516

val_data.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e1fb31aaa096101bf8cb0a320022e521d1d021cae177a11ea143ff78ecfaf71
+size 228390