nomic-ai
/

modernbert-embed-base

Sentence Similarity

sentence-transformers

Transformers.js

feature-extraction

Inference Endpoints

Model card Files Files and versions Community

zpn commited on 10 days ago

Commit

c9c6080

·

1 Parent(s): 24800f1

docs: citation etc

Files changed (1) hide show

README.md +38 -1

README.md CHANGED Viewed

@@ -2956,4 +2956,41 @@ embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
 embeddings = embeddings[:, :matryoshka_dim]
 embeddings = F.normalize(embeddings, p=2, dim=1)
 print(embeddings)
-```

 embeddings = embeddings[:, :matryoshka_dim]
 embeddings = F.normalize(embeddings, p=2, dim=1)
 print(embeddings)
+```
+## Training
+Click the Nomic Atlas map below to visualize a 5M sample of our contrastive pretraining data!
+[![image/webp](https://cdn-uploads.huggingface.co/production/uploads/607997c83a565c15675055b3/pjhJhuNyRfPagRd_c_iUz.webp)](https://atlas.nomic.ai/map/nomic-text-embed-v1-5m-sample)
+We train our embedder using a multi-stage training pipeline. Starting from a long-context [BERT model](https://huggingface.co/nomic-ai/nomic-bert-2048),
+the first unsupervised contrastive stage trains on a dataset generated from weakly related text pairs, such as question-answer pairs from forums like StackExchange and Quora, title-body pairs from Amazon reviews, and summarizations from news articles.
+In the second finetuning stage, higher quality labeled datasets such as search queries and answers from web searches are leveraged. Data curation and hard-example mining is crucial in this stage.
+For more details, see the Nomic Embed [Technical Report](https://static.nomic.ai/reports/2024_Nomic_Embed_Text_Technical_Report.pdf) and corresponding [blog post](https://blog.nomic.ai/posts/nomic-embed-text-v1).
+Training data to train the models is released in its entirety. For more details, see the `contrastors` [repository](https://github.com/nomic-ai/contrastors)
+## Join the Nomic Community
+- Nomic: [https://nomic.ai](https://nomic.ai)
+- Discord: [https://discord.gg/myY5YDR8z8](https://discord.gg/myY5YDR8z8)
+- Twitter: [https://twitter.com/nomic_ai](https://twitter.com/nomic_ai)
+## Citation
+If you find the model, dataset, or training code useful, please cite our work
+```bibtex
+@misc{nussbaum2024nomic,
+      title={Nomic Embed: Training a Reproducible Long Context Text Embedder},
+      author={Zach Nussbaum and John X. Morris and Brandon Duderstadt and Andriy Mulyar},
+      year={2024},
+      eprint={2402.01613},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}
+```