numind
/

NuNER-v1.0

 pipeline_tag: token-classification
 inference: false
 ---
+# SOTA Entity Recognition English Foundation Model by NuMind 🔥
+ This model provides the best embedding for the Entity Recognition task in English.
+**Checkout other models by NuMind:**
+* SOTA Multilingual Entity Recognition Foundation Model: [link](https://huggingface.co/numind/entity-recognition-multilingual-general-sota-v1)
+* SOTA Sentiment Analysis Foundation Model: [English](https://huggingface.co/numind/generic-sentiment-v1), [Multilingual](https://huggingface.co/numind/generic-sentiment-multi-v1)
+## About
+[Roberta-base](https://huggingface.co/roberta-base) fine-tuned on [NuNER data](https://huggingface.co/datasets/numind/NuNER).
+**Metrics:**
+Read more about evaluation protocol & datasets in our [paper](https://arxiv.org/abs/2402.15343) and [blog post](https://www.numind.ai/blog/a-foundation-model-for-entity-recognition).
+| Model | F1 macro |
+|----------|----------|
+|   RoBERTa-base  |  0.7129   |
+|   ours  |   0.7500  |
+|   ours + two emb  |   0.7686  |
+## Usage
+Embeddings can be used out of the box or fine-tuned on specific datasets.
+Get embeddings:
+```python
+import torch
+import transformers
+model = transformers.AutoModel.from_pretrained(
+    'numind/NuNER-v1.0',
+    output_hidden_states=True
+)
+tokenizer = transformers.AutoTokenizer.from_pretrained(
+    'numind/NuNER-v1.0'
+)
+text = [
+    "NuMind is an AI company based in Paris and USA.",
+    "See other models from us on https://huggingface.co/numind"
+]
+encoded_input = tokenizer(
+    text,
+    return_tensors='pt',
+    padding=True,
+    truncation=True
+)
+output = model(**encoded_input)
+# for better quality
+emb = torch.cat(
+    (output.hidden_states[-1], output.hidden_states[-7]),
+    dim=2
+)
+# for better speed
+# emb = output.hidden_states[-1]
+```