metadata

language: fr
datasets:
  - nlpso/m0_fine_tuning_ocr_cmbert_io
tag: token-classification
widget:
  - text: "Duflot, loueur de carrosses, r. de Paradis-\P    505\P    Poissonnière, 22."
    example_title: 'Noisy entry #1'
  - text: "Duſour el Besnard, march, de bois à bruler,\P    quai de la Tournelle, 17. etr. des Fossés-\P    SBernard. 11.\P    Dí"
    example_title: 'Noisy entry #2'
  - text: "Dufour (Charles), épicier, r. St-Denis\P    ☞\P    332"
    example_title: 'Ground-truth entry #1'

m0_flat_ner_ocr_cmbert_io

Introduction

This model is a fine-tuned verion from Jean-Baptiste/camembert-ner for nested NER task on a nested NER Paris trade directories dataset.

Dataset

Abbreviation	Description
O	Outside of a named entity
PER	Person or company name
ACT	Person or company professional activity
TITRE	Distinction
LOC	Street name
CARDINAL	Street number
FT	Geographical feature

Experiment parameter

Pretrained-model : Jean-Baptiste/camembert-ner
Dataset : noisy (Pero OCR)
Tagging format : IO
Recognised entities : All (flat entities)

Load model from the HuggingFace

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("nlpso/m0_flat_ner_ocr_cmbert_io")
model = AutoModelForTokenClassification.from_pretrained("nlpso/m0_flat_ner_ocr_cmbert_io")