nlpso
/

m0_flat_ner_ocr_cmbert_io

Token Classification

Inference Endpoints

Model card Files Files and versions Community

m0_flat_ner_ocr_cmbert_io / README.md

nlpso's picture

Upload README.md with huggingface_hub

56d1ad7 over 1 year ago

|

raw history blame contribute delete

No virus

1.49 kB

	---
	language: fr
	datasets:
	- nlpso/m0_fine_tuning_ocr_cmbert_io
	tag: token-classification
	widget:
	- text: 'Duflot, loueur de carrosses, r. de Paradis-  505  Poissonnière, 22.'
	example_title: 'Noisy entry #1'
	- text: 'Duſour el Besnard, march, de bois à bruler,  quai de la Tournelle, 17. etr. des Fossés-  SBernard. 11.  Dí'
	example_title: 'Noisy entry #2'
	- text: 'Dufour (Charles), épicier, r. St-Denis  ☞  332'
	example_title: 'Ground-truth entry #1'
	---

	# m0_flat_ner_ocr_cmbert_io

	## Introduction

	This model is a fine-tuned verion from [Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner) for nested NER task on a nested NER Paris trade directories dataset.

	## Dataset

	Abbreviation\|Description
	-\|-
	O \|Outside of a named entity
	PER \|Person or company name
	ACT \|Person or company professional activity
	TITRE \|Distinction
	LOC \|Street name
	CARDINAL \|Street number
	FT \|Geographical feature

	## Experiment parameter

	* Pretrained-model : [Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner)
	* Dataset : noisy (Pero OCR)
	* Tagging format : IO
	* Recognised entities : All (flat entities)

	## Load model from the HuggingFace
	```python
	from transformers import AutoTokenizer, AutoModelForTokenClassification

	tokenizer = AutoTokenizer.from_pretrained("nlpso/m0_flat_ner_ocr_cmbert_io")
	model = AutoModelForTokenClassification.from_pretrained("nlpso/m0_flat_ner_ocr_cmbert_io")