Edit model card

Typo Detector For Icelandic 🇮🇸

Dataset Information

Synthetic data for this specific task.

Evaluation

The following tables summarize the scores obtained by model overall and per each class.

# precision recall f1-score support
TYPO 0.98954 0.967603 0.978448 43800.0
micro avg 0.98954 0.967603 0.978448 43800.0
macro avg 0.98954 0.967603 0.978448 43800.0
weighted avg 0.98954 0.967603 0.978448 43800.0

How to use

You use this model with Transformers pipeline for NER (token-classification).

Installing requirements

pip install transformers

Prediction using pipeline

import torch
from transformers import AutoConfig, AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline


model_name_or_path = "m3hrdadfi/typo-detector-distilbert-is"
config = AutoConfig.from_pretrained(model_name_or_path)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path, config=config)
nlp = pipeline('token-classification', model=model, tokenizer=tokenizer, aggregation_strategy="average")
sentences = [
"Páli, vini mínum, langaði að horfa á sjónnvarpið.",
"Leggir þciðursins eru þaktir fjöðrum til bað edravn fuglnn gekgn kuldanué .",
"Þar hitta þeir konu Björns og segir ovs :",
"Ingvar Sæmundsson ekgk rú sveitinni árið 2015 og etnbeitii sér að hinni þungarokkssvedt svnni Momentum .",
"Þar hitta þeir konu Björns og segir ovs :",
"Var hann síðaún hkluti af leikhópnum sem ferðaðist um Bandaríkin til að sýan söngleikinn ."
]

for sentence in sentences:
    typos = [sentence[r["start"]: r["end"]] for r in nlp(sentence)]

    detected = sentence
    for typo in typos:
        detected = detected.replace(typo, f'<i>{typo}</i>')

    print("   [Input]: ", sentence)
    print("[Detected]: ", detected)
    print("-" * 130)

Output: ```text [Input]: Páli, vini mínum, langaði að horfa á sjónnvarpið. [Detected]: Páli, vini mínum, langaði að horfa á sjónnvarpið.

[Input]: Leggir þciðursins eru þaktir fjöðrum til bað edravn fuglnn gekgn kuldanué . [Detected]: Leggir þciðursins eru þaktir fjöðrum til bað edravn fuglnn gekgn kuldanué .

[Input]: Þar hitta þeir konu Björns og segir ovs : [Detected]: Þar hitta þeir konu Björns og segir ovs :

[Input]: Ingvar Sæmundsson ekgk rú sveitinni árið 2015 og etnbeitii sér að hinni þungarokkssvedt svnni Momentum . [Detected]: Ingvar Sæmundsson ekgk sveitinni árið 2015 og etnbeitii sér að hinni þungarokkssvedt svnni Momentum .

[Input]: Þar hitta þeir konu Björns og segir ovs : [Detected]: Þar hitta þeir konu Björns og segir ovs :

[Input]: Var hann síðaún hkluti af leikhópnum sem ferðaðist um Bandaríkin til að sýan söngleikinn . [Detected]: Var hann síðaún hkluti af leikhópnum sem ferðaðist um Bandaríkin til að sýan söngleikinn .


## Questions?
Post a Github issue on the [TypoDetector Issues](https://github.com/m3hrdadfi/typo-detector/issues) repo.
Downloads last month
3
Inference API
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Space using m3hrdadfi/typo-detector-distilbert-is 1