helinivan
/

italian-sarcasm-detector

Text Classification

sarcasm-detection

Inference Endpoints

Model card Files Files and versions Community

italian-sarcasm-detector / README.md

helinivan's picture

Update README.md

2e23a19 about 2 years ago

|

history blame contribute delete

2.55 kB

	---
	language: "it"
	tags:
	- bert
	- sarcasm-detection
	- text-classification
	widget:
	- text: "Gli Usa a un passo dalla recessione"
	---

	# Italian Sarcasm Detector

	Italian Sarcasm Detector is a text classification model built to detect sarcasm from news article titles. It is fine-tuned on [dbmdz/bert-base-italian-uncased](https://huggingface.co/dbmdz/bert-base-italian-uncased) and the training data consists of scraped data from Italian non-sarcastic newspaper (Il Giornale) and sarcastic newspaper (Lercio).


	<b>Labels</b>:
	0 -> Not Sarcastic;
	1 -> Sarcastic


	## Source Data
	Scraped data:
	- Italian non-sarcastic news from [Il Giornale](https://www.ilgiornale.it)
	- Italian sarcastic news from [Lercio](https://www.lercio.it)

	## Training Dataset
	- [helinivan/sarcasm_headlines_multilingual](https://huggingface.co/datasets/helinivan/sarcasm_headlines_multilingual)


	## Codebase:
	- Git Repo: [Official repository](https://github.com/helinivan/multilingual-sarcasm-detector)

	---

	## Example of classification

	```python
	from transformers import AutoModelForSequenceClassification
	from transformers import AutoTokenizer
	import string

	def preprocess_data(text: str) -> str:
	return text.lower().translate(str.maketrans("", "", string.punctuation)).strip()

	MODEL_PATH = "helinivan/italian-sarcasm-detector"

	tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
	model = AutoModelForSequenceClassification.from_pretrained(MODEL_PATH)

	text = "Gli Usa a un passo dalla recessione"
	tokenized_text = tokenizer([preprocess_data(text)], padding=True, truncation=True, max_length=256, return_tensors="pt")
	output = model(**tokenized_text)
	probs = output.logits.softmax(dim=-1).tolist()[0]
	confidence = max(probs)
	prediction = probs.index(confidence)
	results = {"is_sarcastic": prediction, "confidence": confidence}

	```

	Output:

	```
	{'is_sarcastic': 0, 'confidence': 0.9965020418167114}
	```

	## Performance
	\| Model-Name \| F1 \| Precision \| Recall \| Accuracy
	\| ------------- \|:-------------\| -----\| -----\| ----\|
	\| [helinivan/english-sarcasm-detector ](https://huggingface.co/helinivan/english-sarcasm-detector)\| 92.38 \| 92.75 \| 92.38 \| 92.42
	\| [helinivan/italian-sarcasm-detector ](https://huggingface.co/helinivan/italian-sarcasm-detector) \| 88.26 \| 87.66 \| 89.66 \| 88.69
	\| [helinivan/multilingual-sarcasm-detector ](https://huggingface.co/helinivan/multilingual-sarcasm-detector) \| 87.23 \| 88.65 \| 86.33 \| 88.30
	\| [helinivan/dutch-sarcasm-detector ](https://huggingface.co/helinivan/dutch-sarcasm-detector) \| 83.02 \| 84.27 \| 82.01 \| 86.81