Introduction

Als data scientist nam ik deel aan de hackathon georganiseerd door de Ministeries van BZK en VWS. Ik toelegde mij op Challenge 2: het verbeteren van de gebruikerservaring op de website en het optimaliseren van relevante informatieverschaffing met behulp van design en data science. Een belangrijk onderdeel van mijn bijdrage was de implementatie van een text classification model. Dit model analyseert meningen over de overheidssite en classificeert ze als positief of negatief. Het biedt een waardevol instrument om de gebruikerservaring te monitoren en te verbeteren. De hackathon bood een vruchtbare omgeving om innovatieve oplossingen te ontwikkelen die de interactie tussen de overheid en haar burgers verbeteren. Mijn text classification model draagt bij aan een meer gepersonaliseerde en efficiënte gebruikerservaring op overheidswebsites.

Prompt with Prodigy

Go to folder envs (home/anaconda3/envs) and open the terminal (Ctl+ALT+T) run: source prodi-env/bin/activate where prodi-env is the folder of processing

run: prodigy textcat.manual meningen_dataset ./meningen.txt --label Positief,Negatief

run to create model : prodigy train /home/gebruiker/anaconda3/hack_model --textcat meningen_dataset --lang "nl" --label-stats --verbose or to export data to spacy

Type: prodigy data-to-spacy /home/gebruiker/anaconda3/envs/corpus --textcat meningen_dataset --lang "nl" --eval-split 0.1

To use this data for training with spaCy, you can run: python -m spacy train --output /home/gebruiker/anaconda3/meningen_model /home/gebruiker/anaconda3/envs/corpus/config.cfg --paths.train /home/gebruiker/anaconda3/envs/corpus/train.spacy --paths.dev /home/gebruiker/anaconda3/envs/corpus/dev.spacy

Upload model to huggingface

huggingface-cli login python -m spacy package /home/gebruiker/anaconda3/meningen_model/model-last /home/gebruiker/anaconda3/output --build wheel cd /home/gebruiker/anaconda3/output/nl_meningen-0.0.0/dist/ python -m spacy huggingface-hub push nl_meningen-0.0.0-py3-none-any.whl

To download the data set from the database run: python -m prodigy db-out meningen_dataset > meningen_dataset.jsonl

Feature Description
Name nl_meningen
Version 0.0.0
spaCy >=3.4.3,<3.5.0
Default Pipeline textcat
Components textcat
Vectors 0 keys, 0 unique vectors (0 dimensions)
Sources n/a
License n/a
Author n/a

Label Scheme

View label scheme (2 labels for 1 components)
Component Labels
textcat Positief, Negatief

Accuracy

Type Score
CATS_SCORE 96.54
CATS_MICRO_P 96.77
CATS_MICRO_R 96.77
CATS_MICRO_F 96.77
CATS_MACRO_P 95.83
CATS_MACRO_R 97.50
CATS_MACRO_F 96.54
CATS_MACRO_AUC 98.18
CATS_MACRO_AUC_PER_TYPE 0.00
TEXTCAT_LOSS 8.31
Downloads last month
0
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.