Introduction
Als data scientist nam ik deel aan de hackathon georganiseerd door de Ministeries van BZK en VWS. Ik toelegde mij op Challenge 2: het verbeteren van de gebruikerservaring op de website en het optimaliseren van relevante informatieverschaffing met behulp van design en data science. Een belangrijk onderdeel van mijn bijdrage was de implementatie van een text classification model. Dit model analyseert meningen over de overheidssite en classificeert ze als positief of negatief. Het biedt een waardevol instrument om de gebruikerservaring te monitoren en te verbeteren. De hackathon bood een vruchtbare omgeving om innovatieve oplossingen te ontwikkelen die de interactie tussen de overheid en haar burgers verbeteren. Mijn text classification model draagt bij aan een meer gepersonaliseerde en efficiënte gebruikerservaring op overheidswebsites.
Prompt with Prodigy
Go to folder envs (home/anaconda3/envs) and open the terminal (Ctl+ALT+T) run: source prodi-env/bin/activate where prodi-env is the folder of processing
run: prodigy textcat.manual meningen_dataset ./meningen.txt --label Positief,Negatief
run to create model : prodigy train /home/gebruiker/anaconda3/hack_model --textcat meningen_dataset --lang "nl" --label-stats --verbose or to export data to spacy
Type: prodigy data-to-spacy /home/gebruiker/anaconda3/envs/corpus --textcat meningen_dataset --lang "nl" --eval-split 0.1
To use this data for training with spaCy, you can run: python -m spacy train --output /home/gebruiker/anaconda3/meningen_model /home/gebruiker/anaconda3/envs/corpus/config.cfg --paths.train /home/gebruiker/anaconda3/envs/corpus/train.spacy --paths.dev /home/gebruiker/anaconda3/envs/corpus/dev.spacy
Upload model to huggingface
huggingface-cli login python -m spacy package /home/gebruiker/anaconda3/meningen_model/model-last /home/gebruiker/anaconda3/output --build wheel cd /home/gebruiker/anaconda3/output/nl_meningen-0.0.0/dist/ python -m spacy huggingface-hub push nl_meningen-0.0.0-py3-none-any.whl
To download the data set from the database run: python -m prodigy db-out meningen_dataset > meningen_dataset.jsonl
Feature | Description |
---|---|
Name | nl_meningen |
Version | 0.0.0 |
spaCy | >=3.4.3,<3.5.0 |
Default Pipeline | textcat |
Components | textcat |
Vectors | 0 keys, 0 unique vectors (0 dimensions) |
Sources | n/a |
License | n/a |
Author | n/a |
Label Scheme
View label scheme (2 labels for 1 components)
Component | Labels |
---|---|
textcat |
Positief , Negatief |
Accuracy
Type | Score |
---|---|
CATS_SCORE |
96.54 |
CATS_MICRO_P |
96.77 |
CATS_MICRO_R |
96.77 |
CATS_MICRO_F |
96.77 |
CATS_MACRO_P |
95.83 |
CATS_MACRO_R |
97.50 |
CATS_MACRO_F |
96.54 |
CATS_MACRO_AUC |
98.18 |
CATS_MACRO_AUC_PER_TYPE |
0.00 |
TEXTCAT_LOSS |
8.31 |
- Downloads last month
- 0