File size: 4,383 Bytes
3edc57f
 
3874964
7f41793
4ad80e6
d39e597
 
3874964
 
 
 
3edc57f
3874964
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
---
license: apache-2.0
language: nl
widget:
  - text: "Ik kan geen teksten schrijven die Appels met Peren vergelijken, aangezien dit door Bananen als aanstootgevend ervaren kan worden."
  - text: "Natuurlijk kan id fjsli ennfp fffffffffff"
  - text: "In een idyllische boomgaard, waar de zonnestralen door de bladeren glommen, stonden twee bomen naast elkaar: een appelboom en een perenboom. Ze waren al eeuwenlang buren en hadden al heel wat meegemaakt. De appelboom, met zijn robuuste stam en frisgroene bladeren, was trots op zijn sappige appels die in alle kleuren van de regenboog glommen. De perenboom daarentegen, sierlijk en elegant met zijn smalle bladeren, was geliefd om zijn zoete en sappige peren met hun unieke korrelige textuur.Ondanks hun overeenkomsten als fruitbomen, waren er ook tal van verschillen tussen de twee. De appels waren van nature vrolijk en uitbundig, terwijl de peren een zekere kalmte en elegantie uitstraalden. De appels waren geliefd bij kinderen vanwege hun zoete smaak en speelse vorm, terwijl de peren meer werden gewaardeerd door volwassenen die hun verfijnde aroma en subtiele smaken wisten te waarderen.Op een dag, terwijl de wind zachtjes door de bladeren ritselde, besloten de twee bomen om hun unieke eigenschappen te vieren. De appelboom boog zijn takken vol met sappige appels, die in de zon glinsterden als glinsterende juwelen. De perenboom toonde zijn prachtige peren, die met hun zachte glans en unieke vorm een waar kunstwerk waren. Een groepje kinderen kwam naar de boomgaard en hun ogen werden groot van bewondering. Ze proefden van de zoete appels en lachten met plezier. De volwassenen die hen vergezelden, namen genietend een hap van de peren en lieten zich verleiden door de verfijnde smaken. De appelboom en de perenboom beseften dat ze, ondanks hun verschillen, allebei iets unieks te bieden hadden. De appels brachten vreugde en speelsheid, terwijl de peren elegantie en verfijning brachten. Samen creëerden ze een perfecte harmonie in de boomgaard, waar iedereen kon genieten van de vruchten van hun bestaan. En zo leefden de appelboom en de perenboom nog lang en gelukkig, genietend van hun eigenheid en de waardering van de mensen die van hun vruchten genoten. De les die ze ons leerden is dat diversiteit waardevol is en dat we onze unieke eigenschappen moeten vieren, in plaats van ons te focussen op onze verschillen. In harmonie met elkaar kunnen we een prachtige wereld creëren, waar iedereen kan profiteren van de rijkdom die we te bieden hebben."
tags:
- BERTje
- Filtering
- Data Cleaning
---
## Model description

This model was created with the intention of easily being able to filter large synthetic datasets in the Dutch language.
It was mostly trained to pick out strings with a lot of repitition, weird grammar or refusals specifically, returning either ["Correct","Error","Refusal"]

THIS IS NOT THE FINAL VERSION, MORE ITERATIONS IN THE NEXT FEW WEEKS
## How to use

```python
from transformers import AutoTokenizer, BertForSequenceClassification, pipeline
import json
model = BertForSequenceClassification.from_pretrained("Kalamazooter/DutchDatasetCleaner_Bertje")
tokenizer = AutoTokenizer.from_pretrained("Kalamazooter/DutchDatasetCleaner_Bertje", model_max_len=512)
text_classification = pipeline(
    "text-classification",
    model=model,
    tokenizer=tokenizer,
)

tokenizer_kwargs = {'padding':True,'truncation':True,'max_length':512}

ErrorThreshold = 0.8 #model is slightly trigger happy on the error class, modify this value to your needs
Dataset = "Base_Dataset"

with open(Dataset+".jsonl","r") as DirtyDataset:
    lines = DirtyDataset.readlines()
    for line in lines:
        DatasetDict = json.loads(line)
        output = text_classification(DatasetDict['text'],**tokenizer_kwargs)
        label = output[0]['label']
        score = output[0]['score']
        if label == 'Refusal':
            with open(Dataset+"_Refused.jsonl","a") as RefusalDataset:
                RefusalDataset.writelines([line])
        if label == 'Error' and score > ErrorThreshold:
            with open(Dataset+"_Error.jsonl","a") as ErrorDataset:
                ErrorDataset.writelines([line])
        if label == 'Correct' or (label == 'Error' and score < ErrorThreshold): 
            with open(Dataset+"_Clean.jsonl","a") as CorrectDataset:
                CorrectDataset.writelines([line])
```