Edit model card

DeFormer

DeFormer är en modell som har tränats på att skilja mellan de och dem i svenska meningar. Modellen kan testas direkt i panelerna till höger under Hosted Inference API genom att skriva in en mening och trycka på Compute.

Uppdatering 2023-05-06: Modellen kan nu hantera även borttappade t:n i det. Den nya versionen har tränats till att skilja mellan de, det och dem; samt enda och ända.

Instruktioner: Använd endast de/dem/enda/ända med små bokstäver vid testning. Vid träning av modellen gjordes alla "De" och "Dem" om till gemener.

Träningsdata

DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från OPUS. Källorna valdes ut för att de antogs ha ett korrekt språkbruk.

Endast meningar innehållandes de, dem, det, enda eller ända behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomster av respektive ord.

Datakälla Meningar/dokument # De # Dem # Det # Enda # Ända
Europaparl sv.txt.gz 1150556 461305 53726 824065 15553 1781
JRC-Acquis raw.sv.gz 648387 399628 16539 326925 5975 267
Wikimedia sv.txt.gz 1615505 598371 38649 594038 24805 7063
Riksdagens anföranden 671031 497515 118069 659051 25912 4917
Riksdagens motioner (2014-2022) 85124 85124 11773 104526 2740 453
SweDN (Superlim 2) 93026 70254 16399 88087 5104 1236
Total 4286974 2112197 255155 2596692 80089 15717

Vid träningen av DeFormer introducerades slumpmässiga substitioner, där ovanstående ord byttes ut mot de former som de vanligen förväxlas med. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier

  1. ord (alla bakgrundsord som inte är de/dem tillhör denna kategori)
  2. DE
  3. DEM
  4. DET
  5. ENDA
  6. ÄNDA

Innan observationerna skickades in till modellträning byttes de ut mot det eller dem med cirka 50 procents sannolikhet, medan dem byttes till de i 40 procent av fallen. Liknande substutioner gjordes mellan enda och ända.

Träffsäkerhet/Accuracy

DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande de i ursprungsmeningarna ändrades till dem, medan 40 procent av förekommande dem ändrades till de. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga de/dem som-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom båda formerna är accepterade.

OBS: Tabellen nedan gäller för den äldre varianten av DeFormer som endast skiljde mellan de och dem.

Accuracy
de 99.9%
dem 98.6%
Downloads last month
62