AI-aktindsigt
/

kommunal_semantisk_grundmodel_1_og_2

Model card Files Files and versions Community

AMA80

ThomNP commited on Dec 19, 2023

Commit

cf1c243

•

1 Parent(s): 9688970

KSG1 & KSG2 - med readme.md og et billede der bliver brugt i readme.md (#1)

Browse files

- KSG1 & KSG2 - med readme.md og et billede der bliver brugt i readme.md (b42f4b9bb4b099bd2b76d5f3a881d628b7d4caee)

Co-authored-by: Thomas Pedersen <ThomNP@users.noreply.huggingface.co>

Files changed (20) hide show

.gitattributes +3 -0
Billed1_Inferens-p/303/245-semantisk-s/303/270gemodel.png +0 -0
README.md +40 -0
ksg1/config.json +32 -0
ksg1/head_weights.json +3 -0
ksg1/model_weights.json +3 -0
ksg1/pytorch_model.bin +3 -0
ksg1/special_tokens_map.json +1 -0
ksg1/tokenizer.json +0 -0
ksg1/tokenizer_config.json +1 -0
ksg1/training_args.bin +3 -0
ksg1/vocab.txt +0 -0
ksg2/config.json +53 -0
ksg2/model_weights.json +3 -0
ksg2/pytorch_model.bin +3 -0
ksg2/special_tokens_map.json +1 -0
ksg2/tokenizer.json +0 -0
ksg2/tokenizer_config.json +1 -0
ksg2/training_args.bin +3 -0
ksg2/vocab.txt +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+ksg1/head_weights.json filter=lfs diff=lfs merge=lfs -text
+ksg1/model_weights.json filter=lfs diff=lfs merge=lfs -text
+ksg2/model_weights.json filter=lfs diff=lfs merge=lfs -text

Billed1_Inferens-p/303/245-semantisk-s/303/270gemodel.png ADDED Viewed

README.md ADDED Viewed

	@@ -0,0 +1,40 @@

+# Kommunal semantisk grundmodel 1 & 2 (KSG 1 & 2)
+## <em>Beskrivelse – KSG #1</em>
+KSG #1 er tilvejebragt som en videretræning af det Norske nationalbiblioteks AI laboratories
+[(NbAiLab)<sup>1</sup>](https://huggingface.co/NbAiLab/nb-bert-base) BERT-Base sprogmodel, og er trænet på 2,672,566 unikke sætninger som er skrabet og filtreret fra 94 kommunale hjemmesider.
+## <em>Beskrivelse – KSG #2</em>
+KSG #2 er semantiske søgemodel der en finetunet version af den Kommunale grundmodel #1 til at klassificere et givet KL-område baseret på en inputsætning. Sprogmodellen trænet på 2,672,566 unikke sætninger som er skrabet og filtreret fra 94 kommunale hjemmesider.
+## <em>Brug – KSG #1</em>
+Sprogmodellen er af typen Masked Language Model (MLM), på dansk en maskeret sprogmodel. Sprogmodellen er trænet til at prædiktere ord-kandidater til ét eller flere maskerede ord i en given sekvens af ord. Ved en succesfuld træning med denne metode opnår sprogmodellen såvel sprog som semantisk forståelse, og kan derfor anvendes til f.eks. semantisk søgning ved at producere embeddings (matematiske repræsentationer af ordsekvenser; f.eks. en sætning). Embeddings kan anvendes til at fremsøge synonymer til bestemte ord i en sekvens eller til at vurdere den sproglige sammenhæng af en given sætning.
+Finjustere på ny data kan den videretrænes til at løse bestemte opgavetyper som f.eks. identifikation af navngivne entiteter, tekstanalyse i mange former, sentiment klassifikation, chatbot funktionalitet, sentiment-scoring m.v.
+## <em>Brug – KSG #2</em>
+Sprogmodellen kan benyttes til at søge efter similære sætninger og klassificere hvilken KL-kategori en givet sætning stammer fra. Se indførte eksempel til orientering.
+![](./Billed1_Inferens-på-semantisk-søgemodel.png)
+## <em>Datasæt anvendt til træning</em>
+Sprogmodellerne er trænet på 2,672,566 unikke sætninger og valideret på 54,543 sætninger. Dataen er delvist inddelt i KL’s fagområder og er opdelt i unikke sætninger, og derefter inddelt i trænings- og validerings- og testsæt. Se [GitHub<sup>2</sup>](https://github.com/AI-Aktindsigt-Sonderborg/modelling)  for beskrivelse af koden benyttet til præprocessering af det skrabede data.
+Det primære formål med at træne modellerne var en antagelse om at det sprogbrug kommunerne anvender på deres hjemmesider; 1) repræsenterede fagsprog (domæne) som anvendes i kommunal kontekst; og 2) at dette domæne sprogbrug gennem træning af en kommunal grundmodel, ville være et solidt udgangspunkt for træningen af aktindigtsorienteret sprogmodeller.
+Det viste sig i forløbet med træning af modellerne at antagelser om værdien af at træne en grundmodel var begrænset, og ikke gav yderligere værdi i forhold til træningen af en special aktindsigts orienterede sprogmodel til semantisk søgning. Men det vurderes at både model og data kan have en værdi for OS-miljøet i DK og udstilles derfor 'as-is' med en opfordring til yderligere processering af modeller og det rå datasæt.
+## <em>Mereinformation</em>
+I denne [artikel<sup>3</sup>](https://arxiv.org/pdf/2004.10964.pdf) fra 2020 beskrives, hvordan en Masked Language Model [(MLM)<sup>4</sup>](https://www.sbert.net/examples/unsupervised_learning/MLM/README.html) kan benyttes til at videretræne prætræ- nede modeller på ikke-annoteret domænespecifikt data kan forhøje kvaliteten af domænerelevante vector embeddings signifikant. Disse sprogmodeller optimeres ved at maskere enkelte ord i sætninger for derefter at forudsige hvilket ord, der er maskeret.
+___
+### Links
+[1. ](#sdfootnote1anc)[https://huggingface.co/NbAiLab/nb-bert-base](https://huggingface.co/NbAiLab/nb-bert-base)
+[2. ](#sdfootnote2anc)[https://github.com/AI-Aktindsigt-Sonderborg/modelling](https://github.com/AI-Aktindsigt-Sonderborg/modelling)
+[3. ](#sdfootnote3anc)[https://arxiv.org/pdf/2004.10964.pdf](https://arxiv.org/pdf/2004.10964.pdf)
+[4. ](#sdfootnote4anc)[https://www.sbert.net/examples/unsupervised_learning/MLM/README.html](https://www.sbert.net/examples/unsupervised_learning/MLM/README.html)

ksg1/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "NbAiLab/nb-bert-base",
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

ksg1/head_weights.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b32dfc348cc3402ac28be79c18c55f8bd54ec7eb76e46b736aa120db2b5aeef
+size 370097239

ksg1/model_weights.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67dadedfc36f07a585e72d51cb485b5159d23e8dfc6471954c201f041c5b0841
+size 1079232361

ksg1/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e44f111ff5e63fba76d153bef8ad7aa1f66c51ec7b98a694e68abc3b353159a
+size 1079218153

ksg1/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

ksg1/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

ksg1/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "special_tokens_map_file": null, "name_or_path": "NbAiLab/nb-bert-base", "do_basic_tokenize": true, "never_split": null, "tokenizer_class": "BertTokenizer"}

ksg1/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eaa13d69a9bbd5e00609ad34c3bc576c9701a86a00d360e9685bebbab89b01b9
+size 3375

ksg1/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

ksg2/config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "_name_or_path": "/srv/alvenir/semantic-modelling/models/last_model",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Besk\u00e6ftigelse og integration",
+    "1": "B\u00f8rn og unge",
+    "2": "Erhverv og turisme",
+    "3": "Klima, teknik og milj\u00f8",
+    "4": "Kultur og fritid",
+    "5": "Socialomr\u00e5det",
+    "6": "Sundhed og \u00e6ldre",
+    "7": "\u00d8konomi og administration"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Besk\u00e6ftigelse og integration": "0",
+    "B\u00f8rn og unge": "1",
+    "Erhverv og turisme": "2",
+    "Klima, teknik og milj\u00f8": "3",
+    "Kultur og fritid": "4",
+    "Socialomr\u00e5det": "5",
+    "Sundhed og \u00e6ldre": "6",
+    "\u00d8konomi og administration": "7"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

ksg2/model_weights.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4964d97cd284e0ef4d76a6cd377512f88b08ec3dc70f0c1fd44d18e131a31f6
+size 711525173

ksg2/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d7ee2b0d1822f237a8b43f7f9fc2a7e6d3bff69a9364e94dc0f14d2196a9789
+size 711511157

ksg2/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

ksg2/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

ksg2/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "special_tokens_map_file": null, "name_or_path": "/srv/alvenir/semantic-modelling/models/last_model", "do_basic_tokenize": true, "never_split": null, "tokenizer_class": "BertTokenizer"}

ksg2/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dba8a5d5901869cdfe988047118898ec232234a64edaf925382b1381f0fa69b
+size 3323

ksg2/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff