Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

README.md +161 -0
camembertv2_base_p2_17k_last_layer.yaml +32 -0
fr_gsd-ud-dev.parsed.conllu +0 -0
fr_gsd-ud-test.parsed.conllu +0 -0
model/config.json +1 -0
model/lexers/camembertv2_base_p2_17k_last_layer/config.json +1 -0
model/lexers/camembertv2_base_p2_17k_last_layer/model/config.json +30 -0
model/lexers/camembertv2_base_p2_17k_last_layer/model/special_tokens_map.json +51 -0
model/lexers/camembertv2_base_p2_17k_last_layer/model/tokenizer.json +0 -0
model/lexers/camembertv2_base_p2_17k_last_layer/model/tokenizer_config.json +57 -0
model/lexers/char_level_embeddings/config.json +1 -0
model/lexers/fasttext/config.json +1 -0
model/lexers/fasttext/fasttext_model.bin +3 -0
model/lexers/word_embeddings/config.json +0 -0
model/weights.pt +3 -0
train.log +101 -0

README.md ADDED Viewed

	@@ -0,0 +1,161 @@

+---
+language: fr
+license: mit
+tags:
+- roberta
+- token-classification
+base_model: almanach/camembertv2-base
+datasets:
+- GSD
+metrics:
+- las
+- upos
+model-index:
+- name: almanach/camembertv2-base-gsd
+  results:
+  - task:
+      type: token-classification
+      name: Part-of-Speech Tagging
+    dataset:
+      type: GSD
+      name: GSD
+    metrics:
+    - name: upos
+      type: upos
+      value: 0.98662
+      verified: false
+  - task:
+      type: token-classification
+      name: Dependency Parsing
+    dataset:
+      type: GSD
+      name: GSD
+    metrics:
+    - name: las
+      type: las
+      value: 0.94317
+      verified: false
+---
+# Model Card for almanach/camembertv2-base-gsd
+almanach/camembertv2-base-gsd is a roberta model for token classification. It is trained on the GSD dataset for the task of Part-of-Speech Tagging and Dependency Parsing.
+ The model achieves an f1 score of  on the GSD dataset.
+The model is part of the almanach/camembertv2-base family of model finetunes.
+## Model Details
+### Model Description
+- **Developed by:** Wissam Antoun (Phd Student at Almanach, Inria-Paris)
+- **Model type:** roberta
+- **Language(s) (NLP):** French
+- **License:** MIT
+- **Finetuned from model :** almanach/camembertv2-base
+### Model Sources
+<!-- Provide the basic links for the model. -->
+- **Repository:** https://github.com/WissamAntoun/camemberta
+- **Paper:** https://arxiv.org/abs/2411.08868
+## Uses
+The model can be used for token classification tasks in French for Part-of-Speech Tagging and Dependency Parsing.
+## Bias, Risks, and Limitations
+The model may exhibit biases based on the training data. The model may not generalize well to other datasets or tasks. The model may also have limitations in terms of the data it was trained on.
+## How to Get Started with the Model
+You can use the models directly with the hopsparser library in server mode https://github.com/hopsparser/hopsparser/blob/main/docs/server.md
+## Training Details
+### Training Procedure
+Model trained with the [hopsparser](https://github.com/hopsparser/hopsparser) library on the GSD dataset.
+#### Training Hyperparameters
+```yml
+# Layer dimensions
+mlp_input: 1024
+mlp_tag_hidden: 16
+mlp_arc_hidden: 512
+mlp_lab_hidden: 128
+# Lexers
+lexers:
+  - name: word_embeddings
+    type: words
+    embedding_size: 256
+    word_dropout: 0.5
+  - name: char_level_embeddings
+    type: chars_rnn
+    embedding_size: 64
+    lstm_output_size: 128
+  - name: fasttext
+    type: fasttext
+  - name: camembertv2_base_p2_17k_last_layer
+    type: bert
+    model: /scratch/camembertv2/runs/models/camembertv2-base-bf16/post/ckpt-p2-17000/pt/
+    layers: [11]
+    subwords_reduction: "mean"
+# Training hyperparameters
+encoder_dropout: 0.5
+mlp_dropout: 0.5
+batch_size: 8
+epochs: 64
+lr:
+  base: 0.00003
+  schedule:
+    shape: linear
+    warmup_steps: 100
+```
+#### Results
+**UPOS:** 0.98662
+**LAS:** 0.94317
+## Technical Specifications
+### Model Architecture and Objective
+roberta custom model for token classification.
+## Citation
+**BibTeX:**
+```bibtex
+@misc{antoun2024camembert20smarterfrench,
+      title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
+      author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
+      year={2024},
+      eprint={2411.08868},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2411.08868},
+}
+@inproceedings{grobol:hal-03223424,
+    title = {Analyse en dépendances du français avec des plongements contextualisés},
+    author = {Grobol, Loïc and Crabbé, Benoît},
+    url = {https://hal.archives-ouvertes.fr/hal-03223424},
+    booktitle = {Actes de la 28ème Conférence sur le Traitement Automatique des Langues Naturelles},
+    eventtitle = {TALN-RÉCITAL 2021},
+    venue = {Lille, France},
+    pdf = {https://hal.archives-ouvertes.fr/hal-03223424/file/HOPS_final.pdf},
+    hal_id = {hal-03223424},
+    hal_version = {v1},
+}
+```

camembertv2_base_p2_17k_last_layer.yaml ADDED Viewed

	@@ -0,0 +1,32 @@

+# Layer dimensions
+mlp_input: 1024
+mlp_tag_hidden: 16
+mlp_arc_hidden: 512
+mlp_lab_hidden: 128
+# Lexers
+lexers:
+  - name: word_embeddings
+    type: words
+    embedding_size: 256
+    word_dropout: 0.5
+  - name: char_level_embeddings
+    type: chars_rnn
+    embedding_size: 64
+    lstm_output_size: 128
+  - name: fasttext
+    type: fasttext
+  - name: camembertv2_base_p2_17k_last_layer
+    type: bert
+    model: /scratch/camembertv2/runs/models/camembertv2-base-bf16/post/ckpt-p2-17000/pt/
+    layers: [11]
+    subwords_reduction: "mean"
+# Training hyperparameters
+encoder_dropout: 0.5
+mlp_dropout: 0.5
+batch_size: 8
+epochs: 64
+lr:
+  base: 0.00003
+  schedule:
+    shape: linear
+    warmup_steps: 100

fr_gsd-ud-dev.parsed.conllu ADDED Viewed

The diff for this file is too large to render. See raw diff

fr_gsd-ud-test.parsed.conllu ADDED Viewed

The diff for this file is too large to render. See raw diff

model/config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"mlp_input": 1024, "mlp_tag_hidden": 16, "mlp_arc_hidden": 512, "mlp_lab_hidden": 128, "biased_biaffine": true, "default_batch_size": 8, "encoder_dropout": 0.5, "extra_annotations": {}, "labels": ["acl", "acl:relcl", "advcl", "advcl:cleft", "advmod", "amod", "appos", "aux:caus", "aux:pass", "aux:tense", "case", "cc", "ccomp", "compound", "conj", "cop", "csubj", "csubj:pass", "dep", "dep:comp", "det", "discourse", "dislocated", "expl", "expl:pass", "expl:pv", "expl:subj", "fixed", "flat", "flat:foreign", "flat:name", "goeswith", "iobj", "iobj:agent", "mark", "nmod", "nsubj", "nsubj:caus", "nsubj:pass", "nummod", "obj", "obj:agent", "obj:lvc", "obl", "obl:agent", "obl:arg", "obl:mod", "orphan", "parataxis", "punct", "reparandum", "root", "vocative", "xcomp"], "mlp_dropout": 0.5, "tagset": ["ADJ", "ADP", "ADV", "AUX", "CCONJ", "DET", "INTJ", "NOUN", "NUM", "PRON", "PROPN", "PUNCT", "SCONJ", "SYM", "VERB", "X"], "lexers": {"word_embeddings": "words", "char_level_embeddings": "chars_rnn", "fasttext": "fasttext", "camembertv2_base_p2_17k_last_layer": "bert"}, "multitask_loss": "sum"}

model/lexers/camembertv2_base_p2_17k_last_layer/config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"layers": [11], "subwords_reduction": "mean", "weight_layers": false}

model/lexers/camembertv2_base_p2_17k_last_layer/model/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "/scratch/camembertv2/runs/models/camembertv2-base-bf16/post/ckpt-p2-17000/pt/",
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 1,
+  "classifier_dropout": null,
+  "embedding_size": 768,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 1025,
+  "model_name": "camembertv2-base-bf16",
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_biased_input": true,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32768
+}

model/lexers/camembertv2_base_p2_17k_last_layer/model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

model/lexers/camembertv2_base_p2_17k_last_layer/model/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model/lexers/camembertv2_base_p2_17k_last_layer/model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "errors": "replace",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "[UNK]"
+}

model/lexers/char_level_embeddings/config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"char_embeddings_dim": 64, "output_dim": 128, "special_tokens": ["<root>"], "charset": ["<pad>", "<special>", " ", "!", "\"", "#", "$", "%", "&", "'", "(", ")", "*", "+", ",", "-", ".", "/", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9", ":", ";", "=", ">", "?", "@", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "[", "]", "^", "_", "`", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z", "{", "|", "}", "\u00a3", "\u00ab", "\u00b0", "\u00b1", "\u00b2", "\u00b3", "\u00b7", "\u00ba", "\u00bb", "\u00c0", "\u00c1", "\u00c2", "\u00c5", "\u00c6", "\u00c7", "\u00c8", "\u00c9", "\u00ca", "\u00cd", "\u00ce", "\u00d3", "\u00d4", "\u00d6", "\u00d7", "\u00d9", "\u00da", "\u00dc", "\u00df", "\u00e0", "\u00e1", "\u00e2", "\u00e3", "\u00e4", "\u00e5", "\u00e6", "\u00e7", "\u00e8", "\u00e9", "\u00ea", "\u00eb", "\u00ec", "\u00ed", "\u00ee", "\u00ef", "\u00f0", "\u00f1", "\u00f2", "\u00f3", "\u00f4", "\u00f6", "\u00f8", "\u00f9", "\u00fa", "\u00fb", "\u00fc", "\u00fd", "\u00ff", "\u0101", "\u0103", "\u0105", "\u0107", "\u010c", "\u010d", "\u0119", "\u011b", "\u011f", "\u0123", "\u012b", "\u012d", "\u0131", "\u013d", "\u013e", "\u0141", "\u0142", "\u0144", "\u0148", "\u014c", "\u014d", "\u0151", "\u0153", "\u0159", "\u015b", "\u015f", "\u0160", "\u0161", "\u0163", "\u0169", "\u016b", "\u017b", "\u017c", "\u017d", "\u017e", "\u01b0", "\u025f", "\u0268", "\u0274", "\u0282", "\u02bf", "\u0301", "\u0361", "\u03a9", "\u03b3", "\u03b5", "\u03c9", "\u0409", "\u040f", "\u0410", "\u0411", "\u0412", "\u0413", "\u0414", "\u0418", "\u041b", "\u041c", "\u041e", "\u041f", "\u0420", "\u0421", "\u0422", "\u0424", "\u0428", "\u0430", "\u0431", "\u0432", "\u0433", "\u0434", "\u0435", "\u0436", "\u0437", "\u0438", "\u0439", "\u043a", "\u043b", "\u043c", "\u043d", "\u043e", "\u043f", "\u0440", "\u0441", "\u0442", "\u0443", "\u0445", "\u0446", "\u0447", "\u0448", "\u0449", "\u044a", "\u044c", "\u044f", "\u0451", "\u0458", "\u0459", "\u045a", "\u045b", "\u0627", "\u062c", "\u062f", "\u0630", "\u0631", "\u0634", "\u0643", "\u0644", "\u0645", "\u0646", "\u1e0f", "\u1e25", "\u1e92", "\u1ea3", "\u1ead", "\u1ec5", "\u1edd", "\u1edf", "\u1ee7", "\u1ef1", "\u2013", "\u2014", "\u2020", "\u2032", "\u2082", "\u20ac", "\u2212", "\u25b6", "\u4e0a", "\u4e2d", "\u4e34", "\u4e49", "\u4e59", "\u4e95", "\u4ecb", "\u4f0e", "\u5247", "\u53f7", "\u56db", "\u5712", "\u5927", "\u5b89", "\u5bae", "\u5bbf", "\u5f81", "\u614e", "\u697d", "\u6d4e", "\u706b", "\u7384", "\u7530", "\u753a", "\u7bad", "\u7c89", "\u80e1", "\u82a6", "\u85e9", "\u898f", "\u90e8", "\u957f", "\uac15", "\uc131", "\ud638"]}

model/lexers/fasttext/config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"special_tokens": ["<root>"]}

model/lexers/fasttext/fasttext_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58d2303aea9428dc9ce793512d8d164f54b8947662eeb44655b24a35d8b2f5bd
+size 805269874

model/lexers/word_embeddings/config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model/weights.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1833f89de154a052d34875e260df9a0074a4645ec433b7089f075e801aa9d03
+size 1815845162

train.log ADDED Viewed

	@@ -0,0 +1,101 @@

+[hops] 2024-09-23 22:03:10.261 | INFO     | Initializing a parser from /workspace/configs/exp_camembertv2/camembertv2_base_p2_17k_last_layer.yaml
+[hops] 2024-09-23 22:03:10.554 | INFO     | Generating a FastText model from the treebank
+[hops] 2024-09-23 22:03:10.645 | INFO     | Training fasttext model
+[hops] 2024-09-23 22:03:12.421 | WARNING  | Some weights of RobertaModel were not initialized from the model checkpoint at /scratch/camembertv2/runs/models/camembertv2-base-bf16/post/ckpt-p2-17000/pt/ and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+[hops] 2024-09-23 22:03:24.938 | INFO     | Start training on cuda:0
+[hops] 2024-09-23 22:03:24.944 | WARNING  | You're using a RobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
+[hops] 2024-09-23 22:04:54.185 | INFO     | Epoch 0: train loss 1.1740	dev loss 0.3235	dev tag acc 93.16%	dev head acc 88.90%	dev deprel acc 91.95%
+[hops] 2024-09-23 22:04:54.186 | INFO     | New best model: head accuracy 88.90% > 0.00%
+[hops] 2024-09-23 22:06:23.342 | INFO     | Epoch 1: train loss 0.2838	dev loss 0.1626	dev tag acc 97.85%	dev head acc 94.35%	dev deprel acc 95.43%
+[hops] 2024-09-23 22:06:23.343 | INFO     | New best model: head accuracy 94.35% > 88.90%
+[hops] 2024-09-23 22:07:57.103 | INFO     | Epoch 2: train loss 0.1673	dev loss 0.1337	dev tag acc 98.24%	dev head acc 95.40%	dev deprel acc 96.71%
+[hops] 2024-09-23 22:07:57.104 | INFO     | New best model: head accuracy 95.40% > 94.35%
+[hops] 2024-09-23 22:09:24.832 | INFO     | Epoch 3: train loss 0.1227	dev loss 0.1438	dev tag acc 98.43%	dev head acc 95.90%	dev deprel acc 96.81%
+[hops] 2024-09-23 22:09:24.833 | INFO     | New best model: head accuracy 95.90% > 95.40%
+[hops] 2024-09-23 22:10:55.835 | INFO     | Epoch 4: train loss 0.0968	dev loss 0.1418	dev tag acc 98.43%	dev head acc 96.14%	dev deprel acc 97.20%
+[hops] 2024-09-23 22:10:55.836 | INFO     | New best model: head accuracy 96.14% > 95.90%
+[hops] 2024-09-23 22:12:27.472 | INFO     | Epoch 5: train loss 0.0793	dev loss 0.1568	dev tag acc 98.52%	dev head acc 96.19%	dev deprel acc 97.34%
+[hops] 2024-09-23 22:12:27.473 | INFO     | New best model: head accuracy 96.19% > 96.14%
+[hops] 2024-09-23 22:13:56.231 | INFO     | Epoch 6: train loss 0.0667	dev loss 0.1516	dev tag acc 98.57%	dev head acc 96.40%	dev deprel acc 97.36%
+[hops] 2024-09-23 22:13:56.232 | INFO     | New best model: head accuracy 96.40% > 96.19%
+[hops] 2024-09-23 22:15:26.147 | INFO     | Epoch 7: train loss 0.0566	dev loss 0.1687	dev tag acc 98.58%	dev head acc 96.52%	dev deprel acc 97.52%
+[hops] 2024-09-23 22:15:26.148 | INFO     | New best model: head accuracy 96.52% > 96.40%
+[hops] 2024-09-23 22:16:55.419 | INFO     | Epoch 8: train loss 0.0500	dev loss 0.1826	dev tag acc 98.64%	dev head acc 96.53%	dev deprel acc 97.42%
+[hops] 2024-09-23 22:16:55.420 | INFO     | New best model: head accuracy 96.53% > 96.52%
+[hops] 2024-09-23 22:18:28.485 | INFO     | Epoch 9: train loss 0.0425	dev loss 0.1906	dev tag acc 98.59%	dev head acc 96.56%	dev deprel acc 97.56%
+[hops] 2024-09-23 22:18:28.486 | INFO     | New best model: head accuracy 96.56% > 96.53%
+[hops] 2024-09-23 22:20:02.390 | INFO     | Epoch 10: train loss 0.0377	dev loss 0.2151	dev tag acc 98.55%	dev head acc 96.60%	dev deprel acc 97.51%
+[hops] 2024-09-23 22:20:02.390 | INFO     | New best model: head accuracy 96.60% > 96.56%
+[hops] 2024-09-23 22:21:31.071 | INFO     | Epoch 11: train loss 0.0332	dev loss 0.2276	dev tag acc 98.59%	dev head acc 96.62%	dev deprel acc 97.53%
+[hops] 2024-09-23 22:21:31.072 | INFO     | New best model: head accuracy 96.62% > 96.60%
+[hops] 2024-09-23 22:22:58.744 | INFO     | Epoch 12: train loss 0.0299	dev loss 0.2397	dev tag acc 98.59%	dev head acc 96.62%	dev deprel acc 97.49%
+[hops] 2024-09-23 22:22:58.745 | INFO     | New best model: head accuracy 96.62% > 96.62%
+[hops] 2024-09-23 22:24:30.195 | INFO     | Epoch 13: train loss 0.0270	dev loss 0.2548	dev tag acc 98.64%	dev head acc 96.45%	dev deprel acc 97.61%
+[hops] 2024-09-23 22:25:58.937 | INFO     | Epoch 14: train loss 0.0247	dev loss 0.2351	dev tag acc 98.69%	dev head acc 96.51%	dev deprel acc 97.60%
+[hops] 2024-09-23 22:27:26.485 | INFO     | Epoch 15: train loss 0.0219	dev loss 0.2812	dev tag acc 98.64%	dev head acc 96.60%	dev deprel acc 97.63%
+[hops] 2024-09-23 22:28:53.871 | INFO     | Epoch 16: train loss 0.0204	dev loss 0.2771	dev tag acc 98.64%	dev head acc 96.70%	dev deprel acc 97.59%
+[hops] 2024-09-23 22:28:53.872 | INFO     | New best model: head accuracy 96.70% > 96.62%
+[hops] 2024-09-23 22:30:22.009 | INFO     | Epoch 17: train loss 0.0193	dev loss 0.2966	dev tag acc 98.57%	dev head acc 96.71%	dev deprel acc 97.54%
+[hops] 2024-09-23 22:30:22.010 | INFO     | New best model: head accuracy 96.71% > 96.70%
+[hops] 2024-09-23 22:31:50.178 | INFO     | Epoch 18: train loss 0.0172	dev loss 0.3181	dev tag acc 98.65%	dev head acc 96.63%	dev deprel acc 97.61%
+[hops] 2024-09-23 22:33:18.205 | INFO     | Epoch 19: train loss 0.0163	dev loss 0.3030	dev tag acc 98.66%	dev head acc 96.73%	dev deprel acc 97.62%
+[hops] 2024-09-23 22:33:18.206 | INFO     | New best model: head accuracy 96.73% > 96.71%
+[hops] 2024-09-23 22:34:52.436 | INFO     | Epoch 20: train loss 0.0150	dev loss 0.3732	dev tag acc 98.64%	dev head acc 96.74%	dev deprel acc 97.44%
+[hops] 2024-09-23 22:34:52.437 | INFO     | New best model: head accuracy 96.74% > 96.73%
+[hops] 2024-09-23 22:36:26.028 | INFO     | Epoch 21: train loss 0.0139	dev loss 0.3404	dev tag acc 98.59%	dev head acc 96.74%	dev deprel acc 97.57%
+[hops] 2024-09-23 22:36:26.029 | INFO     | New best model: head accuracy 96.74% > 96.74%
+[hops] 2024-09-23 22:37:56.614 | INFO     | Epoch 22: train loss 0.0130	dev loss 0.3795	dev tag acc 98.66%	dev head acc 96.59%	dev deprel acc 97.59%
+[hops] 2024-09-23 22:39:24.997 | INFO     | Epoch 23: train loss 0.0120	dev loss 0.3572	dev tag acc 98.70%	dev head acc 96.67%	dev deprel acc 97.71%
+[hops] 2024-09-23 22:40:54.945 | INFO     | Epoch 24: train loss 0.0114	dev loss 0.3795	dev tag acc 98.65%	dev head acc 96.71%	dev deprel acc 97.69%
+[hops] 2024-09-23 22:42:25.287 | INFO     | Epoch 25: train loss 0.0113	dev loss 0.3792	dev tag acc 98.57%	dev head acc 96.60%	dev deprel acc 97.59%
+[hops] 2024-09-23 22:43:52.396 | INFO     | Epoch 26: train loss 0.0105	dev loss 0.3807	dev tag acc 98.69%	dev head acc 96.61%	dev deprel acc 97.63%
+[hops] 2024-09-23 22:45:20.429 | INFO     | Epoch 27: train loss 0.0093	dev loss 0.4159	dev tag acc 98.66%	dev head acc 96.71%	dev deprel acc 97.65%
+[hops] 2024-09-23 22:46:51.804 | INFO     | Epoch 28: train loss 0.0088	dev loss 0.4024	dev tag acc 98.56%	dev head acc 96.68%	dev deprel acc 97.59%
+[hops] 2024-09-23 22:48:21.306 | INFO     | Epoch 29: train loss 0.0084	dev loss 0.4070	dev tag acc 98.58%	dev head acc 96.69%	dev deprel acc 97.66%
+[hops] 2024-09-23 22:49:52.685 | INFO     | Epoch 30: train loss 0.0085	dev loss 0.4418	dev tag acc 98.58%	dev head acc 96.70%	dev deprel acc 97.64%
+[hops] 2024-09-23 22:51:21.719 | INFO     | Epoch 31: train loss 0.0077	dev loss 0.4297	dev tag acc 98.62%	dev head acc 96.67%	dev deprel acc 97.66%
+[hops] 2024-09-23 22:52:56.380 | INFO     | Epoch 32: train loss 0.0070	dev loss 0.4392	dev tag acc 98.63%	dev head acc 96.63%	dev deprel acc 97.71%
+[hops] 2024-09-23 22:54:24.344 | INFO     | Epoch 33: train loss 0.0065	dev loss 0.5069	dev tag acc 98.69%	dev head acc 96.65%	dev deprel acc 97.61%
+[hops] 2024-09-23 22:55:56.289 | INFO     | Epoch 34: train loss 0.0066	dev loss 0.4738	dev tag acc 98.64%	dev head acc 96.57%	dev deprel acc 97.58%
+[hops] 2024-09-23 22:57:26.001 | INFO     | Epoch 35: train loss 0.0059	dev loss 0.4935	dev tag acc 98.60%	dev head acc 96.62%	dev deprel acc 97.57%
+[hops] 2024-09-23 22:58:52.412 | INFO     | Epoch 36: train loss 0.0056	dev loss 0.5007	dev tag acc 98.65%	dev head acc 96.57%	dev deprel acc 97.55%
+[hops] 2024-09-23 23:00:21.973 | INFO     | Epoch 37: train loss 0.0053	dev loss 0.5094	dev tag acc 98.60%	dev head acc 96.71%	dev deprel acc 97.54%
+[hops] 2024-09-23 23:01:50.675 | INFO     | Epoch 38: train loss 0.0051	dev loss 0.4747	dev tag acc 98.61%	dev head acc 96.73%	dev deprel acc 97.57%
+[hops] 2024-09-23 23:03:21.971 | INFO     | Epoch 39: train loss 0.0048	dev loss 0.5596	dev tag acc 98.65%	dev head acc 96.73%	dev deprel acc 97.65%
+[hops] 2024-09-23 23:04:50.664 | INFO     | Epoch 40: train loss 0.0043	dev loss 0.4880	dev tag acc 98.67%	dev head acc 96.79%	dev deprel acc 97.69%
+[hops] 2024-09-23 23:04:50.665 | INFO     | New best model: head accuracy 96.79% > 96.74%
+[hops] 2024-09-23 23:06:18.898 | INFO     | Epoch 41: train loss 0.0041	dev loss 0.5152	dev tag acc 98.69%	dev head acc 96.68%	dev deprel acc 97.65%
+[hops] 2024-09-23 23:07:48.810 | INFO     | Epoch 42: train loss 0.0042	dev loss 0.5796	dev tag acc 98.62%	dev head acc 96.77%	dev deprel acc 97.59%
+[hops] 2024-09-23 23:09:19.338 | INFO     | Epoch 43: train loss 0.0039	dev loss 0.5478	dev tag acc 98.66%	dev head acc 96.69%	dev deprel acc 97.69%
+[hops] 2024-09-23 23:10:49.453 | INFO     | Epoch 44: train loss 0.0034	dev loss 0.5761	dev tag acc 98.66%	dev head acc 96.71%	dev deprel acc 97.64%
+[hops] 2024-09-23 23:12:20.508 | INFO     | Epoch 45: train loss 0.0035	dev loss 0.5968	dev tag acc 98.64%	dev head acc 96.75%	dev deprel acc 97.63%
+[hops] 2024-09-23 23:13:49.566 | INFO     | Epoch 46: train loss 0.0032	dev loss 0.5657	dev tag acc 98.64%	dev head acc 96.78%	dev deprel acc 97.69%
+[hops] 2024-09-23 23:15:19.300 | INFO     | Epoch 47: train loss 0.0029	dev loss 0.6033	dev tag acc 98.67%	dev head acc 96.72%	dev deprel acc 97.68%
+[hops] 2024-09-23 23:16:46.854 | INFO     | Epoch 48: train loss 0.0029	dev loss 0.6110	dev tag acc 98.67%	dev head acc 96.72%	dev deprel acc 97.68%
+[hops] 2024-09-23 23:18:14.068 | INFO     | Epoch 49: train loss 0.0026	dev loss 0.6084	dev tag acc 98.68%	dev head acc 96.74%	dev deprel acc 97.67%
+[hops] 2024-09-23 23:19:44.122 | INFO     | Epoch 50: train loss 0.0025	dev loss 0.6095	dev tag acc 98.62%	dev head acc 96.76%	dev deprel acc 97.68%
+[hops] 2024-09-23 23:21:10.264 | INFO     | Epoch 51: train loss 0.0025	dev loss 0.6551	dev tag acc 98.69%	dev head acc 96.71%	dev deprel acc 97.73%
+[hops] 2024-09-23 23:22:41.212 | INFO     | Epoch 52: train loss 0.0022	dev loss 0.6374	dev tag acc 98.62%	dev head acc 96.70%	dev deprel acc 97.64%
+[hops] 2024-09-23 23:24:09.182 | INFO     | Epoch 53: train loss 0.0021	dev loss 0.6473	dev tag acc 98.64%	dev head acc 96.72%	dev deprel acc 97.64%
+[hops] 2024-09-23 23:25:37.902 | INFO     | Epoch 54: train loss 0.0019	dev loss 0.6793	dev tag acc 98.66%	dev head acc 96.73%	dev deprel acc 97.67%
+[hops] 2024-09-23 23:27:06.796 | INFO     | Epoch 55: train loss 0.0019	dev loss 0.6544	dev tag acc 98.66%	dev head acc 96.76%	dev deprel acc 97.70%
+[hops] 2024-09-23 23:28:34.813 | INFO     | Epoch 56: train loss 0.0016	dev loss 0.7122	dev tag acc 98.66%	dev head acc 96.69%	dev deprel acc 97.67%
+[hops] 2024-09-23 23:30:01.304 | INFO     | Epoch 57: train loss 0.0015	dev loss 0.7413	dev tag acc 98.65%	dev head acc 96.69%	dev deprel acc 97.68%
+[hops] 2024-09-23 23:31:30.980 | INFO     | Epoch 58: train loss 0.0015	dev loss 0.7386	dev tag acc 98.66%	dev head acc 96.71%	dev deprel acc 97.68%
+[hops] 2024-09-23 23:33:00.851 | INFO     | Epoch 59: train loss 0.0014	dev loss 0.7433	dev tag acc 98.65%	dev head acc 96.80%	dev deprel acc 97.68%
+[hops] 2024-09-23 23:33:00.852 | INFO     | New best model: head accuracy 96.80% > 96.79%
+[hops] 2024-09-23 23:34:32.878 | INFO     | Epoch 60: train loss 0.0014	dev loss 0.7406	dev tag acc 98.64%	dev head acc 96.76%	dev deprel acc 97.67%
+[hops] 2024-09-23 23:36:01.771 | INFO     | Epoch 61: train loss 0.0014	dev loss 0.7765	dev tag acc 98.63%	dev head acc 96.75%	dev deprel acc 97.65%
+[hops] 2024-09-23 23:37:32.476 | INFO     | Epoch 62: train loss 0.0012	dev loss 0.7706	dev tag acc 98.64%	dev head acc 96.73%	dev deprel acc 97.67%
+[hops] 2024-09-23 23:38:59.167 | INFO     | Epoch 63: train loss 0.0012	dev loss 0.7670	dev tag acc 98.64%	dev head acc 96.74%	dev deprel acc 97.67%
+[hops] 2024-09-23 23:39:04.307 | WARNING  | You're using a RobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
+[hops] 2024-09-23 23:39:12.221 | WARNING  | You're using a RobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
+[hops] 2024-09-23 23:39:13.462 | INFO     | Metrics for GSD-camembertv2_base_p2_17k_last_layer+rand_seed=42
+ ───────────────────────────────
+  Split   UPOS     UAS     LAS
+ ───────────────────────────────
+  Dev     98.65   96.81   95.66
+  Test    98.66   95.77   94.32
+ ───────────────────────────────