DeepMount00 commited on
Commit
c28d4ae
1 Parent(s): 6575071

End of training

Browse files
Files changed (5) hide show
  1. README.md +43 -106
  2. config.json +22 -2
  3. pytorch_model.bin +3 -0
  4. tokenizer_config.json +0 -42
  5. training_args.bin +3 -0
README.md CHANGED
@@ -1,115 +1,52 @@
1
  ---
 
2
  base_model: dbmdz/bert-base-italian-xxl-cased
3
  tags:
4
- - legal
5
- - finance
6
- - privacy
7
  model-index:
8
- - name: Italin_NER_XXL
9
  results: []
10
- widget:
11
- - text: >-
12
- La signora Bianca Rossi, nata il 10 aprile 1975 a Milano, con codice fiscale
13
- RSSBNC75D50F205Z e residente in Via Roma 123, 20121 Milano, ha effettuato un
14
- bonifico dal suo conto bancario IT60 X054 2811 1010 0000 0123 456 presso la
15
- Banca Popolare di Milano (BIC: BPMIITMMXXX), trasferendo un importo di
16
- €1.000,00. La transazione è stata eseguita il 22 gennaio 2024 alle ore
17
- 10:30. Per confermare la transazione, ha utilizzato un dispositivo Apple
18
- iPhone con indirizzo IP 192.168.1.2 e l'indirizzo email
19
- bianca.rossi@email.com, accedendo tramite il browser Safari (User Agent:
20
- Mozilla/5.0 (iPhone; CPU iPhone OS 14_2 like Mac OS X) AppleWebKit/605.1.15
21
- (KHTML, like Gecko) Version/14.0.1 Mobile/15E148 Safari/604.1).
22
- - text: >-
23
- Mario Rossi, nato il 15 marzo 1975, residente in Via delle Rose 123, 50122
24
- Firenze, ha inviato un'email a info@example.com per richiedere informazioni
25
- sulla legge N. 123/2021, indicando il suo numero di telefono +39 0551234567
26
- e il codice fiscale RSSMRA75C15D612K.
27
- - text: >-
28
- La ditta Giardini Belli S.p.A., con partita IVA 01234567890, ha emesso una
29
- fattura di 500 euro per la consulenza giuridica fornita dall'avvocato Giulia
30
- Bianchi, il cui studio si trova in Piazza del Duomo, Milano, dal giorno
31
- 01/04/2024.
32
- - text: >-
33
- Il cliente ha effettuato un pagamento di 1500€ tramite bonifico bancario
34
- (IBAN: IT60X0542811101000000123456) dalla banca Banca di Roma, per
35
- l'acquisto di un veicolo con targa AB123CD, registrando la transazione alle
36
- 14:00 del 10/01/2024, come evidenziato nel suo estratto conto numero 7890.
37
- language:
38
- - it
39
- license: apache-2.0
40
  ---
41
 
 
 
 
42
  # Italian_NER_XXL
43
 
44
- ## Model Overview
45
- This is the initial release of our artificial intelligence model on Hugging Face. It is important to note that this version is just the beginning; the model will be constantly improved over time. <u>**Currently, the model boasts an accuracy of 79%, but we plan to increase this regularly through weekly updates.**</u>
46
-
47
- ## Uniqueness of the Model in Italy
48
- We are proud to announce that our model is currently the only one in Italy capable of identifying a wide range of **52** different categories. This capability distinctly sets it apart from other models available in the Italian landscape, offering an unprecedented level of versatility and breadth in entity recognition.
49
-
50
- ## Technology and Innovation
51
- The model is based on the BERT architecture, one of the most advanced technologies in the field of Natural Language Processing (NLP). State-of-the-art techniques have been employed for its training, ensuring high-level accuracy and efficiency. This technological choice ensures a deep and sophisticated understanding of natural language.
52
- a
53
- ## Recognized Categories
54
- The model is capable of identifying the following categories:
55
- - **INDIRIZZO**: Identifica un indirizzo fisico.
56
- - **VALUTA**: Rappresenta una valuta.
57
- - **CVV**: Codice di sicurezza della carta di credito.
58
- - **NUMERO_CONTO**: Numero di un conto bancario.
59
- - **BIC**: Codice identificativo di una banca (Bank Identifier Code).
60
- - **IBAN**: Numero di conto bancario internazionale.
61
- - **STATO**: Identifica un paese o una nazione.
62
- - **NOME**: Riferito al nome di una persona.
63
- - **COGNOME**: Riferito al cognome di una persona.
64
- - **CODICE_POSTALE**: Codice postale di un'area geografica.
65
- - **IP**: Indirizzo IP di un dispositivo in rete.
66
- - **ORARIO**: Riferito a un orario specifico.
67
- - **URL**: Indirizzo web (Uniform Resource Locator).
68
- - **LUOGO**: Identifica un luogo geografico.
69
- - **IMPORTO**: Riferito a una somma di denaro.
70
- - **EMAIL**: Indirizzo di posta elettronica.
71
- - **PASSWORD**: Parola chiave per l'accesso a sistemi protetti.
72
- - **NUMERO_CARTA**: Numero di una carta di credito o debito.
73
- - **TARGA_VEICOLO**: Numero di targa di un veicolo.
74
- - **DATA_NASCITA**: Data di nascita di una persona.
75
- - **DATA_MORTE**: Data di decesso di una persona.
76
- - **RAGIONE_SOCIALE**: Nome legale di un'azienda o entità commerciale.
77
- - **ETA**: Età di una persona.
78
- - **DATA**: Riferita a una data generica.
79
- - **PROFESSIONE**: Occupazione o lavoro di una persona.
80
- - **PIN**: Numero di identificazione personale.
81
- - **NUMERO_TELEFONO**: Numero telefonico.
82
- - **FOGLIO**: Riferito a un foglio di documentazione.
83
- - **PARTICELLA**: Riferito a una particella catastale.
84
- - **CARTELLA_CLINICA**: Documentazione medica di un paziente.
85
- - **MALATTIA**: Identifica una malattia o condizione medica.
86
- - **MEDICINA**: Riferito a un farmaco o trattamento medico.
87
- - **CODICE_FISCALE**: Codice fiscale personale o aziendale.
88
- - **NUMERO_DOCUMENTO**: Numero di un documento ufficiale.
89
- - **STORIA_CLINICA**: Registro delle condizioni mediche di un paziente.
90
- - **AVV_NOTAIO**: Identifica un avvocato o notaio.
91
- - **P_IVA**: Partita IVA di un'azienda o professionista.
92
- - **LEGGE**: Riferito a una legge specifica.
93
- - **TASSO_MUTUO**: Tasso di interesse di un mutuo.
94
- - **N_SENTENZA**: Numero di una sentenza legale.
95
- - **MAPPALE**: Riferito a un mappale catastale.
96
- - **SUBALTERNO**: Riferito a un subalterno catastale.
97
- - **REGIME_PATRIMONIALE**: Stato patrimoniale in ambito legale.
98
- - **STATO_CIVILE**: Stato civile di una persona.
99
- - **BANCA**: Identifica una banca o istituto di credito.
100
- - **BRAND**: Marchio o brand commerciale.
101
- - **NUM_ASSEGNO_BANCARIO**: Numero di un assegno bancario.
102
- - **IMEI**: Numero di identificazione internazionale di un dispositivo mobile.
103
- - **N_LICENZA**: Numero di una licenza specifica.
104
- - **IPV6_1**: Indirizzo IP versione 6.
105
- - **MAC**: Indirizzo MAC di un dispositivo di rete.
106
- - **USER_AGENT**: Identifica il software usato per accedere a una rete.
107
- - **TRIBUNALE**: Identifica un tribunale specifico.
108
- - **STRENGTH**: Riferito alla forza o intensità di del medicinale.
109
- - **FREQUENZA**: Riferito alla frequenza di un trattamento medico.
110
- - **DURATION**: Durata di un evento o trattamento.
111
- - **DOSAGGIO**: Quantità di un medicinale da assumere.
112
- - **FORM**: Forma del medicinale, ad esempio compresse.
113
-
114
- ## Conclusion
115
- The primary goal of this model is to provide effective and accurate identification of a wide range of entities, surpassing the limits of traditional models. Being the only model in Italy to recognize so many entities, we are confident that it will be an invaluable tool for numerous application areas. Constant evolution and improvement of the model is our top priority to ensure always top-notch performance.
 
1
  ---
2
+ license: mit
3
  base_model: dbmdz/bert-base-italian-xxl-cased
4
  tags:
5
+ - generated_from_trainer
 
 
6
  model-index:
7
+ - name: Italian_NER_XXL
8
  results: []
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9
  ---
10
 
11
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
12
+ should probably proofread and complete it, then remove this comment. -->
13
+
14
  # Italian_NER_XXL
15
 
16
+ This model is a fine-tuned version of [dbmdz/bert-base-italian-xxl-cased](https://huggingface.co/dbmdz/bert-base-italian-xxl-cased) on the None dataset.
17
+
18
+ ## Model description
19
+
20
+ More information needed
21
+
22
+ ## Intended uses & limitations
23
+
24
+ More information needed
25
+
26
+ ## Training and evaluation data
27
+
28
+ More information needed
29
+
30
+ ## Training procedure
31
+
32
+ ### Training hyperparameters
33
+
34
+ The following hyperparameters were used during training:
35
+ - learning_rate: 2e-05
36
+ - train_batch_size: 8
37
+ - eval_batch_size: 8
38
+ - seed: 42
39
+ - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
40
+ - lr_scheduler_type: linear
41
+ - num_epochs: 9
42
+
43
+ ### Training results
44
+
45
+
46
+
47
+ ### Framework versions
48
+
49
+ - Transformers 4.33.0
50
+ - Pytorch 2.0.1+cu118
51
+ - Datasets 2.14.4
52
+ - Tokenizers 0.13.3
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
config.json CHANGED
@@ -115,7 +115,17 @@
115
  "103": "B-USER_AGENT",
116
  "104": "I-USER_AGENT",
117
  "105": "B-TRIBUNALE",
118
- "106": "I-TRIBUNALE"
 
 
 
 
 
 
 
 
 
 
119
  },
120
  "initializer_range": 0.02,
121
  "intermediate_size": 3072,
@@ -132,9 +142,13 @@
132
  "B-DATA": 47,
133
  "B-DATA_MORTE": 41,
134
  "B-DATA_NASCITA": 39,
 
 
135
  "B-EMAIL": 31,
136
  "B-ETA": 45,
137
  "B-FOGLIO": 55,
 
 
138
  "B-IBAN": 11,
139
  "B-IMEI": 95,
140
  "B-IMPORTO": 29,
@@ -166,6 +180,7 @@
166
  "B-STATO": 13,
167
  "B-STATO_CIVILE": 87,
168
  "B-STORIA_CLINICA": 69,
 
169
  "B-SUBALTERNO": 83,
170
  "B-TARGA_VEICOLO": 37,
171
  "B-TASSO_MUTUO": 77,
@@ -185,9 +200,13 @@
185
  "I-DATA": 48,
186
  "I-DATA_MORTE": 42,
187
  "I-DATA_NASCITA": 40,
 
 
188
  "I-EMAIL": 32,
189
  "I-ETA": 46,
190
  "I-FOGLIO": 56,
 
 
191
  "I-IBAN": 12,
192
  "I-IMEI": 96,
193
  "I-IMPORTO": 30,
@@ -219,6 +238,7 @@
219
  "I-STATO": 14,
220
  "I-STATO_CIVILE": 88,
221
  "I-STORIA_CLINICA": 70,
 
222
  "I-SUBALTERNO": 84,
223
  "I-TARGA_VEICOLO": 38,
224
  "I-TASSO_MUTUO": 78,
@@ -236,7 +256,7 @@
236
  "pad_token_id": 0,
237
  "position_embedding_type": "absolute",
238
  "torch_dtype": "float32",
239
- "transformers_version": "4.35.2",
240
  "type_vocab_size": 2,
241
  "use_cache": true,
242
  "vocab_size": 32102
 
115
  "103": "B-USER_AGENT",
116
  "104": "I-USER_AGENT",
117
  "105": "B-TRIBUNALE",
118
+ "106": "I-TRIBUNALE",
119
+ "107": "B-STRENGTH",
120
+ "108": "I-STRENGTH",
121
+ "109": "B-FREQUENZA",
122
+ "110": "I-FREQUENZA",
123
+ "111": "B-DURATION",
124
+ "112": "I-DURATION",
125
+ "113": "B-DOSAGGIO",
126
+ "114": "I-DOSAGGIO",
127
+ "115": "B-FORM",
128
+ "116": "I-FORM"
129
  },
130
  "initializer_range": 0.02,
131
  "intermediate_size": 3072,
 
142
  "B-DATA": 47,
143
  "B-DATA_MORTE": 41,
144
  "B-DATA_NASCITA": 39,
145
+ "B-DOSAGGIO": 113,
146
+ "B-DURATION": 111,
147
  "B-EMAIL": 31,
148
  "B-ETA": 45,
149
  "B-FOGLIO": 55,
150
+ "B-FORM": 115,
151
+ "B-FREQUENZA": 109,
152
  "B-IBAN": 11,
153
  "B-IMEI": 95,
154
  "B-IMPORTO": 29,
 
180
  "B-STATO": 13,
181
  "B-STATO_CIVILE": 87,
182
  "B-STORIA_CLINICA": 69,
183
+ "B-STRENGTH": 107,
184
  "B-SUBALTERNO": 83,
185
  "B-TARGA_VEICOLO": 37,
186
  "B-TASSO_MUTUO": 77,
 
200
  "I-DATA": 48,
201
  "I-DATA_MORTE": 42,
202
  "I-DATA_NASCITA": 40,
203
+ "I-DOSAGGIO": 114,
204
+ "I-DURATION": 112,
205
  "I-EMAIL": 32,
206
  "I-ETA": 46,
207
  "I-FOGLIO": 56,
208
+ "I-FORM": 116,
209
+ "I-FREQUENZA": 110,
210
  "I-IBAN": 12,
211
  "I-IMEI": 96,
212
  "I-IMPORTO": 30,
 
238
  "I-STATO": 14,
239
  "I-STATO_CIVILE": 88,
240
  "I-STORIA_CLINICA": 70,
241
+ "I-STRENGTH": 108,
242
  "I-SUBALTERNO": 84,
243
  "I-TARGA_VEICOLO": 38,
244
  "I-TASSO_MUTUO": 78,
 
256
  "pad_token_id": 0,
257
  "position_embedding_type": "absolute",
258
  "torch_dtype": "float32",
259
+ "transformers_version": "4.33.0",
260
  "type_vocab_size": 2,
261
  "use_cache": true,
262
  "vocab_size": 32102
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3a8d3ac41d027ea60ac5ba422304ff3c91a110a76550999a4f28ff66a93da4eb
3
+ size 440847977
tokenizer_config.json CHANGED
@@ -1,46 +1,4 @@
1
  {
2
- "added_tokens_decoder": {
3
- "0": {
4
- "content": "[PAD]",
5
- "lstrip": false,
6
- "normalized": false,
7
- "rstrip": false,
8
- "single_word": false,
9
- "special": true
10
- },
11
- "101": {
12
- "content": "[UNK]",
13
- "lstrip": false,
14
- "normalized": false,
15
- "rstrip": false,
16
- "single_word": false,
17
- "special": true
18
- },
19
- "102": {
20
- "content": "[CLS]",
21
- "lstrip": false,
22
- "normalized": false,
23
- "rstrip": false,
24
- "single_word": false,
25
- "special": true
26
- },
27
- "103": {
28
- "content": "[SEP]",
29
- "lstrip": false,
30
- "normalized": false,
31
- "rstrip": false,
32
- "single_word": false,
33
- "special": true
34
- },
35
- "104": {
36
- "content": "[MASK]",
37
- "lstrip": false,
38
- "normalized": false,
39
- "rstrip": false,
40
- "single_word": false,
41
- "special": true
42
- }
43
- },
44
  "clean_up_tokenization_spaces": true,
45
  "cls_token": "[CLS]",
46
  "do_basic_tokenize": true,
 
1
  {
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  "clean_up_tokenization_spaces": true,
3
  "cls_token": "[CLS]",
4
  "do_basic_tokenize": true,
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0c99cea83d2bf7e01b834e86302161c20533b1bfebacd0f1a54d7edc97c4427b
3
+ size 4091