telodigoensergio commited on
Commit
f49735a
1 Parent(s): 1bc2a7e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +53 -16
README.md CHANGED
@@ -11,13 +11,9 @@ language:
11
  Este modelo es el primer paso hacia un modelo de lenguaje que pueda usarse para reescribir de textos de carácter adminsitrativo
12
  con el objetivo de mejorar su comprensión para personas con alto y bajo nivel cultural y socieconómico.
13
 
14
-
15
-
16
- ## Model Details
17
-
18
  ### Model Description
19
 
20
- El modelo es el resultado de un proceso de ajuste fino de phi-2, desarrollado por microsoft con unos 2.5b de parámetros. Para el
21
  ajuste se han extraído multitud de textos de índole administrativa de las principales páginas web de la administración del Estado español.
22
 
23
  Para la carga y ajuste del modelo se han utilizado técnicas de cuantización con la siguiente configuración:
@@ -27,17 +23,60 @@ bnb_config = BitsAndBytesConfig(load_in_4bit=True,
27
  bnb_4bit_quant_type='nf4',
28
  bnb_4bit_compute_dtype='float16',
29
  bnb_4bit_use_double_quant=True)
 
30
 
31
 
32
-
33
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
34
  ```
35
- y se ha aplicado LoRA a las capas lineales para el fine-tunning.
36
-
37
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
38
  ## Prompting
39
  El prompt para el uso sigue la siguiente estructura:
40
 
 
41
  prompt = f"""###System:
42
  Lee el siguiente texto y hazlo más claro:
43
  ###Texto:
@@ -46,25 +85,23 @@ Lee el siguiente texto y hazlo más claro:
46
 
47
  ###Texto aclarado:
48
  """
 
49
 
50
 
51
 
52
 
53
- - **Developed by:** [More Information Needed]
54
  - **Funded by [optional]:** [More Information Needed]
55
  - **Shared by [optional]:** [More Information Needed]
56
  - **Model type:** [More Information Needed]
57
  - **Language(s) (NLP):** [More Information Needed]
58
  - **License:** [More Information Needed]
59
- - **Finetuned from model [optional]:** [More Information Needed]
60
 
61
- ### Model Sources [optional]
62
 
63
- <!-- Provide the basic links for the model. -->
64
 
65
- - **Repository:** [More Information Needed]
66
- - **Paper [optional]:** [More Information Needed]
67
- - **Demo [optional]:** [More Information Needed]
68
 
69
  ## Uses
70
 
 
11
  Este modelo es el primer paso hacia un modelo de lenguaje que pueda usarse para reescribir de textos de carácter adminsitrativo
12
  con el objetivo de mejorar su comprensión para personas con alto y bajo nivel cultural y socieconómico.
13
 
 
 
 
 
14
  ### Model Description
15
 
16
+ El modelo es el resultado de un proceso de ajuste fino de [phi-2](https://huggingface.co/microsoft/phi-2), desarrollado por microsoft con unos 2.5b de parámetros. Para el
17
  ajuste se han extraído multitud de textos de índole administrativa de las principales páginas web de la administración del Estado español.
18
 
19
  Para la carga y ajuste del modelo se han utilizado técnicas de cuantización con la siguiente configuración:
 
23
  bnb_4bit_quant_type='nf4',
24
  bnb_4bit_compute_dtype='float16',
25
  bnb_4bit_use_double_quant=True)
26
+ ```
27
 
28
 
29
+ y se ha aplicado LoRA a las capas lineales para el fine-tunning:
30
+ ```
31
+ config = LoraConfig(
32
+ r=16,
33
+ lora_alpha=32,
34
+ target_modules=[
35
+ 'q_proj',
36
+ 'k_proj',
37
+ 'v_proj',
38
+ 'dense',
39
+ 'fc1',
40
+ 'fc2',
41
+ ], #print(model) will show the modules to use
42
+ bias="none",
43
+ lora_dropout=0.05,
44
+ task_type="CAUSAL_LM",
45
  ```
 
 
46
 
47
+ ## Parámetros de entrenamiento
48
+ Para el entrenamiento se utilizaron los siguientes parámetros:
49
+ ```
50
+ training_args = TrainingArguments(
51
+ output_dir='./results',
52
+ overwrite_output_dir=True,
53
+ per_device_train_batch_size=2,
54
+ per_device_eval_batch_size=2,
55
+ gradient_accumulation_steps=5,
56
+ gradient_checkpointing=True,
57
+ gradient_checkpointing_kwargs={"use_reentrant": False},
58
+ warmup_steps=50,
59
+ #max_steps=1000,
60
+ num_train_epochs=2,
61
+ learning_rate=5e-5,
62
+ weight_decay=0.01,
63
+ optim="paged_adamw_8bit",
64
+ fp16=True,
65
+ logging_dir='./logs',
66
+ logging_strategy="steps",
67
+ logging_steps=100,
68
+ save_strategy="steps",
69
+ save_steps=200,
70
+ save_total_limit=2,
71
+ evaluation_strategy="steps",
72
+ eval_steps=200,
73
+ load_best_model_at_end=True,
74
+ )
75
+ ```
76
  ## Prompting
77
  El prompt para el uso sigue la siguiente estructura:
78
 
79
+ ```
80
  prompt = f"""###System:
81
  Lee el siguiente texto y hazlo más claro:
82
  ###Texto:
 
85
 
86
  ###Texto aclarado:
87
  """
88
+ ```
89
 
90
 
91
 
92
 
93
+ - **Developed by:** [Sergio Chicón](https://huggingface.co/telodigoensergio)
94
  - **Funded by [optional]:** [More Information Needed]
95
  - **Shared by [optional]:** [More Information Needed]
96
  - **Model type:** [More Information Needed]
97
  - **Language(s) (NLP):** [More Information Needed]
98
  - **License:** [More Information Needed]
99
+ - **Finetuned from model:** [Microsoft/phi-2](https://huggingface.co/microsoft/phi-2)
100
 
101
+ ### Model Sources
102
 
103
+ - **Repository:** [Google Colab](https://colab.research.google.com/drive/1qSOtPtRHCN5D1VW6MG-pe17OUZf4D2Q5?usp=sharing)
104
 
 
 
 
105
 
106
  ## Uses
107