teszenofficial commited on
Commit
f078257
·
verified ·
1 Parent(s): af21093

Upload config.yaml

Browse files
Files changed (1) hide show
  1. config.yaml +82 -0
config.yaml ADDED
@@ -0,0 +1,82 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # MTP Mini - Configuración Optimizada 20x Más Grande e Inteligente
2
+
3
+ model:
4
+ vocab_size: 8000 # 2x más vocabulario
5
+ d_model: 1024 # 2x dimensión (512 → 1024)
6
+ n_layers: 24 # 3x capas (8 → 24)
7
+ n_heads: 16 # 2x cabezas (8 → 16)
8
+ d_ff: 4096 # 4x d_model
9
+ max_seq_len: 2048 # 4x contexto (512 → 2048)
10
+ dropout: 0.15 # Dropout optimizado
11
+ use_swiglu: true # Mejor activación
12
+ use_flash_attention: true # Atención optimizada
13
+ use_confidence_scoring: true # Anti-alucinación
14
+ min_confidence: 0.3
15
+
16
+ training:
17
+ batch_size: 2 # Pequeño para modelo grande
18
+ accumulation_steps: 16 # Effective batch = 32
19
+ epochs: 25 # 25 épocas como pediste
20
+ learning_rate: 0.0002 # LR bajo para estabilidad
21
+ min_lr: 0.000005
22
+ weight_decay: 0.15 # Regularización fuerte
23
+ max_grad_norm: 0.5
24
+ num_threads: 4
25
+ save_every: 5 # Guardar cada 5 épocas
26
+
27
+ # Early stopping (para no perder info)
28
+ patience: 10 # Muy paciente (espera 10 épocas sin mejora)
29
+ min_delta: 0.0003 # Mejora mínima aceptable
30
+
31
+ # Learning rate
32
+ warmup_steps: 500
33
+ use_lr_scheduler: true
34
+
35
+ # Regularización
36
+ label_smoothing: 0.15
37
+ use_eos_loss_weight: true
38
+ eos_weight: 3.0
39
+
40
+ # Optimizaciones GPU
41
+ use_gradient_checkpointing: true # Ahorra VRAM
42
+ use_fp16: true # Mixed precision
43
+
44
+ data:
45
+ corpus_path: corpus/mtp_mini_corpus.jsonl
46
+ min_text_length: 100
47
+ max_text_length: 4000
48
+ validation_split: 0.2 # 20% para validación
49
+
50
+ # Augmentación
51
+ use_augmentation: true
52
+ augmentation_prob: 0.4
53
+
54
+ generation:
55
+ default_max_tokens: 300
56
+ default_temperature: 0.65
57
+ default_top_k: 50
58
+ default_top_p: 0.9
59
+ default_repetition_penalty: 1.2
60
+ min_response_length: 30
61
+
62
+ # Anti-alucinación
63
+ use_perplexity_filter: true
64
+ max_perplexity: 80.0
65
+ use_entropy_threshold: true
66
+ max_entropy: 4.0
67
+
68
+ # Control de calidad
69
+ use_confidence_filter: true
70
+ min_confidence_threshold: 0.3
71
+
72
+ stop_sequences:
73
+ - "###"
74
+ - "\n\n\n\n"
75
+ - "Instrucción:"
76
+ - "Usuario:"
77
+
78
+ # Optimización de memoria
79
+ memory:
80
+ use_fp16: true
81
+ use_gradient_checkpointing: true
82
+ max_memory_gb: 14