File size: 8,528 Bytes
735c370 87e97e9 1d24557 87e97e9 1d24557 87e97e9 735c370 1d24557 b86bbf1 1d24557 0c9af5c 1d24557 87e97e9 1d24557 87e97e9 1d24557 1038672 1d24557 87e97e9 1d24557 87e97e9 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 |
---
license: apache-2.0
tags:
- generated_from_trainer
- KoRWKV
- KoAlpaca
model-index:
- name: KoRWKV-6B-koalpaca-v1.1a
results: []
datasets:
- beomi/KoAlpaca-v1.1a
language:
- ko
library_name: transformers
pipeline_tag: text-generation
---
> π§ Note: this repo is under construction, current uploaded version is based on KoRWKV-6B, ~28Billion tokens trained ckpt π§
# π§ KoAlpaca-KoRWKV-6B (v1.1a)
This model is a fine-tuned version of [beomi/KoRWKV-6B](https://huggingface.co/beomi/KoRWKV-6B) on an [KoAlpaca v1.1a Dataset](https://huggingface.co/datasets/beomi/KoAlpaca-v1.1a).
Detail Codes are available at [KoAlpaca Github Repository](https://github.com/Beomi/KoAlpaca)
## Generation Code
### Install Requirements
```bash
pip install -U transformers tokenizers accelerate safetensors
```
### Generation Code with HF pipeline
```python
from transformers import pipeline
def gen(x):
a = pipe(
f'### μ§λ¬Έ: {x}\n\n### λ΅λ³:',
max_new_tokens=1024,
return_full_text=False,
do_sample=True,
top_p=0.9,
temperature=0.7,
early_stopping=True,
repetition_penalty=1.2,
)
print(a[0]['generated_text'])
```
### Generated Samples
```
gen("μ€λ κΈ°λΆμ μ’ μ΄λ?")
μ€λμ κΈ°λΆμ΄ μ’μ λ μ
λλ€. μλνλ©΄, μ€λμ κΈ°μ μΌμ΄ μκΈΈ μ μλ λ μ΄λκΉμ!
1. μμΉ¨μ μΌμ° μΌμ΄λμ κΈ°λΆ μ’μμ΅λλ€. 2. λ§μλ μμμ λ¨Ήμ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 3. μμ
μκ°μ μ΄μ¬ν λ€μ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 4. μΉκ΅¬κ° μμΌ μ λ¬Όμ μ€μ κΈ°λΆμ΄ μ’μ΅λλ€. 5. λ΄μΌμ΄ ν μμΌμ΄λΌμ κΈ°λΆμ΄ μ’μ΅λλ€. 6. μμ λ₯Ό ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 7. λΆλͺ¨λκ»μ μμΌ μΆν λ
Έλλ₯Ό λΆλ¬μ€μ κΈ°λΆμ΄ μ’μ΅λλ€. 8. λ°© μ²μλ₯Ό ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 9. λ§μλ κ³Όμλ₯Ό λ¨Ήμ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 10. μ€λ λ μ¨λ₯Ό 보λ λΉκ° μμμ κΈ°λΆμ΄ μ’μ΅λλ€. 11. λΆλͺ¨λμ΄ λλ₯Ό μ¬λν΄μ£Όμ
μ κΈ°λΆμ΄ μ’μ΅λλ€. 12. λΆλͺ¨λκ³Ό ν¨κ» μΈμμ ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 13. μΉκ΅¬λ κ°μ΄ λμμ κΈ°λΆμ΄ μ’μ΅λλ€. 14. 곡λΆλ₯Ό ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 15. μμ λ₯Ό μ ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 16. λ§μλ μμμ λ¨Ήμ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 17. μΉκ΅¬λ€κ³Ό μ΄μΈλ € λμμ κΈ°λΆμ΄ μ’μ΅λλ€. 18. λ΄κ° μ’μνλ μ±
μ μ½μ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 19. μ€λ ν루 μ’
μΌ κΈ°λΆμ΄ μ’μ΅λλ€. 20. μλ§μ μλΉ κ° λλ₯Ό μ¬λν΄ μ£Όμ
μ κΈ°λΆμ΄ μ’μ΅λλ€.
```
```
gen("μΉΈνΈμ μ μΈλͺ
λ Ήμ λ°λ₯Έλ€λ μ μ΄ μΌλ°μ μΈ μ ν¨κ³Ό λ€λ₯Έ μ΄μ κ° λμΌ?")
μΉΈνΈλ λλμ λ²μΉμ λ κ°μ§λ‘ ꡬλΆνμ΅λλ€. 첫 λ²μ§Έ λ²μΉμ 'μ μΈλͺ
λ Ή'μΌλ‘, μ΄ λ²μΉμ μ΄λ€ μν©μμλ μ λμ μΌλ‘ μ§μΌμΌ νλ 보νΈμ μΈ λ²μΉμ
λλ€. μ΄μ λ°λΌ μΉΈνΈλ "μ΄μ±μ΄ λͺ
λ Ήν λλ‘ νλνλΌ"λ μμΉμ μ μνμ΅λλ€.
λ λ²μ§Έ λ²μΉμ "λͺ¨λ μΈκ°μ νλ±νκ² νμ΄λ¬κ³ , μ°½μ‘°μ£Όλ‘λΆν° μλν μ μλ κΆλ¦¬λ₯Ό λΆμ¬λ°μλ€"λ κ²μ
λλ€. μ΄ μμΉμλ λͺ¨λ μΈκ°μ΄ νλ±νκ³ , λͺ¨λ μΈκ°μ λλ±νκ² μ‘΄μ€λ°μμΌ νλ€λ μλ―Έκ° λ΄κ²¨ μμ΅λλ€. μ΄λ¬ν μΉΈνΈμ λλ λ²μΉμ λ°λ₯΄λ©΄, μ ν¨κ³Ό μ
ν¨μ μν©μ λ°λΌ λ€λ₯΄κ² μ μ©λ μ μμ΅λλ€. μλ₯Ό λ€μ΄, λ²μ£μλ μ₯μ μΈ λ± νΉλ³ν μν©μμλ μ μ΄ λ μ μλ μν©μ΄ μ‘΄μ¬ν©λλ€.
```
```
gen("λ€μ κΈμ μμ΄λ‘ λ²μν΄μ£ΌμΈμ. μμ΄ λ¬Έμ₯: 'She looks handsome.' λ²μ νκΈ λ¬Έμ₯:")
"She looks handsome."μ μ§μνλ©΄ "κ·Έλ
λ μμ겨 보μ
λλ€"λΌλ λ»μ΄μ§λ§, νκ΅μ΄λ‘λ "κ·Έλ
λ μλ¦λ€μ 보μ
λλ€"λ‘ ν΄μλ©λλ€. μ΄ λ¬Έμ₯μ μλ 'The saddest thing'μ΄λΌλ μνμ OST κ°μ¬ μ€ μΌλΆλΆμ
λλ€. μ΄ μνλ μ μΈ ν°λ€κ° μ£Όμ°μ 맑μ μνμΌλ‘, κ·Έλ
κ° λ§€λ ₯μ μΈ λ―Έλͺ¨μ λͺΈλ§€λ₯Ό κ°μ§κ³ μμ§λ§ λΆνν μΆμ μ¬λ μ¬μ±μ λͺ¨μ΅μ κ·Έλ¦¬κ³ μμ΅λλ€. λ°λΌμ κ·Έλ
λ μλ¦λ΅μ§λ§ λΆνν΄λ³΄μ΄λ λͺ¨μ΅μ΄λΌλ μλ―Έμμ μ¬μ©λμμ΅λλ€.
```
```
gen("μμΈμ΄ μΈκΈ°μλ λμμΈ μ΄μ λ?")
μμΈμ λ§μ μ¬λλ€μ΄ κ±°μ£Όνκ³ μλ λλμμ΄κΈ° λλ¬Έμ
λλ€. λν, λ€λ₯Έ λλΌμμλ μμΈλ³΄λ€ λ ν° λλμλ€μ΄ λ§μ΄ μμ§λ§, μλκ° μμΈμ μμΉν λλΌλ μμ΅λλ€. μ΄λ μμΈμ λμ κ·λͺ¨κ° ν¬κ³ κ΅ν΅κ³Ό ν΅μ λ± μΈνλΌκ° μ ꡬμΆλμ΄ μκΈ° λλ¬Έμ
λλ€.
μΆκ° μ€λͺ
:
μμΈμ μΈκ΅¬λ μ λμΈκ΅¬ λ±μ μ΄ν΄λ³΄λ©΄, μμΈμ λ°©λ¬Ένλ μΈκ΅μΈ κ΄κ΄κ°λ λ§€μ° λ§μ΅λλ€. μ΄λ¬ν μ΄μ λ‘ μμΈμ νκ΅ λ΄μμ κ°μ₯ μΈκΈ° μλ λμ μ€ νλλ‘ μ리μ‘κ³ μμ΅λλ€.
```
```
gen("μΉΈνΈ μ² νμ μμλ₯Ό λ€κ³ , ν΄λΉ μ² νμ΄ κ°μ§λ μμλ₯Ό 3κ°μ§ μλ €μ€.")
μΉΈνΈλ μΈκ°μ μ§μμ κ²½νλ‘ μ μ
μ₯μμ λΆμνκ³ μ’
ν©νμ¬ λλμ² νμ μ 립νμμ΅λλ€. μ΄ κ³Όμ μμ κ·Έλ λͺ¨λ μΈκ°μ μ΄μ±μ κ°μ§κ³ μμΌλ©°, λλλ²μΉμ μΈμν μ μλ€κ³ 보μμ΅λλ€. μ΄λ¬ν μΈκ° μ΄μ±μ κΈ°λ₯μ ν΅ν΄, μΉΈνΈλ 'μ€μ²μ΄μ±'κ³Ό 'νλ¨λ ₯'μ μ€μν©λλ€. μ¦, μ΄μ±μ μΌλ‘ νλ¨νμ¬ μ¬λ°λ₯Έ νλ¨μ λ΄λ¦΄ μ μλ λ₯λ ₯μ΄ μΈκ°μκ²λ μλ€λ κ²μ
λλ€. λν, μΉΈνΈλ μΈκ°μ΄ κ°μ§ μ μ²μ μΈ κ΄λ
λ‘ μ μ¬κ³ λ°©μμ κ±°λΆνκ³ , κ²½νμ ν΅ν μ€μ²μ μΈ μ¬κ³ λ°©μμΌλ‘μμ μ΄μ±μ κ°μ‘°ν©λλ€.
μΆκ° μ€λͺ
:
μΉΈνΈμ μ² νμ νμ΄μν, μΈμλ‘ , μ€λ¦¬ν, μ μΉν λ± λ€μν λΆμΌμμ μν₯μ λ―ΈμΉκ³ μμ΅λλ€. νΉν, κ·Έλ κ²½νλ‘ κ³Ό ν©λ¦¬λ‘ μ λ립μΌλ‘ μΈν΄ λΆμ΄λ μ λ½μ μ¬μκ³λ₯Ό ν΅ν©νμ¬ μλ‘μ΄ μ² νμ μ μνκ³ μ λ
Έλ ₯νμμ΅λλ€. μ΄λ₯Ό ν΅ν΄ κ·Όλ μ² νμ ν° μν₯μ μ£ΌμμΌλ©°, νμ¬λ κ·Έ μν₯λ ₯μ΄ μ¬μ ν μ μ§λκ³ μμ΅λλ€.
```
```
gen("리ν¬μ΄μ¨μ μ§μμ λ°μνλ νν νμμ ννμμ κΈ°λ°μΌλ‘ μμΈν μ€λͺ
ν΄μ£ΌμΈμ.")
리ν¬μ΄μ¨μ μ§λ μκ·Ήκ³Ό μκ·Ή μ¬μ΄μ μλ λΆλ¦¬λ§μ ν΅ν΄ μ΄μ¨μ΄ μ΄λνλ©΄μ μΆ©μ κ³Ό λ°©μ μ νλ μλ¦¬λ‘ μλν©λλ€. λ°λΌμ, μ κ·Ήμ λ°μμ μν΄ νν λ°μμ΄ μΌμ΄λ©λλ€.
1. 리ν¬μ΄μ¨μ μ§ λ΄λΆμλ 리ν¬μ΄μ¨λ€μ΄ μ΄λνκΈ° μν ν΅λ‘κ° μλλ°, μ΄λ₯Ό μ ν΄μ§μ΄λΌκ³ ν©λλ€. μ¦, μ‘체 μ ν΄μ§μ μ±μ°κ³ μλ μ΄μ¨λ€μ λλ μ°¨μ΄ λλ¬Έμ μ κ·Ήμμ μ μκ° μ΄λνλ κ²μ
λλ€. μ΄λ μ ν΄μ§μ λ¬Όμ§μ΄ μλ ννλ°μμ μΌμΌν€λ μν μ ν©λλ€. 2. μκ·Ήμ μ μλ₯Ό λ°μ μ΄μ¨μΌλ‘ μμ±νλ λΆλΆμ
λλ€. 3. μκ·Ήμμλ μ°ν νμ λ°μμ ν΅ν΄ μ μμ μμ μ΄μ¨μ΄ μ΄λνλ©°, μ΄λ₯Ό ν΅ν΄ μ κΈ°κ° λ°μν©λλ€. 4. μ μλ μκ·Ήμμ μκ·ΉμΌλ‘ μ΄λνλ©°, μ΄λ μ μμ νλ¦μ΄λ©°, μ΄λ₯Ό ν΅ν΄ μ λ₯κ° νλ₯΄κ² λ©λλ€. 5. μ μλ μκ·Ήμμ μκ·ΉμΌλ‘ μ΄λνλλ°, μ΄λ μ μκ° μ μμ΄λμ νλ©΄μ λ°μν μ΄λμλμ§λ‘ μΈν΄ λ°μν©λλ€. 6. μ κΈ°μ μΌλ‘ κ°μ₯ μμ λ μνμΈ λ¦¬ν¬μ΄μ¨μ κ°μ₯ λμ μ¨λ(μ½ 700λ)μμλ μ 견λ μ μμ΅λλ€.
```
```
gen("ν¬μ μ΄μ¬μκ° νκΈ° μ’μ μ λ¬Ό ν¬μ μ’
λ₯λ₯Ό μλ €μ£ΌμΈμ.")
μ£Όμ, μ±κΆ, κΈ, μμ λ± λ€μν μνμ΄ μμ΅λλ€.
1. μ£Όμ (μ£Όμν¬μ) - μ₯κΈ°μ μΈ κ΄μ μμ ν¬μν λ μ ν©ν μνμ
λλ€.
2. κΈ (κΈν¬μ) - μμ ν ν¬μλ₯Ό μνλ μ¬λμκ² μ’μ΅λλ€.
3. μμ (μμμ¬ν¬μ) - μμ μ μΈ μμ΅κ³Ό κ°κ²© λ³λμ±μ΄ μ μ΅λλ€.
4. λΆλμ° (λΆλμ°ν¬μ) - μΈνλ μ΄μ
μ΄ λ°μνλ μκΈ°μ κ°μ₯ μ ν©ν ν¬μ λ°©λ² μ€ νλμ
λλ€.
5. 보ν (보νν¬μ) - 보μ₯μμ°μ λν λμ¦κ° μλ μ¬λμκ² μ ν©ν μνμ
λλ€.
```
## Training procedure
### Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 2e-05
- train_batch_size: 1
- seed: 42
- gradient_accumulation_steps: 8
- total_train_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 1.0
- mixed_precision_training: Native AMP
- Trained on 1x H100(80G PCI-E) GPU
### Framework versions
- Transformers 4.29.2
- Pytorch 1.13.1
- Datasets 2.12.0
- Tokenizers 0.13.3 |