File size: 6,693 Bytes
fde9103 be70b5a fde9103 927e292 19072e5 9b5a97b 19072e5 9c439a2 befb56a 38cb840 9726560 38cb840 9726560 befb56a a8718ac befb56a a8718ac befb56a be70b5a |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 |
---
license: apache-2.0
language:
- ko
- en
tags:
- tokenizer
- korean tokenizer
- llama2
---
<div align="center">
<img src="https://www.linkbricks.com/wp-content/uploads/2022/03/%E1%84%85%E1%85%B5%E1%86%BC%E1%84%8F%E1%85%B3%E1%84%87%E1%85%B3%E1%84%85%E1%85%B5%E1%86%A8%E1%84%89%E1%85%B3%E1%84%85%E1%85%A9%E1%84%80%E1%85%A9-2-1024x804.png" />
</div>
AI μ λΉ
λ°μ΄ν° λΆμ μ λ¬Έ κΈ°μ
μΈ Linkbricks(www.linkbricks.com)μ λ°μ΄ν°μ¬μ΄μΈν°μ€νΈμΈ μ§μ€μ± λ°μ¬(Saxo)κ° llama2 κΈ°λ³Έ Tokenizer(3,2000 ν ν°)μ
νκ΅μ΄ ν ν° 40λ§κ°λ₯Ό μΆκ°ν ν ν¬λμ΄μ λ‘ llama2 κ³μ΄ νμΈνλμ κΈ°μ‘΄ llama2 ν ν¬λμ΄μ λμ μ¬μ©ν μ μλλ‘ tokenzier_config.jsonκ³Ό special_tokens_map.json μ μμ μμ΄
tokenzier.jsonμ vocabκ³Ό merges λ§ appendν ν ν¬λμ΄μ μ΄λ€.
νκΈ μ½νΌμ€ μ½ 6μ΅κ±΄μμ frequency>2 μ΄μλ§ μΆμΆν ν ν°λ€λ‘μ κ³Όν, μμ , μ¬ν, λ¬Έν, λ΄μ€, 리뷰, μμ
, μ±ν
λ±μ λλΆλΆ 컀λ²νλ€.
<br>
<br>
<b>ν ν¬λμ΄μ νμ§ λΉκ΅</b>
<br>
<b>example</b> = "Tokenizers λΌμ΄λΈλ¬λ¦¬λ μμ κ°λ³ λ¨κ³μ λν΄ μ¬λ¬ μ΅μ
μ μ 곡ν μ μλλ‘ λ§λ€μ΄μ‘μΌλ©°, μ΄λ¬ν μ΅μ
λ€μ λͺ©μ μ λ°λΌ μ§λ§μΆ°μ νμ©ν μ μμ΅λλ€. μ΄ μΉμ
μμλ μΉμ
2μμ μ€λͺ
νλ κΈ°μ‘΄ ν ν¬λμ΄μ μμ μλ‘μ΄ ν ν¬λμ΄μ λ₯Ό νμ΅νλ κ²κ³Όλ λ¬λ¦¬ μμ μ²μλΆν° ν ν¬λμ΄μ λ₯Ό ꡬμΆνλ λ°©λ²μ λ³Ό κ²μ
λλ€. μ΄λ₯Ό ν΅ν΄μ, μκ°ν μ μλ λͺ¨λ μ’
λ₯μ ν ν¬λμ΄μ λ₯Ό λ§λ€ μ μμ΅λλ€!"
<br>
<br>
<b>llama2_Linkbricks_korean_tokenzier_stem1</b> : vocab size = 474,098 <br>
['βToken', 'izers', 'βλΌμ΄λΈλ¬λ¦¬λ', 'βμμ', 'βκ°λ³', 'βλ¨κ³μ', 'βλν΄', 'βμ¬λ¬', 'βμ΅μ
μ', 'βμ 곡ν ', 'βμ', 'βμλλ‘', 'βλ§λ€μ΄μ‘μΌλ©°,', 'βμ΄λ¬ν', 'βμ΅μ
', 'λ€μ', 'βλͺ©μ μ', 'βλ°λΌ', 'βμ§', 'λ§μΆ°μ', 'βνμ©ν ', 'βμ', 'βμμ΅λλ€.', 'βμ΄', 'βμΉμ
', 'μμλ', 'βμΉμ
', 'β2μμ', 'βμ€λͺ
', 'νλ', 'βκΈ°μ‘΄', 'βν ν¬', 'λμ΄', 'μ ', 'μμ', 'βμλ‘μ΄', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βνμ΅νλ', 'βκ²κ³Όλ', 'βλ¬λ¦¬', 'βμμ', 'βμ²μλΆν°', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βꡬμΆνλ', 'βλ°©λ²μ', 'βλ³Ό', 'βκ²μ
λλ€.', 'βμ΄λ₯Ό', 'βν΅ν΄μ,', 'βμκ°ν ', 'βμ', 'βμλ', 'βλͺ¨λ ', 'βμ’
λ₯μ', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βλ§λ€', 'βμ', 'βμμ΅λλ€!']
<b>beomi/KoAlpaca-v1.1a</b> : vocab size = 46,336 <br>
['βToken', 'izers', 'βλΌμ΄λΈ', 'λ¬', '리λ', 'βμ', 'μ', 'βκ°λ³', 'βλ¨', 'κ³μ', 'βλν΄', 'βμ¬λ¬', 'βμ΅μ
', 'μ', 'βμ 곡ν ', 'βμ', 'βμλλ‘', 'βλ§λ€μ΄', 'μ‘', 'μΌλ©°', ',', 'βμ΄λ¬ν', 'βμ΅μ
', 'λ€μ', 'βλͺ©μ ', 'μ', 'βλ°λΌ', 'βμ§', 'λ§', 'μΆ°', 'μ', 'βνμ©ν ', 'βμ', 'βμμ΅λλ€', '.', 'βμ΄', 'βμΉ', 'μ
', 'μμλ', 'βμΉ', 'μ
', 'β', '2', 'μμ', 'βμ€λͺ
', 'νλ', 'βκΈ°μ‘΄', 'βν ', 'ν¬', 'λμ΄', 'μ ', 'μμ', 'βμλ‘μ΄', 'βν ', 'ν¬', 'λμ΄', 'μ ', 'λ₯Ό', 'βνμ΅', 'νλ', 'βκ²', 'κ³Όλ', 'βλ¬λ¦¬', 'βμμ', 'βμ²μλΆν°', 'βν ', 'ν¬', 'λμ΄', 'μ ', 'λ₯Ό', 'βꡬμΆ', 'νλ', 'βλ°©λ²μ', 'βλ³Ό', 'βκ²μ
λλ€', '.', 'βμ΄λ₯Ό', 'βν΅ν΄μ', ',', 'βμκ°', 'ν ', 'βμ', 'βμλ', 'βλͺ¨λ ', 'βμ’
λ₯', 'μ', 'βν ', 'ν¬', 'λμ΄', 'μ ', 'λ₯Ό', 'βλ§λ€', 'βμ', 'βμμ΅λλ€', '!']
<b>llama2 original</b> : vocab size = 32,000 <br>
['βToken', 'izers', 'β', 'λΌ', 'μ΄', '<0xEB>', '<0xB8>', '<0x8C>', '<0xEB>', '<0x9F>', '<0xAC>', '리', 'λ', 'β', 'μ', 'μ', 'β', 'κ°', '<0xEB>', '<0xB3>', '<0x84>', 'β', 'λ¨', '<0xEA>', '<0xB3>', '<0x84>', 'μ', 'β', 'λ', 'ν΄', 'β', 'μ¬', '<0xEB>', '<0x9F>', '<0xAC>', 'β', '<0xEC>', '<0x98>', '<0xB5>', '<0xEC>', '<0x85>', '<0x98>', 'μ', 'β', 'μ ', '곡', '<0xED>', '<0x95>', '<0xA0>', 'β', 'μ', 'β', '<0xEC>', '<0x9E>', '<0x88>', 'λ', '<0xEB>', '<0xA1>', '<0x9D>', 'β', 'λ§', 'λ€', 'μ΄', '<0xEC>', '<0xA1>', '<0x8C>', '<0xEC>', '<0x9C>', '<0xBC>', '<0xEB>', '<0xA9>', '<0xB0>', ',', 'β', 'μ΄', '<0xEB>', '<0x9F>', '<0xAC>', 'ν', 'β', '<0xEC>', '<0x98>', '<0xB5>', '<0xEC>', '<0x85>', '<0x98>', 'λ€', 'μ', 'β', '<0xEB>', '<0xAA>', '<0xA9>', '<0xEC>', '<0xA0>', '<0x81>', 'μ', 'β', '<0xEB>', '<0x94>', '<0xB0>', 'λΌ', 'β', '<0xEC>', '<0xA7>', '<0x9C>', '<0xEB>', '<0xA7>', '<0x9E>', '<0xEC>', '<0xB6>', '<0xB0>', 'μ', 'β', '<0xED>', '<0x99>', '<0x9C>', 'μ©', '<0xED>', '<0x95>', '<0xA0>', 'β', 'μ', 'β', '<0xEC>', '<0x9E>', '<0x88>', '<0xEC>', '<0x8A>', '<0xB5>', 'λ', 'λ€', '.', 'β', 'μ΄', 'β', '<0xEC>', '<0x84>', '<0xB9>', '<0xEC>', '<0x85>', '<0x98>', 'μ', 'μ', 'λ', 'β', '<0xEC>', '<0x84>', '<0xB9>', '<0xEC>', '<0x85>', '<0x98>', 'β', '2', 'μ', 'μ', 'β', '<0xEC>', '<0x84>', '<0xA4>', 'λͺ
', '<0xED>', '<0x96>', '<0x88>', '<0xEB>', '<0x8D>', '<0x98>', 'β', 'κΈ°', '<0xEC>', '<0xA1>', '<0xB4>', 'β', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ', 'μ΄', '<0xEC>', '<0xA0>', '<0x80>', 'μ', 'μ', 'β', '<0xEC>', '<0x83>', '<0x88>', 'λ‘', '<0xEC>', '<0x9A>', '<0xB4>', 'β', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ', 'μ΄', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', 'β', 'ν', '<0xEC>', '<0x8A>', '<0xB5>', 'ν', 'λ', 'β', '<0xEA>', '<0xB2>', '<0x83>', 'κ³Ό', 'λ', 'β', '<0xEB>', '<0x8B>', '<0xAC>', '리', 'β', 'μ', '<0xEC>', '<0x98>', '<0x88>', 'β', '<0xEC>', '<0xB2>', '<0x98>', 'μ', 'λΆ', 'ν°', 'β', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ', 'μ΄', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', 'β', 'ꡬ', '<0xEC>', '<0xB6>', '<0x95>', 'ν', 'λ', 'β', 'λ°©', '<0xEB>', '<0xB2>', '<0x95>', 'μ', 'β', '<0xEB>', '<0xB3>', '<0xBC>', 'β', '<0xEA>', '<0xB2>', '<0x83>', '<0xEC>', '<0x9E>', '<0x85>', 'λ', 'λ€', '.', 'β', 'μ΄', 'λ₯Ό', 'β', '<0xED>', '<0x86>', '<0xB5>', 'ν΄', 'μ', ',', 'β', '<0xEC>', '<0x83>', '<0x9D>', '<0xEA>', '<0xB0>', '<0x81>', '<0xED>', '<0x95>', '<0xA0>', 'β', 'μ', 'β', '<0xEC>', '<0x9E>', '<0x88>', 'λ', 'β', 'λͺ¨', '<0xEB>', '<0x93>', '<0xA0>', 'β', 'μ’
', '<0xEB>', '<0xA5>', '<0x98>', 'μ', 'β', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ', 'μ΄', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', 'β', 'λ§', 'λ€', 'β', 'μ', 'β', '<0xEC>', '<0x9E>', '<0x88>', '<0xEC>', '<0x8A>', '<0xB5>', 'λ', 'λ€', '!']
μμ
μ μ΄μ©μ νκ° νμν©λλ€. |