license: apache-2.0
language:
- ko
- en
tags:
- tokenizer
- korean tokenizer
- llama2
AI μ λΉ
λ°μ΄ν° λΆμ μ λ¬Έ κΈ°μ
μΈ Linkbricks(www.linkbricks.com)μ λ°μ΄ν°μ¬μ΄μΈν°μ€νΈμΈ μ§μ€μ± λ°μ¬(Saxo)κ° llama2 κΈ°λ³Έ Tokenizer(3,2000 ν ν°)μ
νκ΅μ΄ ν ν° 40λ§κ°λ₯Ό μΆκ°ν ν ν¬λμ΄μ λ‘ llama2 κ³μ΄ νμΈνλμ κΈ°μ‘΄ llama2 ν ν¬λμ΄μ λμ μ¬μ©ν μ μλλ‘ tokenzier_config.jsonκ³Ό special_tokens_map.json μ μμ μμ΄
tokenzier.jsonμ vocabκ³Ό merges λ§ appendν ν ν¬λμ΄μ μ΄λ€.
νκΈ μ½νΌμ€ μ½ 6μ΅κ±΄μμ frequency>2 μ΄μλ§ μΆμΆν ν ν°λ€λ‘μ κ³Όν, μμ , μ¬ν, λ¬Έν, λ΄μ€, 리뷰, μμ
, μ±ν
λ±μ λλΆλΆ 컀λ²νλ€.
ν ν¬λμ΄μ νμ§ λΉκ΅
example = "Tokenizers λΌμ΄λΈλ¬λ¦¬λ μμ κ°λ³ λ¨κ³μ λν΄ μ¬λ¬ μ΅μ
μ μ 곡ν μ μλλ‘ λ§λ€μ΄μ‘μΌλ©°, μ΄λ¬ν μ΅μ
λ€μ λͺ©μ μ λ°λΌ μ§λ§μΆ°μ νμ©ν μ μμ΅λλ€. μ΄ μΉμ
μμλ μΉμ
2μμ μ€λͺ
νλ κΈ°μ‘΄ ν ν¬λμ΄μ μμ μλ‘μ΄ ν ν¬λμ΄μ λ₯Ό νμ΅νλ κ²κ³Όλ λ¬λ¦¬ μμ μ²μλΆν° ν ν¬λμ΄μ λ₯Ό ꡬμΆνλ λ°©λ²μ λ³Ό κ²μ
λλ€. μ΄λ₯Ό ν΅ν΄μ, μκ°ν μ μλ λͺ¨λ μ’
λ₯μ ν ν¬λμ΄μ λ₯Ό λ§λ€ μ μμ΅λλ€!"
llama2_Linkbricks_korean_tokenzier_stem1 : vocab size = 474,098
['βToken', 'izers', 'βλΌμ΄λΈλ¬λ¦¬λ', 'βμμ', 'βκ°λ³', 'βλ¨κ³μ', 'βλν΄', 'βμ¬λ¬', 'βμ΅μ
μ', 'βμ 곡ν ', 'βμ', 'βμλλ‘', 'βλ§λ€μ΄μ‘μΌλ©°,', 'βμ΄λ¬ν', 'βμ΅μ
', 'λ€μ', 'βλͺ©μ μ', 'βλ°λΌ', 'βμ§', 'λ§μΆ°μ', 'βνμ©ν ', 'βμ', 'βμμ΅λλ€.', 'βμ΄', 'βμΉμ
', 'μμλ', 'βμΉμ
', 'β2μμ', 'βμ€λͺ
', 'νλ', 'βκΈ°μ‘΄', 'βν ν¬', 'λμ΄', 'μ ', 'μμ', 'βμλ‘μ΄', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βνμ΅νλ', 'βκ²κ³Όλ', 'βλ¬λ¦¬', 'βμμ', 'βμ²μλΆν°', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βꡬμΆνλ', 'βλ°©λ²μ', 'βλ³Ό', 'βκ²μ
λλ€.', 'βμ΄λ₯Ό', 'βν΅ν΄μ,', 'βμκ°ν ', 'βμ', 'βμλ', 'βλͺ¨λ ', 'βμ’
λ₯μ', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βλ§λ€', 'βμ', 'βμμ΅λλ€!']
beomi/KoAlpaca-v1.1a : vocab size = 46,336
['βToken', 'izers', 'βλΌμ΄λΈ', 'λ¬', '리λ', 'βμ', 'μ', 'βκ°λ³', 'βλ¨', 'κ³μ', 'βλν΄', 'βμ¬λ¬', 'βμ΅μ
', 'μ', 'βμ 곡ν ', 'βμ', 'βμλλ‘', 'βλ§λ€μ΄', 'μ‘', 'μΌλ©°', ',', 'βμ΄λ¬ν', 'βμ΅μ
', 'λ€μ', 'βλͺ©μ ', 'μ', 'βλ°λΌ', 'βμ§', 'λ§', 'μΆ°', 'μ', 'βνμ©ν ', 'βμ', 'βμμ΅λλ€', '.', 'βμ΄', 'βμΉ', 'μ
', 'μμλ', 'βμΉ', 'μ
', 'β', '2', 'μμ', 'βμ€λͺ
', 'νλ', 'βκΈ°μ‘΄', 'βν ', 'ν¬', 'λμ΄', 'μ ', 'μμ', 'βμλ‘μ΄', 'βν ', 'ν¬', 'λμ΄', 'μ ', 'λ₯Ό', 'βνμ΅', 'νλ', 'βκ²', 'κ³Όλ', 'βλ¬λ¦¬', 'βμμ', 'βμ²μλΆν°', 'βν ', 'ν¬', 'λμ΄', 'μ ', 'λ₯Ό', 'βꡬμΆ', 'νλ', 'βλ°©λ²μ', 'βλ³Ό', 'βκ²μ
λλ€', '.', 'βμ΄λ₯Ό', 'βν΅ν΄μ', ',', 'βμκ°', 'ν ', 'βμ', 'βμλ', 'βλͺ¨λ ', 'βμ’
λ₯', 'μ', 'βν ', 'ν¬', 'λμ΄', 'μ ', 'λ₯Ό', 'βλ§λ€', 'βμ', 'βμμ΅λλ€', '!']
llama2 original : vocab size = 32,000
['βToken', 'izers', 'β', 'λΌ', 'μ΄', '<0xEB>', '<0xB8>', '<0x8C>', '<0xEB>', '<0x9F>', '<0xAC>', '리', 'λ', 'β', 'μ', 'μ', 'β', 'κ°', '<0xEB>', '<0xB3>', '<0x84>', 'β', 'λ¨', '<0xEA>', '<0xB3>', '<0x84>', 'μ', 'β', 'λ', 'ν΄', 'β', 'μ¬', '<0xEB>', '<0x9F>', '<0xAC>', 'β', '<0xEC>', '<0x98>', '<0xB5>', '<0xEC>', '<0x85>', '<0x98>', 'μ', 'β', 'μ ', '곡', '<0xED>', '<0x95>', '<0xA0>', 'β', 'μ', 'β', '<0xEC>', '<0x9E>', '<0x88>', 'λ', '<0xEB>', '<0xA1>', '<0x9D>', 'β', 'λ§', 'λ€', 'μ΄', '<0xEC>', '<0xA1>', '<0x8C>', '<0xEC>', '<0x9C>', '<0xBC>', '<0xEB>', '<0xA9>', '<0xB0>', ',', 'β', 'μ΄', '<0xEB>', '<0x9F>', '<0xAC>', 'ν', 'β', '<0xEC>', '<0x98>', '<0xB5>', '<0xEC>', '<0x85>', '<0x98>', 'λ€', 'μ', 'β', '<0xEB>', '<0xAA>', '<0xA9>', '<0xEC>', '<0xA0>', '<0x81>', 'μ', 'β', '<0xEB>', '<0x94>', '<0xB0>', 'λΌ', 'β', '<0xEC>', '<0xA7>', '<0x9C>', '<0xEB>', '<0xA7>', '<0x9E>', '<0xEC>', '<0xB6>', '<0xB0>', 'μ', 'β', '<0xED>', '<0x99>', '<0x9C>', 'μ©', '<0xED>', '<0x95>', '<0xA0>', 'β', 'μ', 'β', '<0xEC>', '<0x9E>', '<0x88>', '<0xEC>', '<0x8A>', '<0xB5>', 'λ', 'λ€', '.', 'β', 'μ΄', 'β', '<0xEC>', '<0x84>', '<0xB9>', '<0xEC>', '<0x85>', '<0x98>', 'μ', 'μ', 'λ', 'β', '<0xEC>', '<0x84>', '<0xB9>', '<0xEC>', '<0x85>', '<0x98>', 'β', '2', 'μ', 'μ', 'β', '<0xEC>', '<0x84>', '<0xA4>', 'λͺ
', '<0xED>', '<0x96>', '<0x88>', '<0xEB>', '<0x8D>', '<0x98>', 'β', 'κΈ°', '<0xEC>', '<0xA1>', '<0xB4>', 'β', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ', 'μ΄', '<0xEC>', '<0xA0>', '<0x80>', 'μ', 'μ', 'β', '<0xEC>', '<0x83>', '<0x88>', 'λ‘', '<0xEC>', '<0x9A>', '<0xB4>', 'β', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ', 'μ΄', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', 'β', 'ν', '<0xEC>', '<0x8A>', '<0xB5>', 'ν', 'λ', 'β', '<0xEA>', '<0xB2>', '<0x83>', 'κ³Ό', 'λ', 'β', '<0xEB>', '<0x8B>', '<0xAC>', '리', 'β', 'μ', '<0xEC>', '<0x98>', '<0x88>', 'β', '<0xEC>', '<0xB2>', '<0x98>', 'μ', 'λΆ', 'ν°', 'β', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ', 'μ΄', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', 'β', 'ꡬ', '<0xEC>', '<0xB6>', '<0x95>', 'ν', 'λ', 'β', 'λ°©', '<0xEB>', '<0xB2>', '<0x95>', 'μ', 'β', '<0xEB>', '<0xB3>', '<0xBC>', 'β', '<0xEA>', '<0xB2>', '<0x83>', '<0xEC>', '<0x9E>', '<0x85>', 'λ', 'λ€', '.', 'β', 'μ΄', 'λ₯Ό', 'β', '<0xED>', '<0x86>', '<0xB5>', 'ν΄', 'μ', ',', 'β', '<0xEC>', '<0x83>', '<0x9D>', '<0xEA>', '<0xB0>', '<0x81>', '<0xED>', '<0x95>', '<0xA0>', 'β', 'μ', 'β', '<0xEC>', '<0x9E>', '<0x88>', 'λ', 'β', 'λͺ¨', '<0xEB>', '<0x93>', '<0xA0>', 'β', 'μ’
', '<0xEB>', '<0xA5>', '<0x98>', 'μ', 'β', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ', 'μ΄', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', 'β', 'λ§', 'λ€', 'β', 'μ', 'β', '<0xEC>', '<0x9E>', '<0x88>', '<0xEC>', '<0x8A>', '<0xB5>', 'λ', 'λ€', '!']
μμ μ μ΄μ©μ νκ° νμν©λλ€.