Saxo's picture
Update README.md
be70b5a verified
metadata
license: apache-2.0
language:
  - ko
  - en
tags:
  - tokenizer
  - korean tokenizer
  - llama2

AI 와 빅데이터 뢄석 μ „λ¬Έ 기업인 Linkbricks(www.linkbricks.com)의 λ°μ΄ν„°μ‚¬μ΄μ–Έν‹°μŠ€νŠΈμΈ μ§€μœ€μ„± 박사(Saxo)κ°€ llama2 κΈ°λ³Έ Tokenizer(3,2000 토큰)에 ν•œκ΅­μ–΄ 토큰 40만개λ₯Ό μΆ”κ°€ν•œ ν† ν¬λ‚˜μ΄μ €λ‘œ llama2 계열 νŒŒμΈνŠœλ‹μ‹œ κΈ°μ‘΄ llama2 ν† ν¬λ‚˜μ΄μ € λŒ€μ‹  μ‚¬μš©ν•  수 μžˆλ„λ‘ tokenzier_config.jsonκ³Ό special_tokens_map.json 은 μˆ˜μ • 없이 tokenzier.json에 vocabκ³Ό merges 만 appendν•œ ν† ν¬λ‚˜μ΄μ €μ΄λ‹€. ν•œκΈ€ μ½”νΌμŠ€ μ•½ 6μ–΅κ±΄μ—μ„œ frequency>2 μ΄μƒλ§Œ μΆ”μΆœν•œ ν† ν°λ“€λ‘œμ„œ κ³Όν•™, 예술, μ‚¬νšŒ, λ¬Έν™”, λ‰΄μŠ€, 리뷰, μ†Œμ…œ, μ±„νŒ… 등을 λŒ€λΆ€λΆ„ μ»€λ²„ν•œλ‹€.

ν† ν¬λ‚˜μ΄μ € ν’ˆμ§ˆ 비ꡐ
example = "Tokenizers λΌμ΄λΈŒλŸ¬λ¦¬λŠ” μœ„μ˜ κ°œλ³„ 단계에 λŒ€ν•΄ μ—¬λŸ¬ μ˜΅μ…˜μ„ μ œκ³΅ν•  수 μžˆλ„λ‘ λ§Œλ“€μ–΄μ‘ŒμœΌλ©°, μ΄λŸ¬ν•œ μ˜΅μ…˜λ“€μ€ λͺ©μ μ— 따라 μ§œλ§žμΆ°μ„œ ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 μ„Ήμ…˜μ—μ„œλŠ” μ„Ήμ…˜ 2μ—μ„œ μ„€λͺ…ν–ˆλ˜ κΈ°μ‘΄ ν† ν¬λ‚˜μ΄μ €μ—μ„œ μƒˆλ‘œμš΄ ν† ν¬λ‚˜μ΄μ €λ₯Ό ν•™μŠ΅ν•˜λŠ” κ²ƒκ³ΌλŠ” 달리 μ•„μ˜ˆ μ²˜μŒλΆ€ν„° ν† ν¬λ‚˜μ΄μ €λ₯Ό κ΅¬μΆ•ν•˜λŠ” 방법을 λ³Ό κ²ƒμž…λ‹ˆλ‹€. 이λ₯Ό ν†΅ν•΄μ„œ, 생각할 수 μžˆλŠ” λͺ¨λ“  μ’…λ₯˜μ˜ ν† ν¬λ‚˜μ΄μ €λ₯Ό λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€!"

llama2_Linkbricks_korean_tokenzier_stem1 : vocab size = 474,098
['▁Token', 'izers', 'β–λΌμ΄λΈŒλŸ¬λ¦¬λŠ”', 'β–μœ„μ˜', 'β–κ°œλ³„', '▁단계에', 'β–λŒ€ν•΄', 'β–μ—¬λŸ¬', 'β–μ˜΅μ…˜μ„', 'β–μ œκ³΅ν• ', 'β–μˆ˜', 'β–μžˆλ„λ‘', 'β–λ§Œλ“€μ–΄μ‘ŒμœΌλ©°,', 'β–μ΄λŸ¬ν•œ', 'β–μ˜΅μ…˜', '듀은', '▁λͺ©μ μ—', '▁따라', 'β–μ§œ', 'λ§žμΆ°μ„œ', 'β–ν™œμš©ν• ', 'β–μˆ˜', 'β–μžˆμŠ΅λ‹ˆλ‹€.', '▁이', 'β–μ„Ήμ…˜', 'μ—μ„œλŠ”', 'β–μ„Ήμ…˜', '▁2μ—μ„œ', '▁섀λͺ…', 'ν–ˆλ˜', '▁기쑴', '▁토크', 'λ‚˜μ΄', 'μ €', 'μ—μ„œ', 'β–μƒˆλ‘œμš΄', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–ν•™μŠ΅ν•˜λŠ”', 'β–κ²ƒκ³ΌλŠ”', '▁달리', 'β–μ•„μ˜ˆ', 'β–μ²˜μŒλΆ€ν„°', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–κ΅¬μΆ•ν•˜λŠ”', '▁방법을', '▁볼', 'β–κ²ƒμž…λ‹ˆλ‹€.', '▁이λ₯Ό', 'β–ν†΅ν•΄μ„œ,', '▁생각할', 'β–μˆ˜', 'β–μžˆλŠ”', '▁λͺ¨λ“ ', '▁쒅λ₯˜μ˜', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–λ§Œλ“€', 'β–μˆ˜', 'β–μžˆμŠ΅λ‹ˆλ‹€!']

beomi/KoAlpaca-v1.1a : vocab size = 46,336
['▁Token', 'izers', 'β–λΌμ΄λΈŒ', '러', 'λ¦¬λŠ”', 'β–μœ„', '의', 'β–κ°œλ³„', '▁단', '계에', 'β–λŒ€ν•΄', 'β–μ—¬λŸ¬', 'β–μ˜΅μ…˜', '을', 'β–μ œκ³΅ν• ', 'β–μˆ˜', 'β–μžˆλ„λ‘', 'β–λ§Œλ“€μ–΄', '쑌', '으며', ',', 'β–μ΄λŸ¬ν•œ', 'β–μ˜΅μ…˜', '듀은', '▁λͺ©μ ', '에', '▁따라', 'β–μ§œ', '맞', 'μΆ°', 'μ„œ', 'β–ν™œμš©ν• ', 'β–μˆ˜', 'β–μžˆμŠ΅λ‹ˆλ‹€', '.', '▁이', '▁섹', 'μ…˜', 'μ—μ„œλŠ”', '▁섹', 'μ…˜', '▁', '2', 'μ—μ„œ', '▁섀λͺ…', 'ν–ˆλ˜', '▁기쑴', '▁토', '크', 'λ‚˜μ΄', 'μ €', 'μ—μ„œ', 'β–μƒˆλ‘œμš΄', '▁토', '크', 'λ‚˜μ΄', 'μ €', 'λ₯Ό', 'β–ν•™μŠ΅', 'ν•˜λŠ”', '▁것', 'κ³ΌλŠ”', '▁달리', 'β–μ•„μ˜ˆ', 'β–μ²˜μŒλΆ€ν„°', '▁토', '크', 'λ‚˜μ΄', 'μ €', 'λ₯Ό', '▁ꡬ좕', 'ν•˜λŠ”', '▁방법을', '▁볼', 'β–κ²ƒμž…λ‹ˆλ‹€', '.', '▁이λ₯Ό', 'β–ν†΅ν•΄μ„œ', ',', '▁생각', 'ν• ', 'β–μˆ˜', 'β–μžˆλŠ”', '▁λͺ¨λ“ ', '▁쒅λ₯˜', '의', '▁토', '크', 'λ‚˜μ΄', 'μ €', 'λ₯Ό', 'β–λ§Œλ“€', 'β–μˆ˜', 'β–μžˆμŠ΅λ‹ˆλ‹€', '!']

llama2 original : vocab size = 32,000
['▁Token', 'izers', '▁', '라', '이', '<0xEB>', '<0xB8>', '<0x8C>', '<0xEB>', '<0x9F>', '<0xAC>', '리', 'λŠ”', '▁', 'μœ„', '의', '▁', '개', '<0xEB>', '<0xB3>', '<0x84>', '▁', '단', '<0xEA>', '<0xB3>', '<0x84>', '에', '▁', 'λŒ€', 'ν•΄', '▁', 'μ—¬', '<0xEB>', '<0x9F>', '<0xAC>', '▁', '<0xEC>', '<0x98>', '<0xB5>', '<0xEC>', '<0x85>', '<0x98>', '을', '▁', '제', '곡', '<0xED>', '<0x95>', '<0xA0>', '▁', '수', '▁', '<0xEC>', '<0x9E>', '<0x88>', '도', '<0xEB>', '<0xA1>', '<0x9D>', '▁', '만', 'λ“€', 'μ–΄', '<0xEC>', '<0xA1>', '<0x8C>', '<0xEC>', '<0x9C>', '<0xBC>', '<0xEB>', '<0xA9>', '<0xB0>', ',', '▁', '이', '<0xEB>', '<0x9F>', '<0xAC>', 'ν•œ', '▁', '<0xEC>', '<0x98>', '<0xB5>', '<0xEC>', '<0x85>', '<0x98>', 'λ“€', '은', '▁', '<0xEB>', '<0xAA>', '<0xA9>', '<0xEC>', '<0xA0>', '<0x81>', '에', '▁', '<0xEB>', '<0x94>', '<0xB0>', '라', '▁', '<0xEC>', '<0xA7>', '<0x9C>', '<0xEB>', '<0xA7>', '<0x9E>', '<0xEC>', '<0xB6>', '<0xB0>', 'μ„œ', '▁', '<0xED>', '<0x99>', '<0x9C>', '용', '<0xED>', '<0x95>', '<0xA0>', '▁', '수', '▁', '<0xEC>', '<0x9E>', '<0x88>', '<0xEC>', '<0x8A>', '<0xB5>', 'λ‹ˆ', 'λ‹€', '.', '▁', '이', '▁', '<0xEC>', '<0x84>', '<0xB9>', '<0xEC>', '<0x85>', '<0x98>', '에', 'μ„œ', 'λŠ”', '▁', '<0xEC>', '<0x84>', '<0xB9>', '<0xEC>', '<0x85>', '<0x98>', '▁', '2', '에', 'μ„œ', '▁', '<0xEC>', '<0x84>', '<0xA4>', 'λͺ…', '<0xED>', '<0x96>', '<0x88>', '<0xEB>', '<0x8D>', '<0x98>', '▁', 'κΈ°', '<0xEC>', '<0xA1>', '<0xB4>', '▁', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ‚˜', '이', '<0xEC>', '<0xA0>', '<0x80>', '에', 'μ„œ', '▁', '<0xEC>', '<0x83>', '<0x88>', '둜', '<0xEC>', '<0x9A>', '<0xB4>', '▁', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ‚˜', '이', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', '▁', 'ν•™', '<0xEC>', '<0x8A>', '<0xB5>', 'ν•˜', 'λŠ”', '▁', '<0xEA>', '<0xB2>', '<0x83>', 'κ³Ό', 'λŠ”', '▁', '<0xEB>', '<0x8B>', '<0xAC>', '리', '▁', 'μ•„', '<0xEC>', '<0x98>', '<0x88>', '▁', '<0xEC>', '<0xB2>', '<0x98>', '음', 'λΆ€', 'ν„°', '▁', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ‚˜', '이', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', '▁', 'ꡬ', '<0xEC>', '<0xB6>', '<0x95>', 'ν•˜', 'λŠ”', '▁', 'λ°©', '<0xEB>', '<0xB2>', '<0x95>', '을', '▁', '<0xEB>', '<0xB3>', '<0xBC>', '▁', '<0xEA>', '<0xB2>', '<0x83>', '<0xEC>', '<0x9E>', '<0x85>', 'λ‹ˆ', 'λ‹€', '.', '▁', '이', 'λ₯Ό', '▁', '<0xED>', '<0x86>', '<0xB5>', 'ν•΄', 'μ„œ', ',', '▁', '<0xEC>', '<0x83>', '<0x9D>', '<0xEA>', '<0xB0>', '<0x81>', '<0xED>', '<0x95>', '<0xA0>', '▁', '수', '▁', '<0xEC>', '<0x9E>', '<0x88>', 'λŠ”', '▁', 'λͺ¨', '<0xEB>', '<0x93>', '<0xA0>', '▁', 'μ’…', '<0xEB>', '<0xA5>', '<0x98>', '의', '▁', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', 'λ‚˜', '이', '<0xEC>', '<0xA0>', '<0x80>', 'λ₯Ό', '▁', '만', 'λ“€', '▁', '수', '▁', '<0xEC>', '<0x9E>', '<0x88>', '<0xEC>', '<0x8A>', '<0xB5>', 'λ‹ˆ', 'λ‹€', '!']

상업적 μ΄μš©μ‹œ ν—ˆκ°€ ν•„μš”ν•©λ‹ˆλ‹€.