Saxo commited on
Commit
9726560
β€’
1 Parent(s): a8718ac

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -4
README.md CHANGED
@@ -7,11 +7,11 @@ AI 와 빅데이터 뢄석 μ „λ¬Έ 기업인 Linkbricks의 데이터사이언티
7
  tokenzier.json에 vocabκ³Ό merges 만 appendν•œ ν† ν¬λ‚˜μ΄μ €μ΄λ‹€.
8
  ν•œκΈ€ μ½”νΌμŠ€ μ•½ 6μ–΅κ±΄μ—μ„œ frequency>2 μ΄μƒλ§Œ μΆ”μΆœν•œ ν† ν°λ“€λ‘œμ„œ κ³Όν•™, 예술, μ‚¬νšŒ, λ¬Έν™”, λ‰΄μŠ€, 리뷰, μ†Œμ…œ, μ±„νŒ… 등을 λŒ€λΆ€λΆ„ μ»€λ²„ν•œλ‹€.
9
 
10
- ν† ν¬λ‚˜μ΄μ € ν’ˆμ§ˆ 비ꡐ
11
-
12
  example = "Tokenizers λΌμ΄λΈŒλŸ¬λ¦¬λŠ” μœ„μ˜ κ°œλ³„ 단계에 λŒ€ν•΄ μ—¬λŸ¬ μ˜΅μ…˜μ„ μ œκ³΅ν•  수 μžˆλ„λ‘ λ§Œλ“€μ–΄μ‘ŒμœΌλ©°, μ΄λŸ¬ν•œ μ˜΅μ…˜λ“€μ€ λͺ©μ μ— 따라 μ§œλ§žμΆ°μ„œ ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 μ„Ήμ…˜μ—μ„œλŠ” μ„Ήμ…˜ 2μ—μ„œ μ„€λͺ…ν–ˆλ˜ κΈ°μ‘΄ ν† ν¬λ‚˜μ΄μ €μ—μ„œ μƒˆλ‘œμš΄ ν† ν¬λ‚˜μ΄μ €λ₯Ό ν•™μŠ΅ν•˜λŠ” κ²ƒκ³ΌλŠ” 달리 μ•„μ˜ˆ μ²˜μŒλΆ€ν„° ν† ν¬λ‚˜μ΄μ €λ₯Ό κ΅¬μΆ•ν•˜λŠ” 방법을 λ³Ό κ²ƒμž…λ‹ˆλ‹€. 이λ₯Ό ν†΅ν•΄μ„œ, 생각할 수 μžˆλŠ” λͺ¨λ“  μ’…λ₯˜μ˜ ν† ν¬λ‚˜μ΄μ €λ₯Ό λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€!"
13
-
14
- <b>llama2_korean_tokenzier_stem1</b> : vocab size = 474,098 <br>
15
  ['▁Token', 'izers', 'β–λΌμ΄λΈŒλŸ¬λ¦¬λŠ”', 'β–μœ„μ˜', 'β–κ°œλ³„', '▁단계에', 'β–λŒ€ν•΄', 'β–μ—¬λŸ¬', 'β–μ˜΅μ…˜μ„', 'β–μ œκ³΅ν• ', 'β–μˆ˜', 'β–μžˆλ„λ‘', 'β–λ§Œλ“€μ–΄μ‘ŒμœΌλ©°,', 'β–μ΄λŸ¬ν•œ', 'β–μ˜΅μ…˜', '듀은', '▁λͺ©μ μ—', '▁따라', 'β–μ§œ', 'λ§žμΆ°μ„œ', 'β–ν™œμš©ν• ', 'β–μˆ˜', 'β–μžˆμŠ΅λ‹ˆλ‹€.', '▁이', 'β–μ„Ήμ…˜', 'μ—μ„œλŠ”', 'β–μ„Ήμ…˜', '▁2μ—μ„œ', '▁섀λͺ…', 'ν–ˆλ˜', '▁기쑴', '▁토크', 'λ‚˜μ΄', 'μ €', 'μ—μ„œ', 'β–μƒˆλ‘œμš΄', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–ν•™μŠ΅ν•˜λŠ”', 'β–κ²ƒκ³ΌλŠ”', '▁달리', 'β–μ•„μ˜ˆ', 'β–μ²˜μŒλΆ€ν„°', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–κ΅¬μΆ•ν•˜λŠ”', '▁방법을', '▁볼', 'β–κ²ƒμž…λ‹ˆλ‹€.', '▁이λ₯Ό', 'β–ν†΅ν•΄μ„œ,', '▁생각할', 'β–μˆ˜', 'β–μžˆλŠ”', '▁λͺ¨λ“ ', '▁쒅λ₯˜μ˜', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–λ§Œλ“€', 'β–μˆ˜', 'β–μžˆμŠ΅λ‹ˆλ‹€!']
16
 
17
  <b>beomi/KoAlpaca-v1.1a</b> : vocab size = 46,336 <br>
 
7
  tokenzier.json에 vocabκ³Ό merges 만 appendν•œ ν† ν¬λ‚˜μ΄μ €μ΄λ‹€.
8
  ν•œκΈ€ μ½”νΌμŠ€ μ•½ 6μ–΅κ±΄μ—μ„œ frequency>2 μ΄μƒλ§Œ μΆ”μΆœν•œ ν† ν°λ“€λ‘œμ„œ κ³Όν•™, 예술, μ‚¬νšŒ, λ¬Έν™”, λ‰΄μŠ€, 리뷰, μ†Œμ…œ, μ±„νŒ… 등을 λŒ€λΆ€λΆ„ μ»€λ²„ν•œλ‹€.
9
 
10
+ <b>ν† ν¬λ‚˜μ΄μ € ν’ˆμ§ˆ 비ꡐ</b>
11
+ <br>
12
  example = "Tokenizers λΌμ΄λΈŒλŸ¬λ¦¬λŠ” μœ„μ˜ κ°œλ³„ 단계에 λŒ€ν•΄ μ—¬λŸ¬ μ˜΅μ…˜μ„ μ œκ³΅ν•  수 μžˆλ„λ‘ λ§Œλ“€μ–΄μ‘ŒμœΌλ©°, μ΄λŸ¬ν•œ μ˜΅μ…˜λ“€μ€ λͺ©μ μ— 따라 μ§œλ§žμΆ°μ„œ ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 μ„Ήμ…˜μ—μ„œλŠ” μ„Ήμ…˜ 2μ—μ„œ μ„€λͺ…ν–ˆλ˜ κΈ°μ‘΄ ν† ν¬λ‚˜μ΄μ €μ—μ„œ μƒˆλ‘œμš΄ ν† ν¬λ‚˜μ΄μ €λ₯Ό ν•™μŠ΅ν•˜λŠ” κ²ƒκ³ΌλŠ” 달리 μ•„μ˜ˆ μ²˜μŒλΆ€ν„° ν† ν¬λ‚˜μ΄μ €λ₯Ό κ΅¬μΆ•ν•˜λŠ” 방법을 λ³Ό κ²ƒμž…λ‹ˆλ‹€. 이λ₯Ό ν†΅ν•΄μ„œ, 생각할 수 μžˆλŠ” λͺ¨λ“  μ’…λ₯˜μ˜ ν† ν¬λ‚˜μ΄μ €λ₯Ό λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€!"
13
+ <br>
14
+ <b>llama2_Linkbricks_korean_tokenzier_stem1</b> : vocab size = 474,098 <br>
15
  ['▁Token', 'izers', 'β–λΌμ΄λΈŒλŸ¬λ¦¬λŠ”', 'β–μœ„μ˜', 'β–κ°œλ³„', '▁단계에', 'β–λŒ€ν•΄', 'β–μ—¬λŸ¬', 'β–μ˜΅μ…˜μ„', 'β–μ œκ³΅ν• ', 'β–μˆ˜', 'β–μžˆλ„λ‘', 'β–λ§Œλ“€μ–΄μ‘ŒμœΌλ©°,', 'β–μ΄λŸ¬ν•œ', 'β–μ˜΅μ…˜', '듀은', '▁λͺ©μ μ—', '▁따라', 'β–μ§œ', 'λ§žμΆ°μ„œ', 'β–ν™œμš©ν• ', 'β–μˆ˜', 'β–μžˆμŠ΅λ‹ˆλ‹€.', '▁이', 'β–μ„Ήμ…˜', 'μ—μ„œλŠ”', 'β–μ„Ήμ…˜', '▁2μ—μ„œ', '▁섀λͺ…', 'ν–ˆλ˜', '▁기쑴', '▁토크', 'λ‚˜μ΄', 'μ €', 'μ—μ„œ', 'β–μƒˆλ‘œμš΄', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–ν•™μŠ΅ν•˜λŠ”', 'β–κ²ƒκ³ΌλŠ”', '▁달리', 'β–μ•„μ˜ˆ', 'β–μ²˜μŒλΆ€ν„°', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–κ΅¬μΆ•ν•˜λŠ”', '▁방법을', '▁볼', 'β–κ²ƒμž…λ‹ˆλ‹€.', '▁이λ₯Ό', 'β–ν†΅ν•΄μ„œ,', '▁생각할', 'β–μˆ˜', 'β–μžˆλŠ”', '▁λͺ¨λ“ ', '▁쒅λ₯˜μ˜', '▁토크', 'λ‚˜μ΄', 'μ €λ₯Ό', 'β–λ§Œλ“€', 'β–μˆ˜', 'β–μžˆμŠ΅λ‹ˆλ‹€!']
16
 
17
  <b>beomi/KoAlpaca-v1.1a</b> : vocab size = 46,336 <br>