Update README.md
Browse files
README.md
CHANGED
@@ -7,11 +7,11 @@ AI μ λΉ
λ°μ΄ν° λΆμ μ λ¬Έ κΈ°μ
μΈ Linkbricksμ λ°μ΄ν°μ¬μ΄μΈν°
|
|
7 |
tokenzier.jsonμ vocabκ³Ό merges λ§ appendν ν ν¬λμ΄μ μ΄λ€.
|
8 |
νκΈ μ½νΌμ€ μ½ 6μ΅κ±΄μμ frequency>2 μ΄μλ§ μΆμΆν ν ν°λ€λ‘μ κ³Όν, μμ , μ¬ν, λ¬Έν, λ΄μ€, 리뷰, μμ
, μ±ν
λ±μ λλΆλΆ 컀λ²νλ€.
|
9 |
|
10 |
-
|
11 |
-
|
12 |
example = "Tokenizers λΌμ΄λΈλ¬λ¦¬λ μμ κ°λ³ λ¨κ³μ λν΄ μ¬λ¬ μ΅μ
μ μ 곡ν μ μλλ‘ λ§λ€μ΄μ‘μΌλ©°, μ΄λ¬ν μ΅μ
λ€μ λͺ©μ μ λ°λΌ μ§λ§μΆ°μ νμ©ν μ μμ΅λλ€. μ΄ μΉμ
μμλ μΉμ
2μμ μ€λͺ
νλ κΈ°μ‘΄ ν ν¬λμ΄μ μμ μλ‘μ΄ ν ν¬λμ΄μ λ₯Ό νμ΅νλ κ²κ³Όλ λ¬λ¦¬ μμ μ²μλΆν° ν ν¬λμ΄μ λ₯Ό ꡬμΆνλ λ°©λ²μ λ³Ό κ²μ
λλ€. μ΄λ₯Ό ν΅ν΄μ, μκ°ν μ μλ λͺ¨λ μ’
λ₯μ ν ν¬λμ΄μ λ₯Ό λ§λ€ μ μμ΅λλ€!"
|
13 |
-
|
14 |
-
<b>
|
15 |
['βToken', 'izers', 'βλΌμ΄λΈλ¬λ¦¬λ', 'βμμ', 'βκ°λ³', 'βλ¨κ³μ', 'βλν΄', 'βμ¬λ¬', 'βμ΅μ
μ', 'βμ 곡ν ', 'βμ', 'βμλλ‘', 'βλ§λ€μ΄μ‘μΌλ©°,', 'βμ΄λ¬ν', 'βμ΅μ
', 'λ€μ', 'βλͺ©μ μ', 'βλ°λΌ', 'βμ§', 'λ§μΆ°μ', 'βνμ©ν ', 'βμ', 'βμμ΅λλ€.', 'βμ΄', 'βμΉμ
', 'μμλ', 'βμΉμ
', 'β2μμ', 'βμ€λͺ
', 'νλ', 'βκΈ°μ‘΄', 'βν ν¬', 'λμ΄', 'μ ', 'μμ', 'βμλ‘μ΄', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βνμ΅νλ', 'βκ²κ³Όλ', 'βλ¬λ¦¬', 'βμμ', 'βμ²μλΆν°', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βꡬμΆνλ', 'βλ°©λ²μ', 'βλ³Ό', 'βκ²μ
λλ€.', 'βμ΄λ₯Ό', 'βν΅ν΄μ,', 'βμκ°ν ', 'βμ', 'βμλ', 'βλͺ¨λ ', 'βμ’
λ₯μ', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βλ§λ€', 'βμ', 'βμμ΅λλ€!']
|
16 |
|
17 |
<b>beomi/KoAlpaca-v1.1a</b> : vocab size = 46,336 <br>
|
|
|
7 |
tokenzier.jsonμ vocabκ³Ό merges λ§ appendν ν ν¬λμ΄μ μ΄λ€.
|
8 |
νκΈ μ½νΌμ€ μ½ 6μ΅κ±΄μμ frequency>2 μ΄μλ§ μΆμΆν ν ν°λ€λ‘μ κ³Όν, μμ , μ¬ν, λ¬Έν, λ΄μ€, 리뷰, μμ
, μ±ν
λ±μ λλΆλΆ 컀λ²νλ€.
|
9 |
|
10 |
+
<b>ν ν¬λμ΄μ νμ§ λΉκ΅</b>
|
11 |
+
<br>
|
12 |
example = "Tokenizers λΌμ΄λΈλ¬λ¦¬λ μμ κ°λ³ λ¨κ³μ λν΄ μ¬λ¬ μ΅μ
μ μ 곡ν μ μλλ‘ λ§λ€μ΄μ‘μΌλ©°, μ΄λ¬ν μ΅μ
λ€μ λͺ©μ μ λ°λΌ μ§λ§μΆ°μ νμ©ν μ μμ΅λλ€. μ΄ μΉμ
μμλ μΉμ
2μμ μ€λͺ
νλ κΈ°μ‘΄ ν ν¬λμ΄μ μμ μλ‘μ΄ ν ν¬λμ΄μ λ₯Ό νμ΅νλ κ²κ³Όλ λ¬λ¦¬ μμ μ²μλΆν° ν ν¬λμ΄μ λ₯Ό ꡬμΆνλ λ°©λ²μ λ³Ό κ²μ
λλ€. μ΄λ₯Ό ν΅ν΄μ, μκ°ν μ μλ λͺ¨λ μ’
λ₯μ ν ν¬λμ΄μ λ₯Ό λ§λ€ μ μμ΅λλ€!"
|
13 |
+
<br>
|
14 |
+
<b>llama2_Linkbricks_korean_tokenzier_stem1</b> : vocab size = 474,098 <br>
|
15 |
['βToken', 'izers', 'βλΌμ΄λΈλ¬λ¦¬λ', 'βμμ', 'βκ°λ³', 'βλ¨κ³μ', 'βλν΄', 'βμ¬λ¬', 'βμ΅μ
μ', 'βμ 곡ν ', 'βμ', 'βμλλ‘', 'βλ§λ€μ΄μ‘μΌλ©°,', 'βμ΄λ¬ν', 'βμ΅μ
', 'λ€μ', 'βλͺ©μ μ', 'βλ°λΌ', 'βμ§', 'λ§μΆ°μ', 'βνμ©ν ', 'βμ', 'βμμ΅λλ€.', 'βμ΄', 'βμΉμ
', 'μμλ', 'βμΉμ
', 'β2μμ', 'βμ€λͺ
', 'νλ', 'βκΈ°μ‘΄', 'βν ν¬', 'λμ΄', 'μ ', 'μμ', 'βμλ‘μ΄', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βνμ΅νλ', 'βκ²κ³Όλ', 'βλ¬λ¦¬', 'βμμ', 'βμ²μλΆν°', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βꡬμΆνλ', 'βλ°©λ²μ', 'βλ³Ό', 'βκ²μ
λλ€.', 'βμ΄λ₯Ό', 'βν΅ν΄μ,', 'βμκ°ν ', 'βμ', 'βμλ', 'βλͺ¨λ ', 'βμ’
λ₯μ', 'βν ν¬', 'λμ΄', 'μ λ₯Ό', 'βλ§λ€', 'βμ', 'βμμ΅λλ€!']
|
16 |
|
17 |
<b>beomi/KoAlpaca-v1.1a</b> : vocab size = 46,336 <br>
|