Update README.md
Browse files
README.md
CHANGED
@@ -2,9 +2,9 @@
|
|
2 |
license: apache-2.0
|
3 |
---
|
4 |
|
5 |
-
<img src="https://www.linkbricks.com/wp-content/uploads/2022/03/%E1%84%85%E1%85%B5%E1%86%BC%E1%84%8F%E1%85%B3%E1%84%87%E1%85%B3%E1%84%85%E1%85%B5%E1%86%A8%E1%84%89%E1%85%B3%E1%84%85%E1%85%A9%E1%84%80%E1%85%A9-2-1024x804.png">
|
6 |
|
7 |
-
AI 와 빅데이터 분석 전문 기업인 Linkbricks의 데이터사이언티스트인 지윤성 박사(Saxo)가 llama2 기본 Tokenizer(3,2000 토큰)에
|
8 |
한국어 토큰 40만개를 추가한 토크나이저로 llama2 계열 파인튜닝시 기존 llama2 토크나이저 대신 사용할 수 있도록 tokenzier_config.json과 special_tokens_map.json 은 수정 없이
|
9 |
tokenzier.json에 vocab과 merges 만 append한 토크나이저이다.
|
10 |
한글 코퍼스 약 6억건에서 frequency>2 이상만 추출한 토큰들로서 과학, 예술, 사회, 문화, 뉴스, 리뷰, 소셜, 채팅 등을 대부분 커버한다.
|
|
|
2 |
license: apache-2.0
|
3 |
---
|
4 |
|
5 |
+
<img src="https://www.linkbricks.com/wp-content/uploads/2022/03/%E1%84%85%E1%85%B5%E1%86%BC%E1%84%8F%E1%85%B3%E1%84%87%E1%85%B3%E1%84%85%E1%85%B5%E1%86%A8%E1%84%89%E1%85%B3%E1%84%85%E1%85%A9%E1%84%80%E1%85%A9-2-1024x804.png", align="center">
|
6 |
|
7 |
+
AI 와 빅데이터 분석 전문 기업인 Linkbricks(www.linkbricks.com)의 데이터사이언티스트인 지윤성 박사(Saxo)가 llama2 기본 Tokenizer(3,2000 토큰)에
|
8 |
한국어 토큰 40만개를 추가한 토크나이저로 llama2 계열 파인튜닝시 기존 llama2 토크나이저 대신 사용할 수 있도록 tokenzier_config.json과 special_tokens_map.json 은 수정 없이
|
9 |
tokenzier.json에 vocab과 merges 만 append한 토크나이저이다.
|
10 |
한글 코퍼스 약 6억건에서 frequency>2 이상만 추출한 토큰들로서 과학, 예술, 사회, 문화, 뉴스, 리뷰, 소셜, 채팅 등을 대부분 커버한다.
|