Saxo commited on
Commit
9c439a2
·
verified ·
1 Parent(s): cb35fa9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -2
README.md CHANGED
@@ -2,9 +2,9 @@
2
  license: apache-2.0
3
  ---
4
 
5
- <img src="https://www.linkbricks.com/wp-content/uploads/2022/03/%E1%84%85%E1%85%B5%E1%86%BC%E1%84%8F%E1%85%B3%E1%84%87%E1%85%B3%E1%84%85%E1%85%B5%E1%86%A8%E1%84%89%E1%85%B3%E1%84%85%E1%85%A9%E1%84%80%E1%85%A9-2-1024x804.png">
6
 
7
- AI 와 빅데이터 분석 전문 기업인 Linkbricks의 데이터사이언티스트인 지윤성 박사(Saxo)가 llama2 기본 Tokenizer(3,2000 토큰)에
8
  한국어 토큰 40만개를 추가한 토크나이저로 llama2 계열 파인튜닝시 기존 llama2 토크나이저 대신 사용할 수 있도록 tokenzier_config.json과 special_tokens_map.json 은 수정 없이
9
  tokenzier.json에 vocab과 merges 만 append한 토크나이저이다.
10
  한글 코퍼스 약 6억건에서 frequency>2 이상만 추출한 토큰들로서 과학, 예술, 사회, 문화, 뉴스, 리뷰, 소셜, 채팅 등을 대부분 커버한다.
 
2
  license: apache-2.0
3
  ---
4
 
5
+ <img src="https://www.linkbricks.com/wp-content/uploads/2022/03/%E1%84%85%E1%85%B5%E1%86%BC%E1%84%8F%E1%85%B3%E1%84%87%E1%85%B3%E1%84%85%E1%85%B5%E1%86%A8%E1%84%89%E1%85%B3%E1%84%85%E1%85%A9%E1%84%80%E1%85%A9-2-1024x804.png", align="center">
6
 
7
+ AI 와 빅데이터 분석 전문 기업인 Linkbricks(www.linkbricks.com)의 데이터사이언티스트인 지윤성 박사(Saxo)가 llama2 기본 Tokenizer(3,2000 토큰)에
8
  한국어 토큰 40만개를 추가한 토크나이저로 llama2 계열 파인튜닝시 기존 llama2 토크나이저 대신 사용할 수 있도록 tokenzier_config.json과 special_tokens_map.json 은 수정 없이
9
  tokenzier.json에 vocab과 merges 만 append한 토크나이저이다.
10
  한글 코퍼스 약 6억건에서 frequency>2 이상만 추출한 토큰들로서 과학, 예술, 사회, 문화, 뉴스, 리뷰, 소셜, 채팅 등을 대부분 커버한다.