tiendung commited on
Commit
e5e62d5
·
verified ·
1 Parent(s): 6ab6f58

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +13 -3
README.md CHANGED
@@ -7,10 +7,20 @@ sdk: static
7
  pinned: false
8
  ---
9
 
10
- Chúng tôi làm AI cho tiếng Việt. Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu.
11
 
12
- Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, gần ~3x so với bộ vocab của gpt-4
 
 
 
 
13
  ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
14
  credit: https://huggingface.co/nampdn-ai
15
 
16
- Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
 
 
 
 
 
 
 
7
  pinned: false
8
  ---
9
 
10
+ ## Chúng tôi làm AI cho tiếng Việt.
11
 
12
+ Bắt đầu với hình ngôn ngữ lớn, với những thử nghiệm về tokenizationxây dựng bộ dữ liệu
13
+
14
+ ## Tokenization
15
+
16
+ Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
17
  ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
18
  credit: https://huggingface.co/nampdn-ai
19
 
20
+ Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
21
+
22
+ ## Bộ dữ liệu
23
+ Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
24
+ [binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
25
+
26
+ Bạn có thể tìm thấy các datasets khác tại [Vietnamese Text Corpus Collection](https://huggingface.co/collections/Symato/vietnamese-text-corpus-66f612f604f2d5ae977dba70)