Spaces:
Running
Running
Update README.md
Browse files
README.md
CHANGED
@@ -7,10 +7,20 @@ sdk: static
|
|
7 |
pinned: false
|
8 |
---
|
9 |
|
10 |
-
Chúng tôi làm AI cho tiếng Việt.
|
11 |
|
12 |
-
|
|
|
|
|
|
|
|
|
13 |
![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
|
14 |
credit: https://huggingface.co/nampdn-ai
|
15 |
|
16 |
-
Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7 |
pinned: false
|
8 |
---
|
9 |
|
10 |
+
## Chúng tôi làm AI cho tiếng Việt.
|
11 |
|
12 |
+
Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu
|
13 |
+
|
14 |
+
## Tokenization
|
15 |
+
|
16 |
+
Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
|
17 |
![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
|
18 |
credit: https://huggingface.co/nampdn-ai
|
19 |
|
20 |
+
Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
|
21 |
+
|
22 |
+
## Bộ dữ liệu
|
23 |
+
Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
|
24 |
+
[binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
|
25 |
+
|
26 |
+
Bạn có thể tìm thấy các datasets khác tại [Vietnamese Text Corpus Collection](https://huggingface.co/collections/Symato/vietnamese-text-corpus-66f612f604f2d5ae977dba70)
|