Spaces:

Symato
/

README

Running

tiendung commited on Sep 28, 2024

Commit

e5e62d5

verified ·

1 Parent(s): 6ab6f58

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -7,10 +7,20 @@ sdk: static
 pinned: false
 ---
-Chúng tôi làm AI cho tiếng Việt. Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu.
-Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
 ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
 credit: https://huggingface.co/nampdn-ai
-Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.

 pinned: false
 ---
+## Chúng tôi làm AI cho tiếng Việt.
+Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu
+## Tokenization
+Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
 ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
 credit: https://huggingface.co/nampdn-ai
+Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
+## Bộ dữ liệu
+Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
+[binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
+Bạn có thể tìm thấy các datasets khác tại [Vietnamese Text Corpus Collection](https://huggingface.co/collections/Symato/vietnamese-text-corpus-66f612f604f2d5ae977dba70)