FremyCompany commited on
Commit
e005980
1 Parent(s): 790bdf4

Update README.md

Browse files
Files changed (2) hide show
  1. README.md +24 -1
  2. TweetyTatar.png +0 -0
README.md CHANGED
@@ -9,12 +9,20 @@ datasets:
9
  - oscar-corpus/OSCAR-2301
10
  ---
11
 
 
 
12
  # Tweety Tatar / Base 7b / 2024-v1
13
 
14
  ## Model description
15
- This model is our trans-tokenized LLM for the [Tatar language](https://en.wikipedia.org/wiki/Tatar_language), finetuned from the [Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) model trained by MistralAI.
16
  Trans-tokenized LLMs are language models finetuned to produce output in a particular language, using a novel tokenizer native to that language.
17
 
 
 
 
 
 
 
18
  ## In-scope usage
19
  This model can be used as-is to perform basic language modeling operations in Tatar, or finetuned to perform more complex operations.
20
  This model has not undergone Instruction- or Chat-based finetuning, which means that the model functions best in few-shot settings.
@@ -92,4 +100,19 @@ def generate_tatar_summary(tatar_text_to_summarize: str) -> str:
92
 
93
  generate_tatar_summary("Зур шартлау (ингл. Big Bang) – Галәмнең башлангыч, сингуляр халәттә торган чорын тасвирлаучы космологик модель. Әле ХХ гасырда да без яшәгән Галәм статик структуралы, дигән фикер яшәгән. Ягъни, Галәмнең башы һәм ахыры юк, имеш, ул һәрвакыт булган һәм булачак. Бу фикер фән дөньясында бик озак, астрономия фәненең бөтен нигезләрен җимереп яңа теория барлыкка килгәнче яшәгән. Бу теориянең исеме – «Зур шартлау» теориясе.")
94
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
95
  ```
 
9
  - oscar-corpus/OSCAR-2301
10
  ---
11
 
12
+ <img align="right" src="https://huggingface.co/Tweeties/tweety-tatar-base-7b-2024-v1/resolve/main/TweetyTatar.png?download=true" alt="Tweety-Tatar-7B: A Tatar Large Language Model" width="20%">
13
+
14
  # Tweety Tatar / Base 7b / 2024-v1
15
 
16
  ## Model description
17
+ This model is our trans-tokenized LLM for the [Tatar language](https://en.wikipedia.org/wiki/Tatar_language), converted from the [Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) model trained by MistralAI.
18
  Trans-tokenized LLMs are language models finetuned to produce output in a particular language, using a novel tokenizer native to that language.
19
 
20
+ - **Developed by:** [François Remy](https://huggingface.co/FremyCompany) (UGent), [Alfiya Khabibullina](https://huggingface.co/justalphie) (BeCode), [et al.](#citation)
21
+ - **Funded by:** IDLab / GPULab (UGent)
22
+ - **Model type:** Foundation model using the mistral architecture
23
+ - **Language(s) (NLP):** Tatar
24
+ - **License:** Apache 2.0
25
+
26
  ## In-scope usage
27
  This model can be used as-is to perform basic language modeling operations in Tatar, or finetuned to perform more complex operations.
28
  This model has not undergone Instruction- or Chat-based finetuning, which means that the model functions best in few-shot settings.
 
100
 
101
  generate_tatar_summary("Зур шартлау (ингл. Big Bang) – Галәмнең башлангыч, сингуляр халәттә торган чорын тасвирлаучы космологик модель. Әле ХХ гасырда да без яшәгән Галәм статик структуралы, дигән фикер яшәгән. Ягъни, Галәмнең башы һәм ахыры юк, имеш, ул һәрвакыт булган һәм булачак. Бу фикер фән дөньясында бик озак, астрономия фәненең бөтен нигезләрен җимереп яңа теория барлыкка килгәнче яшәгән. Бу теориянең исеме – «Зур шартлау» теориясе.")
102
 
103
+ ```
104
+
105
+
106
+ ## Citation
107
+
108
+ If you use this model, please cite our work as:
109
+
110
+ ```
111
+ @article{tweeties2024,
112
+ title = {Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP},
113
+ author = {François Remy and Pieter Delobelle and Hayastan Avetisyan and Alfiya Khabibullina and Miryam de Lhoneux and Thomas Demeester},
114
+ url = {https://huggingface.co/Tweeties},
115
+ year = {2024},
116
+ note = {Under review at COLM 2024}
117
+ }
118
  ```
TweetyTatar.png ADDED