Tr_En-MbartFinetune / README.md
ilhami's picture
Update README.md
0202aa4
---
language:
- tr
- en
tags:
- translation
license: apache-2.0
datasets:
- Parallel Corpora for Turkish-English Academic Translations
metrics:
- bleu
- sacrebleu
---
## Model Details
- **Developed by:** İlhami SEL
- **Model type:** Mbart Finetune Machine Translation
- **Language:** Turkish - English
- **Resources for more information:** Sel, İ. , Üzen, H. & Hanbay, D. (2021). Creating a Parallel Corpora for Turkish-English Academic Translations . Computer Science , 5th International Artificial Intelligence and Data Processing symposium , 335-340 . DOI: 10.53070/bbd.990959
```python
checkpoint = "ilhami/Tr_En-MbartFinetune"
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint).to("cuda")
tokenizer.src_lang = "tr_TR"
tr= ["Sohbet robotları son yıllarda yaygın bir şekilde kullanılmaya başlanmıştır. ",
"İnsanları taklit eden ve daha iyi müşteri memnuniyeti sağlayan sohbet robotları en gelişkin doğal dil işleme tekniklerine ihtiyaç duymaktadır. ",
"Bu çalışma sohbet robotu konuşmalarının niyet tahminini geliştirmeye odaklanmıştır." ,
"Kelime gösterimi için TF-IDF, Doc2vec ve BERT gibi geleneksel ve gelişmiş doğal dil işleme yöntemleri, çoklu sınıf ve çoklu etiket tahmini için ise lojistik regresyon, rastgele orman ve yapay sinir ağları kullanılmıştır." ,
"Sohbet robotu konuşma veri kümeleri, sinema bileti rezervasyonu, restoran rezervasyonu ve taksi çağırma olmak üzere üç farklı alandan alınmıştır. ",
"Bu çalışmanın sonunda, BERT ve BERT ile TF-IDF birleşimi modellerin diğer kombinasyonlardan daha iyi sonuç verdiği görülmüştür. ",
"BERT gibi ön eğitimli modellerden faydalanmanın daha iyi bağlamsal anlama sağladığı ortaya çıkmıştır. ",
"TF-IDF yerleştirmeleri, BERT gösterimi ile birleştirilerek niyet kategorisi tahmininin iyileştirilmesi amaçlanmıştır."]
encoded_tr = tokenizer(tr, return_tensors="pt" ,padding=True , truncation=True).to("cuda")
generated_tokens = model.generate(**encoded_tr, forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"])
en = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
```