|
--- |
|
language: |
|
- tr |
|
- en |
|
tags: |
|
- translation |
|
license: apache-2.0 |
|
datasets: |
|
- Parallel Corpora for Turkish-English Academic Translations |
|
metrics: |
|
- bleu |
|
- sacrebleu |
|
--- |
|
|
|
|
|
## Model Details |
|
|
|
- **Developed by:** İlhami SEL |
|
- **Model type:** Mbart Finetune Machine Translation |
|
- **Language:** Turkish - English |
|
- **Resources for more information:** Sel, İ. , Üzen, H. & Hanbay, D. (2021). Creating a Parallel Corpora for Turkish-English Academic Translations . Computer Science , 5th International Artificial Intelligence and Data Processing symposium , 335-340 . DOI: 10.53070/bbd.990959 |
|
|
|
|
|
|
|
|
|
|
|
```python |
|
checkpoint = "ilhami/Tr_En-MbartFinetune" |
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
|
tokenizer = AutoTokenizer.from_pretrained(checkpoint) |
|
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint).to("cuda") |
|
tokenizer.src_lang = "tr_TR" |
|
tr= ["Sohbet robotları son yıllarda yaygın bir şekilde kullanılmaya başlanmıştır. ", |
|
"İnsanları taklit eden ve daha iyi müşteri memnuniyeti sağlayan sohbet robotları en gelişkin doğal dil işleme tekniklerine ihtiyaç duymaktadır. ", |
|
"Bu çalışma sohbet robotu konuşmalarının niyet tahminini geliştirmeye odaklanmıştır." , |
|
"Kelime gösterimi için TF-IDF, Doc2vec ve BERT gibi geleneksel ve gelişmiş doğal dil işleme yöntemleri, çoklu sınıf ve çoklu etiket tahmini için ise lojistik regresyon, rastgele orman ve yapay sinir ağları kullanılmıştır." , |
|
"Sohbet robotu konuşma veri kümeleri, sinema bileti rezervasyonu, restoran rezervasyonu ve taksi çağırma olmak üzere üç farklı alandan alınmıştır. ", |
|
"Bu çalışmanın sonunda, BERT ve BERT ile TF-IDF birleşimi modellerin diğer kombinasyonlardan daha iyi sonuç verdiği görülmüştür. ", |
|
"BERT gibi ön eğitimli modellerden faydalanmanın daha iyi bağlamsal anlama sağladığı ortaya çıkmıştır. ", |
|
"TF-IDF yerleştirmeleri, BERT gösterimi ile birleştirilerek niyet kategorisi tahmininin iyileştirilmesi amaçlanmıştır."] |
|
encoded_tr = tokenizer(tr, return_tensors="pt" ,padding=True , truncation=True).to("cuda") |
|
generated_tokens = model.generate(**encoded_tr, forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"]) |
|
en = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True) |
|
``` |
|
|
|
|
|
|
|
|
|
|
|
|
|
|