Transformers documentation

النماذج متعددة اللغات للاستدلال

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

النماذج متعددة اللغات للاستدلال

هناك العديد من النماذج متعددة اللغات في مكتبة 🤗 Transformers، وتختلف طريقة استخدامها للاستدلال عن النماذج أحادية اللغة. ولكن ليس كل استخدام النماذج متعددة اللغات مختلف. فبعض النماذج، مثل google-bert/bert-base-multilingual-uncased، يمكن استخدامها تمامًا مثل النموذج أحادي اللغة. سيوضح لك هذا الدليل كيفية استخدام النماذج متعددة اللغات التي تختلف طريقة استخدامها للاستدلال.

XLM

يحتوي XLM على عشر نسخ مختلفة، واحدة منها فقط أحادية اللغة. ويمكن تقسيم نسخ النماذج التسع المتبقية إلى فئتين: نسخ التي تستخدم تضمينات اللغة (language embeddings) وتلك التي لا تستخدمها.

XLM مع تضمينات اللغة

تستخدم النماذج التالية من XLM تضمينات اللغة لتحديد اللغة المستخدمة أثناء الاستدلال:

  • FacebookAI/xlm-mlm-ende-1024 (نمذجة اللغة المقنعة، الإنجليزية-الألمانية)
  • FacebookAI/xlm-mlm-enfr-1024 (نمذجة اللغة المقنعة، الإنجليزية-الفرنسية)
  • FacebookAI/xlm-mlm-enro-1024 (نمذجة اللغة المقنعة، الإنجليزية-الرومانية)
  • FacebookAI/xlm-mlm-xnli15-1024 (نمذجة اللغة المقنعة، لغات XNLI)
  • FacebookAI/xlm-mlm-tlm-xnli15-1024 (نمذجة اللغة المقنعة + الترجمة، لغات XNLI)
  • FacebookAI/xlm-clm-enfr-1024 (نمذجة اللغة السببية، الإنجليزية-الفرنسية)
  • FacebookAI/xlm-clm-ende-1024 (نمذجة اللغة السببية، الإنجليزية-الألمانية)

تُمثل تضمينات اللغة على شكل مصفوفة بنفس شكل input_ids التي يتم تمريره إلى النموذج. وتعتمد القيم في هذه المصفوفات على اللغة المستخدمة ويتم تحديدها بواسطة معاملى المجزىء lang2id و id2lang.

في هذا المثال، قم بتحميل نسخة FacebookAI/xlm-clm-enfr-1024 ( نمذجة اللغة السببية، الإنجليزية-الفرنسية):

>>> import torch
>>> from transformers import XLMTokenizer, XLMWithLMHeadModel

>>> tokenizer = XLMTokenizer.from_pretrained("FacebookAI/xlm-clm-enfr-1024")
>>> model = XLMWithLMHeadModel.from_pretrained("FacebookAI/xlm-clm-enfr-1024")

تُظهر خاصية lang2id في المجزىء اللغات وأرقام تعريفها في هذا النموذج:

>>> print(tokenizer.lang2id)
{'en': 0, 'fr': 1}

بعد ذلك، قم بإنشاء مثال على المدخلات:

>>> input_ids = torch.tensor([tokenizer.encode("Wikipedia was used to")])  # batch size of 1

قم بتعيين معرف اللغة إلى "en" واستخدمه لتحديد تضمين اللغة. وتضمين اللغة عبارة عن مصفوفة مملوءة بـ 0 لأن هذا هو معرف اللغة الإنجليزية. يجب أن تكون هذه المصفوفة بنفس حجم input_ids.

>>> language_id = tokenizer.lang2id["en"]  # 0
>>> langs = torch.tensor([language_id] * input_ids.shape[1])  # torch.tensor([0, 0, 0, ..., 0])

>>> # نقوم بإعادة تشكيلها لتكون بالحجم (batch_size، sequence_length)
>>> langs = langs.view(1, -1)  # الآن بالحجم [1، sequence_length] (لدينا batch size تساوي 1)

الآن يمكنك تمرير input_ids وتضمين اللغة إلى النموذج:

>>> outputs = model(input_ids, langs=langs)

يمكن لنص البرنامج النصي run_generation.py توليد النص باستخدام تضمينات اللغة مع نقاط تفتيش xlm-clm.

XLM بدون تضمينات اللغة

النماذج التالية من XLM لا تتطلب تضمينات اللغة أثناء الاستنتاج:

  • FacebookAI/xlm-mlm-17-1280 (نمذجة اللغة المقنعة، 17 لغة)
  • FacebookAI/xlm-mlm-100-1280 (نمذجة اللغة المقنعة، 100 لغة)

تُستخدم هذه النماذج لتمثيل الجمل العامة، على عكس نسح XLM السابقة.

BERT

يمكن استخدام النماذج التالية من BERT للمهام متعددة اللغات:

  • google-bert/bert-base-multilingual-uncased (نمذجة اللغة المقنعة + التنبؤ بالجملة التالية، 102 لغة)
  • google-bert/bert-base-multilingual-cased (نمذجة اللغة المقنعة + التنبؤ بالجملة التالية، 104 لغات)

لا تتطلب هذه النماذج تضمينات اللغة أثناء الاستدلال. يجب أن تُحدّد اللغة من السياق وتستنتج وفقاً لذلك.

XLM-RoBERTa

يمكن استخدام النماذج التالية من XLM-RoBERTa للمهام متعددة اللغات:

  • FacebookAI/xlm-roberta-base (نمذجة اللغة المقنعة، 100 لغة)
  • FacebookAI/xlm-roberta-large (نمذجة اللغة المقنعة، 100 لغة)

تم تدريب XLM-RoBERTa على 2.5 تيرابايت من بيانات CommonCrawl الجديدة والمحسنة في 100 لغة. ويوفر مكاسب قوية على النماذج متعددة اللغات التي تم إصدارها سابقاً مثل mBERT أو XLM في مهام المصب مثل التصنيف، ووضع العلامات التسلسلية، والأسئلة والأجوبة.

M2M100

يمكن استخدام النماذج التالية من M2M100 للترجمة متعددة اللغات:

  • facebook/m2m100_418M (الترجمة)
  • facebook/m2m100_1.2B (الترجمة)

في هذا المثال، قم بتحميل نسحة facebook/m2m100_418M لترجمة النص من الصينية إلى الإنجليزية. يمكنك تعيين اللغة المصدر في المجزىء اللغوى:

>>> from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

>>> en_text = "Do not meddle in the affairs of wizards, for they are subtle and quick to anger."
>>> chinese_text = "不要插手巫師的事務, 因為他們是微妙的, 很快就會發怒."

>>> tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_418M", src_lang="zh")
>>> model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_418M")

تقسيم النّص إلى رموز:

>>> encoded_zh = tokenizer(chinese_text, return_tensors="pt")

يجبر M2M100 معرف اللغة الهدف كأول رمز مولد للترجمة إلى اللغة الهدف. قم بتعيين forced_bos_token_id إلى en في طريقة generate للترجمة إلى الإنجليزية:

>>> generated_tokens = model.generate(**encoded_zh, forced_bos_token_id=tokenizer.get_lang_id("en"))
>>> tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
'Do not interfere with the matters of the witches, because they are delicate and will soon be angry.'

MBart

يمكن استخدام النماذج التالية من MBart للترجمة متعددة اللغات:

  • facebook/mbart-large-50-one-to-many-mmt (الترجمة الآلية متعددة اللغات من واحد إلى كثير، 50 لغة)
  • facebook/mbart-large-50-many-to-many-mmt (الترجمة الآلية متعددة اللغات من كثير إلى كثير، 50 لغة)
  • facebook/mbart-large-50-many-to-one-mmt (الترجمة الآلية متعددة اللغات من كثير إلى واحد، 50 لغة)
  • facebook/mbart-large-50 (الترجمة متعددة اللغات، 50 لغة)
  • facebook/mbart-large-cc25

في هذا المثال، قم بتحميل نسخة facebook/mbart-large-50-many-to-many-mmt لترجمة النص من الفنلندية إلى الإنجليزية. يمكنك تعيين اللغة المصدر في المجزىء:

>>> from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

>>> en_text = "Do not meddle in the affairs of wizards, for they are subtle and quick to anger."
>>> fi_text = "Älä sekaannu velhojen asioihin, sillä ne ovat hienovaraisia ja nopeasti vihaisia."

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/mbart-large-50-many-to-many-mmt", src_lang="fi_FI")
>>> model = AutoModelForSeq2SeqLM.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")

تقسيم النّص إلى رموز:

>>> encoded_en = tokenizer(en_text, return_tensors="pt")

يجبر MBart معرف لغة الهدف كأول رمز مولد للترجمة إلى اللغة الهدف. قم بتعيين forced_bos_token_id إلى en في طريقة generate للترجمة إلى الإنجليزية:

>>> generated_tokens = model.generate(**encoded_en, forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"])
>>> tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
"Don't interfere with the wizard's affairs, because they are subtle, will soon get angry."

إذا كنت تستخدم نسخة facebook/mbart-large-50-many-to-one-mmt، فلا تحتاج إلى إجبار معرف لغة الهدف كأول رمز مولد، وإلا فإن الاستخدام هو نفسه.

< > Update on GitHub