Retrained XLM-RoBERTa with Social Media Data

XLM-RoBERTa [1] base model retrained in simpletransformers with social media language data from the Global Corpus of Language Use [2].

Dialect	n
Australia	25,000
Canada	25,000
Ireland	25,000
New Zealand	25,000
United Kingdom	25,000
United States of America	25,000

Random sample with replacement for text produced between 2022-05-16 and 2023-06-05.


def retrain_xlmroberta():

  import pandas as pd
  import os
  from simpletransformers.language_modeling import LanguageModelingModel

  train_file = "retrain/train.txt"
  test_file = "retrain/test.txt"

  model_args = {
      "reprocess_input_data":True,
      "overwrite_output_dir":True,
      "output_dir":f"xlm-roberta-lm",
      "best_model_dir":f"xlm-roberta-lm/best_model",
      "manual_seed":42,
      "evaluate_during_training":True,
      "evaluate_during_training_steps":500,
      "num_train_epochs":8,
      "dataset_type":"simple",
      "use_multiprocessing":False,
      "use_multiprocessing_for_evaluation":False
      }

  model = LanguageModelingModel(
      "xlmroberta",
      "xlm-roberta-base",
      args=model_args,
      use_cuda=True,
      train_files=train_file
  )

  model.train_model(train_file, eval_file=test_file)

References

[1] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm ́an, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. 2020. Unsupervised Cross-lingual Representation Learning at Scale. ArXiv:1911.02116 [cs].

[2] Jonathan Dunn. 2020. Mapping languages: the Corpus of Global Language Use. Language Resources and Evaluation, 54(4):999–1018.