Model Description

This is a Khmer Language fill masked build on top of pre-trained model of FacebookAI/xlm-roberta-base. This model is fine-tunned with around 26K+ khmer sentences/clauses (80% for training set & 20% for validation set). This model is perform well with Khmer Language ONLY.

Model Usage

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='channudam/khmer-xlm-roberta-base')
>>> unmasker("អាកាសធាតុក្ដៅខ្លាំង ចូរអ្នកផឹក<mask>ឲ្យបានច្រើន។")

[
  {
    'score': 0.9788032174110413,
    'token': 41440,
    'token_str': 'ទឹក',
    'sequence': 'អាកាសធាតុក្ដៅខ្លាំង ចូរអ្នកផឹកទឹក ឲ្យបានច្រើន។'
  },
  {
    'score': 0.012485685758292675,
    'token': 191670,
    'token_str': 'ស្រា',
    'sequence': 'អាកាសធាតុក្ដៅខ្លាំង ចូរអ្នកផឹកស្រា ឲ្យបានច្រើន។'
  },
  {
    'score': 0.0014946138253435493,
    'token': 162483,
    'token_str': 'បាយ',
    'sequence': 'អាកាសធាតុក្ដៅខ្លាំង ចូរអ្នកផឹកបាយ ឲ្យបានច្រើន។'
  },
  {
    'score': 0.001305083278566599,
    'token': 49245,
    'token_str': 'ស៊ី',
    'sequence': 'អាកាសធាតុក្ដៅខ្លាំង ចូរអ្នកផឹកស៊ី ឲ្យបានច្រើន។'
  },
  {
    'score': 0.0007108347490429878,
    'token': 51863,
    'token_str': 'ទឹក',
    'sequence': 'អាកាសធាតុក្ដៅខ្លាំង ចូរអ្នកផឹក ទឹក ឲ្យបានច្រើន។'
  }
]