vivek-307306
/

m2m100_418M-ja

text2text-generation

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

m2m100_418M-ja / README.md

vivek-307306's picture

update model card README.md

d5dc7a8 over 1 year ago

|

history blame contribute delete

4.62 kB

	---
	license: mit
	tags:
	- translation
	- generated_from_trainer
	datasets:
	- kde4
	metrics:
	- bleu
	model-index:
	- name: m2m100_418M-ja
	results:
	- task:
	name: Sequence-to-sequence Language Modeling
	type: text2text-generation
	dataset:
	name: kde4
	type: kde4
	config: en-ja
	split: train
	args: en-ja
	metrics:
	- name: Bleu
	type: bleu
	value: 0.0
	---

	<!-- This model card has been generated automatically according to the information the Trainer had access to. You
	should probably proofread and complete it, then remove this comment. -->

	# m2m100_418M-ja

	This model is a fine-tuned version of [facebook/m2m100_418M](https://huggingface.co/facebook/m2m100_418M) on the kde4 dataset.
	It achieves the following results on the evaluation set:
	- Loss: nan
	- Bleu: 0.0

	## Model description

	More information needed

	## Intended uses & limitations

	More information needed

	## Training and evaluation data

	More information needed

	## Training procedure

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 0.002
	- train_batch_size: 2
	- eval_batch_size: 2
	- seed: 42
	- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
	- lr_scheduler_type: linear
	- num_epochs: 50
	- mixed_precision_training: Native AMP

	### Training results

	\| Training Loss \| Epoch \| Step \| Validation Loss \| Bleu \|
	\|:-------------:\|:-----:\|:-------:\|:---------------:\|:----:\|
	\| 0.0 \| 1.0 \| 59084 \| nan \| 0.0 \|
	\| 0.0 \| 2.0 \| 118168 \| nan \| 0.0 \|
	\| 0.0 \| 3.0 \| 177252 \| nan \| 0.0 \|
	\| 0.0 \| 4.0 \| 236336 \| nan \| 0.0 \|
	\| 0.0 \| 5.0 \| 295420 \| nan \| 0.0 \|
	\| 0.0 \| 6.0 \| 354504 \| nan \| 0.0 \|
	\| 0.0 \| 7.0 \| 413588 \| nan \| 0.0 \|
	\| 0.0 \| 8.0 \| 472672 \| nan \| 0.0 \|
	\| 0.0 \| 9.0 \| 531756 \| nan \| 0.0 \|
	\| 0.0 \| 10.0 \| 590840 \| nan \| 0.0 \|
	\| 0.0 \| 11.0 \| 649924 \| nan \| 0.0 \|
	\| 0.0 \| 12.0 \| 709008 \| nan \| 0.0 \|
	\| 0.0 \| 13.0 \| 768092 \| nan \| 0.0 \|
	\| 0.0 \| 14.0 \| 827176 \| nan \| 0.0 \|
	\| 0.0 \| 15.0 \| 886260 \| nan \| 0.0 \|
	\| 0.0 \| 16.0 \| 945344 \| nan \| 0.0 \|
	\| 0.0 \| 17.0 \| 1004428 \| nan \| 0.0 \|
	\| 0.0 \| 18.0 \| 1063512 \| nan \| 0.0 \|
	\| 0.0 \| 19.0 \| 1122596 \| nan \| 0.0 \|
	\| 0.0 \| 20.0 \| 1181680 \| nan \| 0.0 \|
	\| 0.0 \| 21.0 \| 1240764 \| nan \| 0.0 \|
	\| 0.0 \| 22.0 \| 1299848 \| nan \| 0.0 \|
	\| 0.0 \| 23.0 \| 1358932 \| nan \| 0.0 \|
	\| 0.0 \| 24.0 \| 1418016 \| nan \| 0.0 \|
	\| 0.0 \| 25.0 \| 1477100 \| nan \| 0.0 \|
	\| 0.0 \| 26.0 \| 1536184 \| nan \| 0.0 \|
	\| 0.0 \| 27.0 \| 1595268 \| nan \| 0.0 \|
	\| 0.0 \| 28.0 \| 1654352 \| nan \| 0.0 \|
	\| 0.0 \| 29.0 \| 1713436 \| nan \| 0.0 \|
	\| 0.0 \| 30.0 \| 1772520 \| nan \| 0.0 \|
	\| 0.0 \| 31.0 \| 1831604 \| nan \| 0.0 \|
	\| 0.0 \| 32.0 \| 1890688 \| nan \| 0.0 \|
	\| 0.0 \| 33.0 \| 1949772 \| nan \| 0.0 \|
	\| 0.0 \| 34.0 \| 2008856 \| nan \| 0.0 \|
	\| 0.0 \| 35.0 \| 2067940 \| nan \| 0.0 \|
	\| 0.0 \| 36.0 \| 2127024 \| nan \| 0.0 \|
	\| 0.0 \| 37.0 \| 2186108 \| nan \| 0.0 \|
	\| 0.0 \| 38.0 \| 2245192 \| nan \| 0.0 \|
	\| 0.0 \| 39.0 \| 2304276 \| nan \| 0.0 \|
	\| 0.0 \| 40.0 \| 2363360 \| nan \| 0.0 \|
	\| 0.0 \| 41.0 \| 2422444 \| nan \| 0.0 \|
	\| 0.0 \| 42.0 \| 2481528 \| nan \| 0.0 \|
	\| 0.0 \| 43.0 \| 2540612 \| nan \| 0.0 \|
	\| 0.0 \| 44.0 \| 2599696 \| nan \| 0.0 \|
	\| 0.0 \| 45.0 \| 2658780 \| nan \| 0.0 \|
	\| 0.0 \| 46.0 \| 2717864 \| nan \| 0.0 \|
	\| 0.0 \| 47.0 \| 2776948 \| nan \| 0.0 \|
	\| 0.0 \| 48.0 \| 2836032 \| nan \| 0.0 \|
	\| 0.0 \| 49.0 \| 2895116 \| nan \| 0.0 \|
	\| 0.0 \| 50.0 \| 2954200 \| nan \| 0.0 \|


	### Framework versions

	- Transformers 4.27.4
	- Pytorch 2.0.0+cu118
	- Datasets 2.11.0
	- Tokenizers 0.13.2