prajdabre
/

CreoleM2M

Text2Text Generation

Transformers

PyTorch

mbart

Inference Endpoints

Model card Files Files and versions Community

prajdabre commited on Feb 5, 2023

Commit

9888e37

•

1 Parent(s): 1f83d09

Update README.md

Browse files

Files changed (1) hide show

README.md +9 -32

README.md CHANGED Viewed

@@ -6,56 +6,33 @@ Usage:
 from transformers import MBartForConditionalGeneration, AutoModelForSeq2SeqLM
 from transformers import AlbertTokenizer, AutoTokenizer
-tokenizer = AutoTokenizer.from_pretrained("prajdabre/IndicBART", do_lower_case=False, use_fast=False, keep_accents=True)
-# Or use tokenizer = AlbertTokenizer.from_pretrained("prajdabre/IndicBART", do_lower_case=False, use_fast=False, keep_accents=True)
-model = AutoModelForSeq2SeqLM.from_pretrained("prajdabre/IndicBART")
-# Or use model = MBartForConditionalGeneration.from_pretrained("prajdabre/IndicBART")
 # Some initial mapping
 bos_id = tokenizer._convert_token_to_id_with_added_voc("<s>")
 eos_id = tokenizer._convert_token_to_id_with_added_voc("</s>")
 pad_id = tokenizer._convert_token_to_id_with_added_voc("<pad>")
-# To get lang_id use any of ['<2as>', '<2bn>', '<2en>', '<2gu>', '<2hi>', '<2kn>', '<2ml>', '<2mr>', '<2or>', '<2pa>', '<2ta>', '<2te>']
-# First tokenize the input and outputs. The format below is how IndicBART was trained so the input should be "Sentence </s> <2xx>" where xx is the language code. Similarly, the output should be "<2yy> Sentence </s>".
-inp = tokenizer("I am a boy </s> <2en>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids # tensor([[  466,  1981,    80, 25573, 64001, 64004]])
-out = tokenizer("<2hi> मैं  एक लड़का हूँ </s>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids # tensor([[64006,   942,    43, 32720,  8384, 64001]])
-model_outputs=model(input_ids=inp, decoder_input_ids=out[:,0:-1], labels=out[:,1:])
-# For loss
-model_outputs.loss ## This is not label smoothed.
-# For logits
-model_outputs.logits
-# For generation. Pardon the messiness. Note the decoder_start_token_id.
 model.eval() # Set dropouts to zero
-model_output=model.generate(inp, use_cache=True, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2en>"))
 # Decode to get output strings
 decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
-print(decoded_output) # I am a boy
-# What if we mask?
-inp = tokenizer("I am [MASK] </s> <2en>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids
-model_output=model.generate(inp, use_cache=True, num_beams=4, max_length=20, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<2en>"))
-decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
-print(decoded_output) # I am happy
-```
 Notes:
 1. This is compatible with the latest version of transformers but was developed with version 4.3.2 so consider using 4.3.2 if possible.

 from transformers import MBartForConditionalGeneration, AutoModelForSeq2SeqLM
 from transformers import AlbertTokenizer, AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("prajdabre/CreoleM2M", do_lower_case=False, use_fast=False, keep_accents=True)
+# Or use tokenizer = AlbertTokenizer.from_pretrained("prajdabre/CreoleM2M", do_lower_case=False, use_fast=False, keep_accents=True)
+model = AutoModelForSeq2SeqLM.from_pretrained("prajdabre/CreoleM2M")
+# Or use model = MBartForConditionalGeneration.from_pretrained("prajdabre/CreoleM2M")
 # Some initial mapping
 bos_id = tokenizer._convert_token_to_id_with_added_voc("<s>")
 eos_id = tokenizer._convert_token_to_id_with_added_voc("</s>")
 pad_id = tokenizer._convert_token_to_id_with_added_voc("<pad>")
+# To get lang_id use any of ["<s>", "</s>", "<2acf>", "<2eng>", "<2bis>", "<2bzj>", "<2cbk>", "<2crs>", "<2djk>", "<2gul>", "<2hat>", "<2hwc>", "<2icr>", "<2jam>", "<2kri>", "<2ktu>", "<2mbf>", "<2mfe>", "<2mkn>", "<2pap>", "<2pcm>", "<2pis>", "<2rop>", "<2sag>", "<2srm>", "<2srn>", "<2tcs>", "<2tdt>", "<2tpi>"]
+# First tokenize the input and outputs. The format below is how CreoleM2M was trained so the input should be "Sentence </s> <2xxx>" where xxx is the language code. Similarly, the output should be "<2yyy> Sentence </s>".
+inp = tokenizer('Wen dey wen stretch him out fo whip him real hard , Paul wen tell da captain dat stay dea , “ Dis okay in da rules fo da Rome peopo ? fo you fo whip one guy dat get da same rights jalike da Rome peopo ? even one guy dat neva do notting wrong ? ' </s> <2hwc>", add_special_tokens=False, return_tensors="pt", padding=True).input_ids
 model.eval() # Set dropouts to zero
+model_output=model.generate(inp, use_cache=True, num_beams=4, max_length=60, min_length=1, early_stopping=True, pad_token_id=pad_id, bos_token_id=bos_id, eos_token_id=eos_id, decoder_start_token_id=tokenizer._convert_token_to_id_with_added_voc("<eng>"))
 # Decode to get output strings
 decoded_output=tokenizer.decode(model_output[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
+print(decoded_output)
 Notes:
 1. This is compatible with the latest version of transformers but was developed with version 4.3.2 so consider using 4.3.2 if possible.