Edit model card

Pretrain with corpus from vietnews and trained with more than 200 ebook-pairs, TED talks and OpenSubtitles

Epoch Training Loss Validation Loss Bleu Gen Len
1 No log 0.222610 25.757700 15.431200

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

checkpoint = "trungnguyentran/t5-base-en2vi"

tokenizer = AutoTokenizer.from_pretrained(checkpoint, device_map="auto")
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, device_map="auto")

inputs = ['However, natural intelligence is not limited to just a single modality. Humans can read and write text. We can see images and watch videos. We listen to music to relax and watch out for strange noises to detect danger. Being able to work with multimodal data is essential for us or any AI to operate in the real world.',
          'Not all multimodal systems are LMMs. For example, text-to-image models like Midjourney, Stable Diffusion, and Dall-E are multimodal but don’t have a language model component. Multimodal can mean one or more of the following:',
          "A question that I’ve been asked a lot recently is how large language models (LLMs) will change machine learning workflows."]

outputs = model.generate(tokenizer(inputs, return_tensors="pt", padding=True).input_ids, max_length=512)
tokenizer.batch_decode(outputs, skip_special_tokens=True)
# 'Tuy nhiên, trí thông minh tự nhiên không chỉ giới hạn ở một phương thức duy nhất. Con người có thể đọc và viết văn bản. Chúng ta có thể nhìn hình ảnh và xem video. Chúng ta nghe nhạc để thư giãn và theo dõi những tiếng ồn lạ lùng để phát hiện nguy hiểm. Có thể làm việc với dữ liệu đa phương thức là điều cần thiết cho chúng ta hoặc bất kỳ AI nào để hoạt động trong thế giới thực.',
# 'Không phải tất cả các hệ thống đa phương thức đều là các LMM. Ví dụ, các mô hình văn bản đến hình ảnh như Midjourney, Stable Diffusion và Dall-E là đa phương thức nhưng không có thành phần mô hình ngôn ngữ.',
# 'Câu hỏi mà tôi được hỏi rất nhiều gần đây là các mô hình ngôn ngữ lớn (LLM) sẽ thay đổi quy trình học máy như thế nào.'
Downloads last month
13

Space using trungnguyentran/t5-base-en2vi 1