fireballoon
/

baichuan-vicuna-7b

@@ -7,7 +7,7 @@ replace_llama_attn_with_flash_attn()
 import json
 from torch.utils.data import Dataset
 from accelerate import Accelerator
-from transformers import AutoModelForCausalLM, AutoTokenizer, AdamW
 import torch
 from torch.nn.utils.rnn import pad_sequence
 from tqdm import tqdm
@@ -79,6 +79,12 @@ def safe_ids(ids, max_value, pad_id):
     return [i if i < max_value else pad_id for i in ids]
 def tokenize(messages, tokenizer):
     roles = {"user": "USER", "assistant": "ASSISTANT"}
     input_ids = []
@@ -95,23 +101,28 @@ def tokenize(messages, tokenizer):
         if role == 'ASSISTANT':
             content += '</s>'
         role_ids = tokenizer.encode(role + ":", add_special_tokens=False)
-        content_ids = tokenizer.encode(content, add_special_tokens=False, truncation=True, max_length=2048)
         input_ids += role_ids + content_ids
         if role == 'ASSISTANT':
             labels += [IGNORE_TOKEN_ID] * len(role_ids) + content_ids
         else:
             labels += [IGNORE_TOKEN_ID] * (len(role_ids) + len(content_ids))
-    input_ids = input_ids[:4096]
-    labels = labels[:4096]
-    trunc_id = last_index(labels, -100) + 1
     input_ids = input_ids[:trunc_id]
     labels = labels[:trunc_id]
     if len(labels) == 0:
-        input_ids, labels = [0, 0], [-100, -100]
-    input_ids = safe_ids(input_ids, 64000, 0)
-    labels = safe_ids(labels, 64000, -100)
     return input_ids, labels
@@ -131,7 +142,7 @@ class VicunaData(Dataset):
     def collate_fn(self, data):
         input_ids, labels = zip(*data)
         input_ids = pad_sequence(input_ids, batch_first=True, padding_value=self.tokenizer.pad_token_id)
-        labels = pad_sequence(labels, batch_first=True, padding_value=-100)
         attention_mask = input_ids.ne(self.tokenizer.pad_token_id)
         features = {
             'input_ids': input_ids.long(),
@@ -142,11 +153,11 @@ class VicunaData(Dataset):
 def main():
-    accelerator = Accelerator(gradient_accumulation_steps=8)
     batch_size = 4
     save_path = 'out/baichuan-vicuna-7b'
-    model_name = './models/baichuan-llama-7b'
     tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False, padding_side="right", model_max_length=4096)
     tokenizer.pad_token = tokenizer.unk_token
@@ -155,12 +166,10 @@ def main():
     model.config.use_cache = False
     model.gradient_checkpointing_enable()
-    share_gpt = VicunaData(json.load(open('data/new/share_gpt-90k.json')), tokenizer)
-    instruction = VicunaData(json.load(open('data/new/cot-75k.json')), tokenizer)
-    code = VicunaData(json.load(open('data/new/leet-9k.json')), tokenizer)
-    dataset = MixData([share_gpt, instruction, code],
-                     [len(share_gpt), len(instruction), len(code)], tokenizer)
     print(len(dataset))
@@ -178,17 +187,8 @@ def main():
         loss_report = []
         for batch in tk0:
             with accelerator.accumulate(model):
-                try:
-                    out = model(**batch)
-                    loss = out.loss
-                except:
-                    loss = torch.tensor(0., device=model.device, requires_grad=True)
-                if loss.isnan():
-                    print(loss)
-                    print(batch)
-                    loss = torch.tensor(0., device=model.device, requires_grad=True)
                 accelerator.backward(loss)
                 accelerator.clip_grad_norm_(model.parameters(), 1.)
@@ -197,11 +197,9 @@ def main():
                 loss_report.append(accelerator.gather(loss).mean().item())
             tk0.set_postfix(loss=sum(loss_report[-100:]) / len(loss_report[-100:]))
         accelerator.wait_for_everyone()
         model.save_checkpoint(f'{save_path}/{epoch}')
 if __name__ == '__main__':
     main()

 import json
 from torch.utils.data import Dataset
 from accelerate import Accelerator
+from transformers import AutoModelForCausalLM, AutoConfig, AutoTokenizer, AdamW
 import torch
 from torch.nn.utils.rnn import pad_sequence
 from tqdm import tqdm
     return [i if i < max_value else pad_id for i in ids]
+dummy_message = [{"role": "user", "content": "Who are you?"},
+                 {"role": "assistant", "content": "I am vicuna, a language model trained by researchers from open-source community."},
+                 {"role": "user", "content": "What can you do?"},
+                 {"role": "assistant", "content": "I can chat with you."}]
 def tokenize(messages, tokenizer):
     roles = {"user": "USER", "assistant": "ASSISTANT"}
     input_ids = []
         if role == 'ASSISTANT':
             content += '</s>'
         role_ids = tokenizer.encode(role + ":", add_special_tokens=False)
+        content_ids = tokenizer.encode(content, add_special_tokens=False, truncation=True,
+                                       max_length=tokenizer.model_max_length)
         input_ids += role_ids + content_ids
         if role == 'ASSISTANT':
             labels += [IGNORE_TOKEN_ID] * len(role_ids) + content_ids
         else:
             labels += [IGNORE_TOKEN_ID] * (len(role_ids) + len(content_ids))
+    if tokenizer.add_bos_token:
+        input_ids = [tokenizer.bos_token_id] + input_ids
+        labels = [IGNORE_TOKEN_ID] + labels
+    input_ids = input_ids[:tokenizer.model_max_length]
+    labels = labels[:tokenizer.model_max_length]
+    trunc_id = last_index(labels, IGNORE_TOKEN_ID) + 1
     input_ids = input_ids[:trunc_id]
     labels = labels[:trunc_id]
     if len(labels) == 0:
+        return tokenize(dummy_message, tokenizer)
+    input_ids = safe_ids(input_ids, tokenizer.vocab_size, tokenizer.pad_token_id)
+    labels = safe_ids(labels, tokenizer.vocab_size, IGNORE_TOKEN_ID)
     return input_ids, labels
     def collate_fn(self, data):
         input_ids, labels = zip(*data)
         input_ids = pad_sequence(input_ids, batch_first=True, padding_value=self.tokenizer.pad_token_id)
+        labels = pad_sequence(labels, batch_first=True, padding_value=IGNORE_TOKEN_ID)
         attention_mask = input_ids.ne(self.tokenizer.pad_token_id)
         features = {
             'input_ids': input_ids.long(),
 def main():
+    accelerator = Accelerator(gradient_accumulation_steps=4)
     batch_size = 4
     save_path = 'out/baichuan-vicuna-7b'
+    model_name = 'fireballoon/baichuan-llama-7b'
     tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False, padding_side="right", model_max_length=4096)
     tokenizer.pad_token = tokenizer.unk_token
     model.config.use_cache = False
     model.gradient_checkpointing_enable()
+    dataset = VicunaData(
+        json.load(open('data/new/share_gpt-90k.json')) +
+        json.load(open('data/new/cot-75k.json')) +
+        json.load(open('data/new/leet-9k.json')), tokenizer)
     print(len(dataset))
         loss_report = []
         for batch in tk0:
             with accelerator.accumulate(model):
+                out = model(**batch)
+                loss = out.loss
                 accelerator.backward(loss)
                 accelerator.clip_grad_norm_(model.parameters(), 1.)
                 loss_report.append(accelerator.gather(loss).mean().item())
             tk0.set_postfix(loss=sum(loss_report[-100:]) / len(loss_report[-100:]))
         accelerator.wait_for_everyone()
         model.save_checkpoint(f'{save_path}/{epoch}')
 if __name__ == '__main__':
     main()