Spaces:

jesseplusplus
/

easy-translate

Running

Iker commited on Sep 1, 2022

Commit

5bd7f14

1 Parent(s): 011cb1f

Manually calculate dataloader len

Files changed (1) hide show

translate.py CHANGED Viewed

@@ -1,15 +1,22 @@
 from transformers import (
     AutoModelForSeq2SeqLM,
     AutoTokenizer,
     PreTrainedTokenizerBase,
     DataCollatorForSeq2Seq,
 )
-from tqdm import tqdm
-import argparse
-import torch
-from torch.utils.data import DataLoader
 from dataset import DatasetReader, count_lines
-import os
 from accelerate import Accelerator, DistributedType
 from accelerate.memory_utils import find_executable_batch_size
@@ -183,7 +190,14 @@ def main(
                         generated_tokens, skip_special_tokens=True
                     )
                     if accelerator.is_main_process:
-                        if step == len(data_loader) - 1:
                             tgt_text = tgt_text[
                                 : (total_lines * num_return_sequences) - samples_seen
                             ]

+import os
+import math
+import argparse
+import torch
+from torch.utils.data import DataLoader
+from tqdm import tqdm
 from transformers import (
     AutoModelForSeq2SeqLM,
     AutoTokenizer,
     PreTrainedTokenizerBase,
     DataCollatorForSeq2Seq,
 )
 from dataset import DatasetReader, count_lines
 from accelerate import Accelerator, DistributedType
 from accelerate.memory_utils import find_executable_batch_size
                         generated_tokens, skip_special_tokens=True
                     )
                     if accelerator.is_main_process:
+                        if (
+                            step
+                            == math.ceil(
+                                math.ceil(total_lines / batch_size)
+                                / accelerator.num_processes
+                            )
+                            - 1
+                        ):
                             tgt_text = tgt_text[
                                 : (total_lines * num_return_sequences) - samples_seen
                             ]