Check
/

vaw2tmp

nguyenvulebinh commited on Aug 18, 2021

Commit

58c3693

1 Parent(s): 5021159

add random print sample when eval

Files changed (1) hide show

main.py CHANGED Viewed

@@ -140,7 +140,7 @@ if __name__ == "__main__":
         train_dataset_shard_idx = epoch_idx % num_train_shards
         # Get test shard depend on train shard id
         test_dataset_shard_idx = round(train_dataset_shard_idx / (num_train_shards / num_test_shards))
-        num_test_sub_shard = 1000  # Split test shard into subset. Default is 8
         idx_sub_shard = train_dataset_shard_idx % num_test_sub_shard  # loop over test shard subset
         # load train shard
@@ -150,7 +150,7 @@ if __name__ == "__main__":
                                               cache_file_name=os.path.join(cache_processing_dataset_folder, 'train',
                                                                            'cache-train-shard-{}.arrow'.format(
                                                                                train_dataset_shard_idx))
-                                              ).shard(1000, 0)  # Remove shard split when train
         # load test shard subset
         test_dataset = load_prepared_dataset(os.path.join(test_dataset_root_folder,
                                                           'shard_{}'.format(test_dataset_shard_idx)),

         train_dataset_shard_idx = epoch_idx % num_train_shards
         # Get test shard depend on train shard id
         test_dataset_shard_idx = round(train_dataset_shard_idx / (num_train_shards / num_test_shards))
+        num_test_sub_shard = 8  # Split test shard into subset. Default is 8
         idx_sub_shard = train_dataset_shard_idx % num_test_sub_shard  # loop over test shard subset
         # load train shard
                                               cache_file_name=os.path.join(cache_processing_dataset_folder, 'train',
                                                                            'cache-train-shard-{}.arrow'.format(
                                                                                train_dataset_shard_idx))
+                                              ) #.shard(1000, 0)  # Remove shard split when train
         # load test shard subset
         test_dataset = load_prepared_dataset(os.path.join(test_dataset_root_folder,
                                                           'shard_{}'.format(test_dataset_shard_idx)),