supawichwac commited on May 8

Commit

f544a5d

•

1 Parent(s): 12b47c1

Saving train state of step 5

Browse files

Files changed (25) hide show

checkpoint-5-epoch-0/model.safetensors +3 -0
checkpoint-5-epoch-0/model_1.safetensors +3 -0
checkpoint-5-epoch-0/optimizer.bin +3 -0
checkpoint-5-epoch-0/random_states_0.pkl +3 -0
checkpoint-5-epoch-0/scheduler.bin +3 -0
distil-whisper/events.out.tfevents.1715073979.server02.1433788.0 +3 -0
distil-whisper/events.out.tfevents.1715074029.server02.1434198.0 +3 -0
distil-whisper/events.out.tfevents.1715095796.server02.1514457.0 +3 -0
distil-whisper/events.out.tfevents.1715137750.server02.1659182.0 +3 -0
distil-whisper/events.out.tfevents.1715142860.server02.1688240.0 +3 -0
distil-whisper/events.out.tfevents.1715144009.server02.1717420.0 +3 -0
distil-whisper/events.out.tfevents.1715144142.server02.1721266.0 +3 -0
distil-whisper/events.out.tfevents.1715144248.server02.1724677.0 +3 -0
distil-whisper/events.out.tfevents.1715144329.server02.1726964.0 +3 -0
distil-whisper/events.out.tfevents.1715144689.server02.1736871.0 +3 -0
distil-whisper/events.out.tfevents.1715144766.server02.1739137.0 +3 -0
distil-whisper/events.out.tfevents.1715145134.server02.1748391.0 +3 -0
distil-whisper/events.out.tfevents.1715152989.server02.1776687.0 +3 -0
distil-whisper/events.out.tfevents.1715153425.server02.1778557.0 +3 -0
distil-whisper/events.out.tfevents.1715153634.server02.1779609.0 +3 -0
distil-whisper/events.out.tfevents.1715153723.server02.1780155.0 +3 -0
distil-whisper/events.out.tfevents.1715154461.server02.1782973.0 +3 -0
distil-whisper/events.out.tfevents.1715160495.server02.1805047.0 +3 -0
run_distillation.py +36 -8
test_partial_function.py +41 -0

checkpoint-5-epoch-0/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a21e3711ac40e9335e1f3f3996f60b973cd257c3f524366cf6b834e59d49f13
+size 3025686376

checkpoint-5-epoch-0/model_1.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b395c8a7e2bda655c415580106288d0387c227efd641bf4e11c1cd735fdb37a
+size 4361070048

checkpoint-5-epoch-0/optimizer.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d29f0667d7e38b9abb98596a5a9348d8f95ae4e4a7715159e01a41ac9d2f620
+size 955539578

checkpoint-5-epoch-0/random_states_0.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85d573cec64fffbd3f22840ac5142a2d5238117a2d0f909e2a3a64155fe22435
+size 14344

checkpoint-5-epoch-0/scheduler.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61c54c0f7915329263989409611568f153678f74fb6fe4366f23ad24844d158f
+size 1064

distil-whisper/events.out.tfevents.1715073979.server02.1433788.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5acad6483f543c7a7c6c1db549ee743b5cd298b504a7d47ab30b9f233fb919c4
+size 88

distil-whisper/events.out.tfevents.1715074029.server02.1434198.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b67893905a27526433ed6485bb3eaffe1e82b3c7da45cbaa27d9266c53433144
+size 88

distil-whisper/events.out.tfevents.1715095796.server02.1514457.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:979ff30080df67a4dcab044cf870600f43073d71992160952446f78b19dcf897
+size 88

distil-whisper/events.out.tfevents.1715137750.server02.1659182.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c806ece5e794b1027c129222cdd44b22a92e26332c899a6e4dc8583f757f7dc
+size 88

distil-whisper/events.out.tfevents.1715142860.server02.1688240.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e1d8a8e923945bfdcb5f29a077c4f7009484ae9a917bf9ea970492efde3c5aa
+size 88

distil-whisper/events.out.tfevents.1715144009.server02.1717420.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4825318ef78b792ae93dc0cd60918637895c9833607e1918cfad58d83bff016
+size 88

distil-whisper/events.out.tfevents.1715144142.server02.1721266.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:980b48300850fc0e5190e9466fd1749a1ed461b5ff2fe918d3e3dfb3644625ef
+size 88

distil-whisper/events.out.tfevents.1715144248.server02.1724677.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bdc23e6b0151e29c67e9069845f1218f686f7667fe3f3bdd1663eea19240cc6
+size 88

distil-whisper/events.out.tfevents.1715144329.server02.1726964.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:551fe2b2ff53ab0e30742564ca1935299589000ee897fb65612d7706002e701c
+size 88

distil-whisper/events.out.tfevents.1715144689.server02.1736871.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:631771d076472b08d53a7585ff812de4dd8e4e500b011da3a34c74ea6cc65d33
+size 88

distil-whisper/events.out.tfevents.1715144766.server02.1739137.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57ce892831e97b587c4573c575dc1ba0e11317517f0b5e3ba4b41822d4eea0e6
+size 88

distil-whisper/events.out.tfevents.1715145134.server02.1748391.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89c5cccd2e339637b9564d94fb6abf49e6dcd9e481292d4d12deaa5367ac49bb
+size 88

distil-whisper/events.out.tfevents.1715152989.server02.1776687.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02fc9bf530ac7fe72cc27f5be66569b22a8d0f20634adea1ffd8b9b8e084cefe
+size 88

distil-whisper/events.out.tfevents.1715153425.server02.1778557.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f66ee5f168a300d24bffa01d463604a5486270b89177b5579501bd69da02f864
+size 88

distil-whisper/events.out.tfevents.1715153634.server02.1779609.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eb46c3608e41a15b89df7edb7aa506521d7c2f5f9528f58b44be97b6a7a4b90
+size 88

distil-whisper/events.out.tfevents.1715153723.server02.1780155.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:697804e781696b9e3f46d180576ac88978f77f5493d86bc6f8591928a313daa1
+size 88

distil-whisper/events.out.tfevents.1715154461.server02.1782973.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3790ffdcde3556f8cb2531ac6ade1add4b4cce83bda933fa6f5cb5cdd68f3566
+size 88

distil-whisper/events.out.tfevents.1715160495.server02.1805047.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f4403d07051c2a9e92defb2b8ba4d895beda85e4d2a8b1c8a2fa816d0183ffb
+size 392

run_distillation.py CHANGED Viewed

@@ -855,6 +855,9 @@ def main():
         )
         raw_datasets_train_features = list(raw_datasets["train"].features.keys())
     if training_args.do_eval:
         dataset_names_dict = convert_dataset_str_to_list(
             data_args.eval_dataset_name if data_args.eval_dataset_name else data_args.train_dataset_name,
@@ -1074,6 +1077,7 @@ def main():
             else raw_datasets["train"].select(range(data_args.max_train_samples))
         )
     if training_args.do_eval and data_args.max_eval_samples is not None:
         for eval_split in all_eval_splits:
             raw_datasets[eval_split] = (
@@ -1101,6 +1105,13 @@ def main():
         function=is_wer_in_range,
         input_columns=["text", "whisper_transcript"],
     )
     if wer_threshold is not None and use_pseudo_labels:
         with accelerator.main_process_first():
@@ -1217,6 +1228,7 @@ def main():
                     if not data_args.streaming
                     else map_fn_eval()
                 )
     # 10.5: Filter training data with inputs longer than `max_input_length`
     def is_audio_in_length_range(length):
@@ -1266,6 +1278,8 @@ def main():
     # 11. Define Evaluation Metrics
     def compute_metrics(preds, labels):
         # replace padded labels by the padding token
         for idx in range(len(labels)):
             labels[idx][labels[idx] == -100] = tokenizer.pad_token_id
@@ -1289,7 +1303,7 @@ def main():
     # 12. Define Training Schedule
     # Store some constants
-    per_device_train_batch_size = int(training_args.per_device_train_batch_size)
     train_batch_size = per_device_train_batch_size * accelerator.num_processes
     gradient_accumulation_steps = int(training_args.gradient_accumulation_steps)
     per_device_eval_batch_size = int(training_args.per_device_eval_batch_size)
@@ -1306,8 +1320,8 @@ def main():
             num_epochs = int(np.ceil(total_train_steps / steps_per_epoch))
         else:
             # Setting a very large number of epochs so we go as many times as necessary over the iterator.
-            num_epochs = sys.maxsize
-            steps_per_epoch = total_train_steps
     else:
         raise ValueError("max_steps must be specified when training with a streaming (iterable) dataset")
@@ -1318,7 +1332,9 @@ def main():
         eval_steps = steps_per_epoch
     else:
         eval_steps = training_args.eval_steps
     # 13. Define optimizer, LR scheduler, collator
     decay_parameters = get_parameter_names(
         student_model,
@@ -1350,7 +1366,7 @@ def main():
         num_warmup_steps=training_args.warmup_steps * accelerator.num_processes,
         num_training_steps=total_train_steps * accelerator.num_processes,
     )
     data_collator = DataCollatorSpeechSeq2SeqWithPadding(
         processor=processor,
         decoder_start_token_id=decoder_start_token_id,
@@ -1382,11 +1398,16 @@ def main():
             }
         )
     print(f" gen_kwargs : {gen_kwargs}")
     #15. Prepare everything with accelerate
     student_model, teacher_model, optimizer, lr_scheduler = accelerator.prepare(
         student_model, teacher_model, optimizer, lr_scheduler
     )
     def kl_divergence(target_distribution, log_predicted_distribution, labels):
         kl_loss = nn.KLDivLoss(reduction="none")
         divergence = kl_loss(log_predicted_distribution, target_distribution)
@@ -1415,8 +1436,8 @@ def main():
                 teacher_outputs = teacher_model(encoder_outputs=encoder_outputs, labels=batch["labels"])
             else:
                 # do the full forward pass for the teacher model (encoder + decoder)
-                teacher_outputs = teacher_model(**batch)
         # CE (data) loss
         ce_loss = student_outputs.loss
         # rescale distribution by temperature to ensure gradients scale correctly
@@ -1519,6 +1540,13 @@ def main():
             vectorized_datasets["train"] = vectorized_datasets["train"].shuffle(training_args.seed)
     else:
         resume_step = None
     for epoch in range(epochs_trained, num_epochs):
         vectorized_datasets["train"] = vectorized_datasets["train"].shuffle(training_args.seed)
@@ -1596,7 +1624,7 @@ def main():
                         eval_labels = []
                         eval_start = time.time()
-                        F = DataLoader(
                             vectorized_datasets[eval_split],
                             collate_fn=data_collator,
                             batch_size=per_device_eval_batch_size,

         )
         raw_datasets_train_features = list(raw_datasets["train"].features.keys())
+    print(f'858 raw_datasets["train"]  : {raw_datasets["train"] }')
     if training_args.do_eval:
         dataset_names_dict = convert_dataset_str_to_list(
             data_args.eval_dataset_name if data_args.eval_dataset_name else data_args.train_dataset_name,
             else raw_datasets["train"].select(range(data_args.max_train_samples))
         )
+    #if we want to select first n samples , not entire validation set
     if training_args.do_eval and data_args.max_eval_samples is not None:
         for eval_split in all_eval_splits:
             raw_datasets[eval_split] = (
         function=is_wer_in_range,
         input_columns=["text", "whisper_transcript"],
     )
+    print(f' raw_datasets["train"].filter : {raw_datasets["train"].filter}')
+    print(f' raw_datasets["train"] : {raw_datasets["train"]}')
     if wer_threshold is not None and use_pseudo_labels:
         with accelerator.main_process_first():
                     if not data_args.streaming
                     else map_fn_eval()
                 )
     # 10.5: Filter training data with inputs longer than `max_input_length`
     def is_audio_in_length_range(length):
     # 11. Define Evaluation Metrics
     def compute_metrics(preds, labels):
         # replace padded labels by the padding token
+        print(f" preds : {preds}")
+        print(f" labels : {labels}")
         for idx in range(len(labels)):
             labels[idx][labels[idx] == -100] = tokenizer.pad_token_id
     # 12. Define Training Schedule
     # Store some constants
+    per_device_train_batch_size = int(training_args.per_device_train_batch_size)
     train_batch_size = per_device_train_batch_size * accelerator.num_processes
     gradient_accumulation_steps = int(training_args.gradient_accumulation_steps)
     per_device_eval_batch_size = int(training_args.per_device_eval_batch_size)
             num_epochs = int(np.ceil(total_train_steps / steps_per_epoch))
         else:
             # Setting a very large number of epochs so we go as many times as necessary over the iterator.
+            num_epochs = sys.maxsize #num_epochs as much as possible
+            steps_per_epoch = total_train_steps
     else:
         raise ValueError("max_steps must be specified when training with a streaming (iterable) dataset")
         eval_steps = steps_per_epoch
     else:
         eval_steps = training_args.eval_steps
+    print(f" num_epochs : {num_epochs}")
+    print(f" steps_per_epoch = total_train_steps : {steps_per_epoch}")
     # 13. Define optimizer, LR scheduler, collator
     decay_parameters = get_parameter_names(
         student_model,
         num_warmup_steps=training_args.warmup_steps * accelerator.num_processes,
         num_training_steps=total_train_steps * accelerator.num_processes,
     )
+    print()
     data_collator = DataCollatorSpeechSeq2SeqWithPadding(
         processor=processor,
         decoder_start_token_id=decoder_start_token_id,
             }
         )
     print(f" gen_kwargs : {gen_kwargs}")
+    print(f" raw_datasets['eval']: {raw_datasets['eval']}")
     #15. Prepare everything with accelerate
     student_model, teacher_model, optimizer, lr_scheduler = accelerator.prepare(
         student_model, teacher_model, optimizer, lr_scheduler
     )
     def kl_divergence(target_distribution, log_predicted_distribution, labels):
         kl_loss = nn.KLDivLoss(reduction="none")
         divergence = kl_loss(log_predicted_distribution, target_distribution)
                 teacher_outputs = teacher_model(encoder_outputs=encoder_outputs, labels=batch["labels"])
             else:
                 # do the full forward pass for the teacher model (encoder + decoder)
+                teacher_outputs = teacher_model(**batch)
         # CE (data) loss
         ce_loss = student_outputs.loss
         # rescale distribution by temperature to ensure gradients scale correctly
             vectorized_datasets["train"] = vectorized_datasets["train"].shuffle(training_args.seed)
     else:
         resume_step = None
+    print(f" raw_datasets['train'] : {raw_datasets['train']} ")
+    print(f" raw_datasets['eval'] : {raw_datasets['eval']} ")
+    print(f" vectorized_datasets['eval'] : {vectorized_datasets['eval']}")
+    print(f" vectorized_datasets['train'] : {vectorized_datasets['train']}")
     for epoch in range(epochs_trained, num_epochs):
         vectorized_datasets["train"] = vectorized_datasets["train"].shuffle(training_args.seed)
                         eval_labels = []
                         eval_start = time.time()
+                        validation_dataloader = DataLoader(
                             vectorized_datasets[eval_split],
                             collate_fn=data_collator,
                             batch_size=per_device_eval_batch_size,

test_partial_function.py ADDED Viewed

	@@ -0,0 +1,41 @@

+from functools import partial
+# Mock dataset in a dictionary form, similar to what you might find in a data processing library
+dataset = {
+    "train": [
+        {"text": "Hello world", "id": 1},
+        {"text": "Partial functions are cool", "id": 2},
+    ]
+}
+# Function to preprocess the dataset
+def prepare_train_dataset(example):
+    # Let's say we just transform the text to uppercase for simplicity
+    return {"text": example["text"].upper()}
+# Columns to remove from the dataset after the transformation
+columns_to_remove = ['id']
+# Creating a mock map function for the dataset
+def dataset_map(batch, function, remove_columns, batched, batch_size):
+    # Process each batch
+    transformed_data = [function(example) for example in batch]
+    # Remove specified columns
+    for item in transformed_data:
+        for column in remove_columns:
+            item.pop(column, None)
+    return transformed_data
+# Using partial to pre-configure the map function
+map_fn_train = partial(
+    dataset_map,
+    batch=dataset["train"],
+    function=prepare_train_dataset,
+    remove_columns=columns_to_remove,
+    batched=True,
+    batch_size=2  # Assuming we process all data in one batch for simplicity
+)
+# Using the configured function
+transformed_dataset = map_fn_train()
+print(transformed_dataset)