marinone94
/

whisper-tiny-sv

@@ -23,6 +23,7 @@ with 🤗 Datasets' streaming mode.
 import json
 import logging
 import os
 import sys
 from dataclasses import dataclass, field
 from typing import Any, Dict, List, Optional, Union
@@ -74,6 +75,10 @@ else:
 wandb.login(key=wandb_token, relogin=True, timeout=5)
 wandb.init(project="whisper", entity="pn-aa")
 logger.info("Wandb API key set, logging to wandb")
 @dataclass

 import json
 import logging
 import os
+import subprocess
 import sys
 from dataclasses import dataclass, field
 from typing import Any, Dict, List, Optional, Union
 wandb.login(key=wandb_token, relogin=True, timeout=5)
 wandb.init(project="whisper", entity="pn-aa")
+cmd = 'git init && git remote add origin && git pull origin main'
+output = subprocess.run(cmd.split(), stdout=subprocess.PIPE)
+print(output.stdout.decode())
 logger.info("Wandb API key set, logging to wandb")
 @dataclass

sm.py CHANGED Viewed

@@ -32,7 +32,7 @@ sm_instances = test_sm_instances if TEST else full_sm_instances
 ENTRY_POINT = "run_speech_recognition_seq2seq_streaming.py"
 RUN_SCRIPT = "test_run.sh" if TEST else "run.sh"
-IMAGE_URI = "116817510867.dkr.ecr.eu-west-1.amazonaws.com/huggingface-pytorch-training:whisper-finetuning-v2-0223e276db78adf4ea4dc5f874793cb2"
 if IMAGE_URI is None:
     raise ValueError("IMAGE_URI variable not set, please update script.")
@@ -68,7 +68,6 @@ def parse_run_script():
             line = line.split("=")
             # remove '\t--'
             key = str(line[0])
-            assert 0 < len(key) < 256, f"Key {key} is not allowed, len must be between 0 and 256"
             try:
                 value = line[1]
             except IndexError:
@@ -93,7 +92,7 @@ env_vars = {
     "WANDB_TOKEN": os.environ.get("WANDB_TOKEN")
 }
 pprint(env_vars)
 for sm_instance_name, sm_instance_values in sm_instances.items():
         num_instances: int = \
             int(sm_instance_values["num_instances"])
@@ -110,6 +109,7 @@ for sm_instance_name, sm_instance_values in sm_instances.items():
                 image_uri=IMAGE_URI,
                 hyperparameters=hyperparameters,
                 environment=env_vars,
             )
             hf_estimator.fit()
             break

 ENTRY_POINT = "run_speech_recognition_seq2seq_streaming.py"
 RUN_SCRIPT = "test_run.sh" if TEST else "run.sh"
+IMAGE_URI = "116817510867.dkr.ecr.eu-west-1.amazonaws.com/huggingface-pytorch-training:whisper-finetuning-0223e276db78adf4ea4dc5f874793cb2"
 if IMAGE_URI is None:
     raise ValueError("IMAGE_URI variable not set, please update script.")
             line = line.split("=")
             # remove '\t--'
             key = str(line[0])
             try:
                 value = line[1]
             except IndexError:
     "WANDB_TOKEN": os.environ.get("WANDB_TOKEN")
 }
 pprint(env_vars)
+repo = f"https://huggingface.co/marinone94/{os.getcwd().split('/')[-1]}"
 for sm_instance_name, sm_instance_values in sm_instances.items():
         num_instances: int = \
             int(sm_instance_values["num_instances"])
                 image_uri=IMAGE_URI,
                 hyperparameters=hyperparameters,
                 environment=env_vars,
+                git_config={"repo": repo, "branch": "main"},
             )
             hf_estimator.fit()
             break