versae commited on Aug 2, 2022

Commit

72a6a19

•

1 Parent(s): 4f995e8

31ig5poi: saving weights and logs of step 0k

Browse files

Files changed (34) hide show

events.out.tfevents.1659427021.t1v-n-eedfb410-w-0.3982953.0.v2 +3 -0
run.recover.sh +50 -0
run_flax_speech_recognition_ctc.py +32 -11
special_tokens_map.json +14 -0
wandb/debug-internal.log +1 -1
wandb/debug.log +1 -1
wandb/latest-run +1 -1
wandb/run-20220731_183904-2sjxhpmt/files/config.yaml +6 -0
wandb/run-20220731_183904-2sjxhpmt/files/media/table/eval/step_32k_32000_c06fd8316235f01c9293.table.json +1 -0
wandb/run-20220731_183904-2sjxhpmt/files/output.log +973 -0
wandb/run-20220731_183904-2sjxhpmt/files/wandb-summary.json +0 -0
wandb/run-20220731_183904-2sjxhpmt/logs/debug-internal.log +0 -0
wandb/run-20220731_183904-2sjxhpmt/logs/debug.log +164 -0
wandb/run-20220731_183904-2sjxhpmt/run-2sjxhpmt.wandb +2 -2
wandb/run-20220802_073947-3q3jac0b/files/code/run_flax_speech_recognition_ctc.py +1615 -0
wandb/run-20220802_073947-3q3jac0b/files/config.yaml +33 -0
wandb/run-20220802_073947-3q3jac0b/files/diff.patch +0 -0
wandb/run-20220802_073947-3q3jac0b/files/output.log +457 -0
wandb/run-20220802_073947-3q3jac0b/files/requirements.txt +158 -0
wandb/run-20220802_073947-3q3jac0b/files/wandb-metadata.json +69 -0
wandb/run-20220802_073947-3q3jac0b/files/wandb-summary.json +1 -0
wandb/run-20220802_073947-3q3jac0b/logs/debug-internal.log +160 -0
wandb/run-20220802_073947-3q3jac0b/logs/debug.log +139 -0
wandb/run-20220802_073947-3q3jac0b/run-3q3jac0b.wandb +3 -0
wandb/run-20220802_074501-31ig5poi/files/code/run_flax_speech_recognition_ctc.py +1625 -0
wandb/run-20220802_074501-31ig5poi/files/config.yaml +27 -0
wandb/run-20220802_074501-31ig5poi/files/diff.patch +0 -0
wandb/run-20220802_074501-31ig5poi/files/output.log +0 -0
wandb/run-20220802_074501-31ig5poi/files/requirements.txt +158 -0
wandb/run-20220802_074501-31ig5poi/files/wandb-metadata.json +69 -0
wandb/run-20220802_074501-31ig5poi/files/wandb-summary.json +1 -0
wandb/run-20220802_074501-31ig5poi/logs/debug-internal.log +412 -0
wandb/run-20220802_074501-31ig5poi/logs/debug.log +23 -0
wandb/run-20220802_074501-31ig5poi/run-31ig5poi.wandb +3 -0

events.out.tfevents.1659427021.t1v-n-eedfb410-w-0.3982953.0.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd937a73f61eaed788dd46684124c265653d88ae7c7f577630591908581135f1
+size 40

run.recover.sh ADDED Viewed

	@@ -0,0 +1,50 @@

+# Step... (33100 | Loss: 0.4021756649017334, Learning Rate: 0.00033713760785758495, Gradient Norm: 10.125)██
+WANDB_ENTITY=NbAiLab WANDB_PROJECT=wav2vec2 python run_flax_speech_recognition_ctc.py \
+        --model_name_or_path="./" \
+        --hub_model_id="NbAiLab/wav2vec2-1b-npsc-nst" \
+        --tokenizer_name="./" \
+        --output_dir="./" \
+        --overwrite_output_dir \
+        --num_train_epochs="40" \
+        --per_device_train_batch_size="8" \
+        --per_device_eval_batch_size="8" \
+        --gradient_accumulation_steps="1" \
+        --precision="full_mixed" \
+        --matmul_precision="bfloat16" \
+        --learning_rate="0.00033713760785758495" \
+        --skip_steps="33100" \
+        --warmup_steps="0" \
+        --length_column_name="input_length" \
+        --evaluation_strategy="steps" \
+        --text_column_name="text" \
+        --save_steps="4000" \
+        --eval_steps="4000" \
+        --logging_steps="100" \
+        --layerdrop="0.041" \
+        --attention_dropout="0.094" \
+        --activation_dropout="0.055" \
+        --hidden_dropout="0.047" \
+        --save_total_limit="5" \
+        --freeze_feature_encoder \
+        --feat_proj_dropout="0.04" \
+        --mask_time_prob="0.082" \
+        --mask_time_length="10" \
+        --mask_feature_prob="0.25" \
+        --mask_feature_length="64" \
+        --gradient_checkpointing \
+        --min_duration_in_seconds="0.5" \
+        --max_duration_in_seconds="20.0" \
+        --use_auth_token \
+        --seed="42" \
+        --group_by_length \
+        --do_train --do_eval \
+        --push_to_hub \
+        --preprocessing_num_workers="32" \
+        --ctc_zero_infinity \
+        --do_lower_case \
+        --wandb_project="wav2vec2" \
+        --wandb_name="wav2vec2-1b-npsc-nst (cont.)" \
+        --remove_punctuation
+# --fp16

run_flax_speech_recognition_ctc.py CHANGED Viewed

@@ -298,6 +298,12 @@ class DataTrainingArguments:
     remove_punctuation: bool = field(
         default=False, metadata={"help": "Whether or not to remove punctuation during training."}
     )
 # @flax.struct.dataclass
@@ -993,15 +999,25 @@ def main():
         dtype = jnp.float32
         training_args.mixed_precision = False
-    model = FlaxWav2Vec2ForCTC.from_pretrained(
-        model_args.model_name_or_path,
-        config=config,
-        dtype=dtype,
-        cache_dir=model_args.cache_dir,
-        revision=model_args.model_revision,
-        use_auth_token=True if model_args.use_auth_token else None,
-        from_pt=True,
-    )
     # 6. Resample speech dataset ALWAYS
     raw_datasets = raw_datasets.cast_column(
@@ -1494,7 +1510,8 @@ def main():
     logger.info(f"  Fuse matmuls: {config.fuse_matmuls}")
     train_time = cur_step = 0
-    epochs = tqdm(range(num_epochs), desc=f"Epoch ... (1/{num_epochs})", position=0)
     for epoch in epochs:
         if training_args.do_train:
             # ======================== Training ================================
@@ -1512,12 +1529,16 @@ def main():
                 samples = [vectorized_datasets[data_args.train_split_name][int(idx)] for idx in batch_idx]
                 batch = data_collator(samples)
                 batch = shard(batch.data)
                 try:
                     state, train_metric = p_train_step(state, batch)
                 except TypeError as e:
                     logger.warning("Encountered following error: \n", e)
-                cur_step = epoch * (num_train_samples // batch_size_per_update) + step
                 if cur_step % training_args.logging_steps == 0:
                     # Save metrics

     remove_punctuation: bool = field(
         default=False, metadata={"help": "Whether or not to remove punctuation during training."}
     )
+    skip_steps: Optional[int] = field(
+        default=0,
+        metadata={
+            "help": "Skip this number of steps. Useful to continue training"
+        },
+    )
 # @flax.struct.dataclass
         dtype = jnp.float32
         training_args.mixed_precision = False
+    try:
+        model = FlaxWav2Vec2ForCTC.from_pretrained(
+            model_args.model_name_or_path,
+            config=config,
+            dtype=dtype,
+            cache_dir=model_args.cache_dir,
+            revision=model_args.model_revision,
+            use_auth_token=True if model_args.use_auth_token else None,
+        )
+    except:
+        model = FlaxWav2Vec2ForCTC.from_pretrained(
+            model_args.model_name_or_path,
+            config=config,
+            dtype=dtype,
+            cache_dir=model_args.cache_dir,
+            revision=model_args.model_revision,
+            use_auth_token=True if model_args.use_auth_token else None,
+            from_pt=True,
+        )
     # 6. Resample speech dataset ALWAYS
     raw_datasets = raw_datasets.cast_column(
     logger.info(f"  Fuse matmuls: {config.fuse_matmuls}")
     train_time = cur_step = 0
+    skip_epochs = data_args.skip_steps % (num_train_samples // batch_size_per_update)
+    epochs = tqdm(range(skip_epochs, num_epochs), desc=f"Epoch ... ({skip_epochs + 1}/{num_epochs})", position=0)
     for epoch in epochs:
         if training_args.do_train:
             # ======================== Training ================================
                 samples = [vectorized_datasets[data_args.train_split_name][int(idx)] for idx in batch_idx]
                 batch = data_collator(samples)
                 batch = shard(batch.data)
+                cur_step = epoch * (num_train_samples // batch_size_per_update) + step
+                if cur_step <= data_args.skip_steps:
+                    continue
                 try:
                     state, train_metric = p_train_step(state, batch)
                 except TypeError as e:
                     logger.warning("Encountered following error: \n", e)
                 if cur_step % training_args.logging_steps == 0:
                     # Save metrics

special_tokens_map.json CHANGED Viewed

@@ -231,6 +231,20 @@
       "rstrip": false,
       "single_word": false
     },
     {
       "content": "</s>",
       "lstrip": false,

       "rstrip": false,
       "single_word": false
     },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
     {
       "content": "</s>",
       "lstrip": false,

wandb/debug-internal.log CHANGED Viewed

	@@ -1 +1 @@
1	- run-~~20220731_183904~~-~~2sjxhpmt~~/logs/debug-internal.log


1	+ run-20220802_074501-31ig5poi/logs/debug-internal.log

wandb/debug.log CHANGED Viewed

	@@ -1 +1 @@
1	- run-~~20220731_183904~~-~~2sjxhpmt~~/logs/debug.log


1	+ run-20220802_074501-31ig5poi/logs/debug.log

wandb/latest-run CHANGED Viewed

	@@ -1 +1 @@
1	- run-~~20220731_183904~~-~~2sjxhpmt~~


1	+ run-20220802_074501-31ig5poi

wandb/run-20220731_183904-2sjxhpmt/files/config.yaml CHANGED Viewed

@@ -18,6 +18,12 @@ _wandb:
       - 3
       - 11
       - 12
       3:
       - 13
       4: 3.8.10

       - 3
       - 11
       - 12
+      2:
+      - 1
+      - 2
+      - 3
+      - 11
+      - 12
       3:
       - 13
       4: 3.8.10

wandb/run-20220731_183904-2sjxhpmt/files/media/table/eval/step_32k_32000_c06fd8316235f01c9293.table.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"columns": ["label_str", "pred_str"], "data": [["men n\u00e5r n\u00e5r senterpartiet \u00f8nsker \u00e5 bruke denne anledningen til \u00e5 svekke e\u00f8s[UNK]avtalen s\u00e5 s\u00e5 er det det er lov \u00e5 fors\u00f8ke det men jeg er veldig glad for at det fors\u00f8ket ikke lykkes og at det fortsatt er trygt og godt flertall denne salen for \u00e5 slutte opp om e\u00f8s[UNK]avtalen eee og at denne utredningen n\u00e5 ikke blir noe av", "men n\u00e5 ema senterpartdie \u00f8nske \u00e5 bruke denne anleedning til \u00e5 svekke veseamvtalen s\u00e5 s\u00e5 er det det e love fors\u00f8ke det men e er veldig glad for at det fors\u00f8ke ikke lykkes og at e fortsatt er e trykt \u00e5 godte flderte ad dene salen for \u00e5 o slutte opp og med veseavtalen e og at dene utredningen n\u00e5 ikke blir na"], ["vil statsr\u00e5den p\u00e5 bakgrunn av de reaksjoner i finnmark og det forventede nei fra finnmark fylkesting til den fremforhandla avtalen sj\u00f8l ta ansvar for flertallets tvangsvedtak og ikke overlate gjennomf\u00f8ringa til fylkespolitikere som er motstandere av sammensl\u00e5inga", "vel statsr\u00e5den p\u00e5 bakgrunnene av dede aksjoner i finnmarlk og defor velte de nei fra finn mark fylkesting til den fremfor ehandlea avtalen skj\u00f8ll kaansvarg for flertalets tvangsvedtak og ikke over late gjennomf\u00f8ring a a det fylkes politike e som er motst\u00f8ndereav sammensl\u00e5ingar"], ["i samme \u00e5nd vil jeg ogs\u00e5 nevne forslaget fra kristelig folkeparti og arbeiderpartiet som stortinget voterte over tidligere i \u00e5r om \u00e5 starte prosessen med \u00e5 trekke fondet ut av spillselskaper med begrunnelsen at eierskapet i disse selskapene truer norsk tippings spillmonopol i norge", "i samme og vil agts\u00e5 nevne forslaget fra krise i folkepartit og arbeiderpartiet som stortinget ho terte over tidligere \u00e5r og n\u00e5 starte prosessen med traekke f\u00e5n den ut av spillse skaper med begremnnelsen at edeskape i disse selskapene truer norsk tippings spille med nopol norge"], ["takk president det er jo og verdt \u00e5 minne om at n\u00e5r vi snakker om oljefondet og oljepengebruk s\u00e5 er det noen partier i denne salen som er veldig glad i \u00e5 bruke penger mer oljepenger og mer p\u00e5 over offentlige eee finanser og over offentlig statsbudsjett men stemmer imot mange av prosjektene som bringer disse inntektene inn til statskassa", "dakk president det jog e vert o minner aaetee ne en snakke maldje for ne o die pengebruk s\u00e5 er e norgen partiear i denne salden som veldig glad jo brukar pengear mer alje penger og eer p\u00e5 og ver offentleggere f nanse ogve r offentlig statsbudsjett men demme mot mange prosjektene som bringe desse innpakten innen tel statsk assa"], ["vi har konkurransedyktige b\u00e5de l\u00f8nninger men og vi har god kompetanse i norge som og kunne ha v\u00e6rt videreutvikla gjennom at en hadde flytta en st\u00f8rre del av forvaltninga til norge og derfor s\u00e5 fremmer vi og forslag om \u00e5 utrede det", "ve har konkernansee dyktige b\u00e5de l\u00f8nninga men n\u00e5 re av god kompetanse i norge som m\u00e5 kunn v\u00e5r ee vi ar etvikla gj\u00f8nat enn hadde flytta en st\u00f8rre del av forvaltninga til norge mog derfor s\u00e5 fremav vei ogg forslag om og uttredee det"], ["ikke bare p\u00e5 gjennom arbeid men ogs\u00e5 for p\u00e5 mange andre samfunnsarenaer eee innafor frivilligheten innafor kultur og idrett som er viktig eee for \u00e5 f\u00e5 forst\u00e5elsen eee for eee qqq eee at at ogs\u00e5 barna skal delta p\u00e5 p\u00e5 de arenaene", "ikke bare p\u00e5 gjennomm arbeid men ogs\u00e5 for p\u00e5 mange andre samfunn saee earena e innafar previlligheeten innanfor kulture idrer som e viktig ee for \u00e5 f\u00e5 forst\u00e5elsen foree ee at at ogs\u00e5 barna skal delta p\u00e5 p\u00e5 de ar ena aven"], ["samtidig s\u00e5 var jeg jo byr\u00e5d i oslo p\u00e5 den tiden da dette ble innf\u00f8rt og da h\u00f8rte jeg egentlig det motsatte ogs\u00e5 av det som representanten b\u00f8hler tar opp nemlig en bekymring for at utsatte ungdom ogs\u00e5 ble trukket ut av skolen fordi de fire tusen kronene eller tiltakspengene at det ble ogs\u00e5 en viktig del av b\u00e5de ungdommen og til og med ogs\u00e5 kanskje til og med familienes \u00f8konomi", "samtidig o vae jeg byr\u00e5d d slo p\u00e5 demt ide da dete bleee innf\u00f8rt og dat heardte e kke e motsate te ogs\u00e5 av de som representanten b\u00f8r e t r opp nemlig en bekymmring for ate utsatte ungdom og s\u00e5 be plukket ut av skolen for di de fire tusen kroner tildags pengene at de t ble ogs\u00e5 e viktig dele av b\u00e5 de ungdome g ti eg gs\u00e5 kanskje til eee familienes ee \u00f8konomi"], ["milj\u00f8partiet de gr\u00f8nne har ingen tilhenger av store og dyre veiutbygginger p\u00e5 bekostning av mere og bedre milj\u00f8vennlige l\u00f8sninger xxx president men vi er like sterke tilhengere som alle andre partier av \u00e5 investere i sikkerhet p\u00e5 de veiene og tunellene vi har", "milj\u00f8pard e i e \u00f8nne ar ingen tilg enger a store og dyre veieutbygginge p\u00e5 bekostning av mere og bedre milje\u00f8vendige l\u00f8sninger milj \u00f8 par ee president men vi er like sterke tildgegere som alle andre partier av \u00e5g investere i sikkerhet p\u00e5 de vegene og tunnelende vi har"], ["eee n\u00e5r storbritannia skal ut av av eu s\u00e5 ser de ikke p\u00e5 e\u00f8s som et aktuelt alternativ eee men for norge \u00e5 skulle eee f\u00f8lge etter storbritannia og og velge \u00e5 g\u00e5 ut av eus indre marked det er ikke et alternativ jeg vil anbefale denne salen", "eee n\u00e5 s\u00e5 bita jeg skal ut av av eu s\u00e5 s er et ikke p\u00e5 er vss s m et ee aktuelt alterna tiv ee men for norge oag skulle ee f\u00f8ller t el stul beta ned oppb o velgdea g\u00e5 ut av a jus indre marked eddete eerkkeet alternative er vel ambefale dennde salllemnd"], ["for ei god skole forutsetter at dyktige l\u00e6rere og andre voksenpersoner gis tid og tillit til \u00e5 f\u00f8lge opp hver enkelt elev og til \u00e5 tilrettelegge undervisninga s\u00e5nn at elevene kan l\u00e6re p\u00e5 den m\u00e5ten de l\u00e6rer best", "forigg\u00e5skolee foredtsetdt at tektig e l\u00e6rdrere og andre vaksen personar ge tid ogg tildlidt ti f\u00f8lge opp kver endkelt elev og tel ag til reftelegg undervisningar som at elevandn kan ld\u00e6r p\u00e5 den m\u00e5ten de l\u00e6r basst"], ["det er innf\u00f8rt rentetak p\u00e5 l\u00e5n og kreditt i mange land i verden og rentetit e re rentetak vil inneb\u00e6re at det ikke lenger vil v\u00e6re l\u00f8nnsomt for bankene \u00e5 gi l\u00e5n til de personene som har h\u00f8yest kredittrisiko det vil si den gruppa som st\u00e5r i kj eee st\u00f8rst fare for \u00e5 f\u00e5 betalingsvansker", "det er inn f\u00f8rt remd te takk p\u00e5 lond og kredikk in mangeran i verden og rem tiet itt rrendte tak vi ineb \u00e6re at ede ikke lenge l \u00e6re l\u00f8nnnsamt for bandkend og gei l\u00e5d til de personen som hadrd h\u00f8yes predit tri siko det vel si den gruppa som slt\u00e5r i ke st\u00f8rst faret for \u00e5 f\u00e5 betalingsvamnskel"], ["jeg mener det som er avgj\u00f8rende n\u00e5 er at vi s\u00f8rger for at de ungdommene vi her snakker om som i utgangspunktet er utsatte mange faller ut av skolen de har f\u00e5 formelle kvalifikasjoner om ikke vi klarer \u00e5 kvalifisere de i ungdomslivet deres ja s\u00e5 vil de f\u00e5 store utfordringer n\u00e5r de bli n\u00e5r de blir eldre", "dje men ne det se av erde n\u00e5 er at det serke for at de ungdo en ji hegrg snakker om som mid utgan s onk tet er utsatt e mange tall iut a s olenr det ha f\u00e5 for melle p\u00e5 f asjoner og mikke vi klare og kalfi se rer i i ungdommslivet de res jal s\u00e5s\u00e5 vil die fo storvere utfordringer nd\u00e5r det blir n\u00e5r de blir eldre"], ["og vegtrafikksentralen starta umiddelbart brannventilasjon s\u00e5nn at r\u00f8yken fr\u00e5 brannen blei ventilert \u00e5tte og ein halv kilometer mot gudvangen ikkje sant men r\u00f8yken blokkerte dermed den einaste evakueringsmuligheten for trafikantane p\u00e5 gudvangen[UNK]sida av brannen", "og vi da fikksteen ta sterkt og midle ver brandnv ind ti l s sj\u00e5n sar r\u00f8yken fra b randnend dlde vendtelert otdte en hall hilom met tel mot gudvndgninnsannd med r\u00f8lken blokkelt de dermed den eineaste anakerings m buligheten for trafikkentane fo guvang aesidar abrende"], ["da har statsministeren og og inkluderingsministeren eee invitert sammen med meg til et frokostm\u00f8te i statsministerboligen hvor vi har invitert veldig mange kvinner fra minoritetsmilj\u00f8a som skal fortelle hvordan dem opplever det herre her og hva vi kan gj\u00f8re for \u00e5 bedre deres situasjon", "da har saasmisteere n\u00e5 ag ingkee ringsmainiseteren eee invitert e samdmlen me ee tel trokaossm\u00f8dt el stafminisembolin no r vi har invitert veldig ange kvinner fra minlitetsmiljad so\u00e5 s kale for tjelle hvordan dem oplever er er og va vde kan gj\u00f8r for \u00e5 bedre dem mers sipuasjone pad"], ["president eg registrerer i at i den behandlinga av stortingsmeldinga som representanten lundteigen refererer til s\u00e5 gjekk eee senterpartiet vekk fr\u00e5 dei resultatm\u00e5la for sj\u00f8lvforsyningsgrad som dei sj\u00f8l f\u00f8reslo fr\u00e5 stortinget sist dei sat i regjering", "presidendt jeg eg registrera eei at de den n behandlingea av stortings meldindga som ee repbresentanten ludndt e en referera tidl s o gikk e ee sen te pa atiee vekk f or a de repsjuletatm\u00e5dlad for sj\u00f8l forslyndningsrad s om de i sj\u00f8ld fo slor fra stortineget sistde satt i regjerindg"], ["noen av de som har gitt mest direkte st\u00f8tte til senterpartiet sitt innta initiativ er alts\u00e5 europabevegelsen og europ europabevegelsen sin leder eee heidi nordby lunde eee som sier i en uttalelse at europabevegelsen st\u00f8tter forslag om et regjeringsoppnevnt utvalg", "dn \u00e5 ona jeg som ha ar gitdt mesdt di rettestettette semtepartietsit inetalkl initiativ eer agts\u00e5 europ av vegelsen og er op p eeurofav vegelsen siln leder ee hei de n rbelunder ee soam sei en utalelse at ero avegelsen st\u00f8tta forslag og at regjeringsoppnevndt utvalg"], ["det som er faren er jo at utviklinga som har skjedd under eee siv jensen som finansminister vil fortsette nemlig at det vil bli \u00f8kt eiendomsskatt ute i kommunene at det vil bli \u00f8kt eiendomsskatt p\u00e5 bolig at det vil bli \u00f8kt eiendomsskatt p\u00e5 anna n\u00e6ringsliv fordi at kommunene ikke har noe oljefond \u00e5 hente ifra", "det som er faren er jo at et utktvrikling a s\u00e5 skjedd un det e siki jansen ag finangsminister e fortsetpter ne mig at dt vel bli \u00f8kt ege omskat ut i kommunene at det vil ble \u00f8kt eie omsk t f\u00e5 golig at det vil be \u00f8kte ege d omsk dft p\u00e5 ann a n\u00e6ringsliv fordi at kommunen ikke ha nok olje fan n hendter fra"], ["viss vi g\u00e5r tilbake igjen til det som var omstridt i nittennittito om innhaldet i e\u00f8s[UNK]avtalen s\u00e5 er det jo slik at i e\u00f8s[UNK]tilhengjarane har tatt feil p\u00e5 alle punkt og avtalen har hatt den verknaden som e\u00f8s[UNK]motstandarane sa", "dvin fel g r tilbak i e n til de som ar omsitritt nitt n ittito om innhald i \u00f8savtalen s\u00e5 er det jo slik at de ir ef ti henga de en har tat feil p\u00e5 alle punkt o avt ene hatt den verknaden som ir s otstanderdrene sa"], ["jeg eller xxx milj\u00f8partiet de gr\u00f8nne f\u00e5r ikke stemt fordi vi ikke faller inn under utbytteordningen men vi er alts\u00e5 en del av det eee enstemmige flertallet som st\u00e5r bak denne eee innstillingen og den forrige innstillingen", "ji eg i eller milj\u00f8for de milj\u00f8fer dei d rene for ikke stemt[UNK] fordi vi ikke fa l er inn nder e utbute ordningen men vi er algts\u00e5 en del av det e ense mige flertallen s st\u00e5 bak denne e ingnstiringer o n e fo g ed til en"], ["president jeg mener det er veldig bra at flertallet her sl\u00e5r fast at klimaendringene vil kunne p\u00e5virke verdiene av finansforetakenes investeringer og klimarisikoutvalget skal fram til desember totusenogatten vurdere betydningen av klimarisiko for norsk \u00f8konomi", "president jeg mener de veldig bra at flertallet hersog fast at klimendringean vil kunne p\u00e5virke verdian a finansforetakenes invensteringer og klimar is k o itv get ska l fremtil det semder to tisenatten vurderde betidningen av kimarisiko for norsk \u00f8konomi"], ["p\u00e5 samme m\u00e5te som barnehage er et velferdsgode slik eee representanten trettes trettebergstuen sa s\u00e5 er ogs\u00e5 kontantst\u00f8tte el velferdsgode en mulighet en valgfrihet for foreldrene fram til barnet er to \u00e5r", "p\u00e5 samme m\u00e5te som barneaget er et velfargdskode slik e representanten trettes stretteberst en sa s\u00e5 er ogs\u00e5 konmtontstetter veg lfergskode en mulighet en valgfrihet for fareldrene fram til barne er to \u00e5r"], ["dette mener vi fremdeles er eee hensyn som er viktig \u00e5 ha med seg i debatten og vi mener at det er ingenting i dag eee som er nytt som eee viser til at situasjonen her har eee har eee endret seg", "dette mener vi fremdel es er ee henlsyn som vir viktig og h medrd seg i debatten og vi mener at de ingenting i dag e som med nytt som ee viser til at situasjonen her har har r en endret seg"], ["men bestillinger fra flertallet p\u00e5 eller fra et samla storting si side ifra en samla komite er at den ekstra arbeidsgiveravgifta skal fjernes og det er utrolig viktig at det ikke blir skapt uklarhet rundt det slik at bransjen veit hva en har \u00e5 forholde seg til", "d n bestillninger fra flert l et p\u00e5 eller for eit sammle a storting s\u00e5 side r fer en samle a komite er at en ekstra arbeidsgivede a giffta skal fjernes og de utkrolig riketig at e kke bli sk a et uklarighet rundt det slik at irangjen veiktk n e har o f\u00e5 holde seg t ili"], ["der har vi jo tatt grep allerede men jeg tror forenklinger som bidrar til \u00e5 f\u00e5 kostnadene ned for bygging av nye boliger f\u00e5 balanse i de markedene som er ute av balanse alts\u00e5 mellom tilbud og ettersp\u00f8rsel er noe av det som skal til for at ikke veksten i boligprisene stiger eee mye i \u00e5rene fremover", "der har ei jo ta tt grep allerede troliforenklinger som vider er til \u00e5 f\u00e5 kost n at en e for byggeing a ny bolige f\u00e5 balangse i de markede som er ut ta vel an se som mellom tilbud e etsp\u00f8rs e og de som ska l ti for a ike beksen i boligprisene figer mie i \u00e5rene fremoee"], ["i den nye modellen m\u00e5 avdelingsoversykepleier og avdelingsoverlege drive et utstrakt samarbeide for \u00e5 ivareta pasienters interesser og behov[UNK]", "i den nye modellen m\u00e5 avdelingsover sykepleier o avdelingsoverleiget[UNK] drive et utstragt samarbeidet for \u00e5 ivarethar pasienters inteeresser og behov[UNK]"], ["og inn forbi olje[UNK] og gassbransjen og rederisektoren s\u00e5 er det s\u00e5nn at en kvinnelig toppleder tjener enog\u00e5tti komma seks prosent av den l\u00f8nninga som mannlige toppledere i andre eee i samme yrke da f\u00e5r", "og enen forbi ole og gassbransene og rederi sektoren se re son at den krinnelige topple der scjjene ei n\u00e5r i ofti komm r seks prosent av den l\u00f8nninger som m nlege topp lederar i andre i samme \u00f8rke d\u00e5r for"], ["forslaget betyr ogs\u00e5 at det no igangsetjast arbeid med \u00e5 finna andre modellar slik at den ekstraordin\u00e6re arbeidsgjevaravgifta p\u00e5 fem prosent kan avviklast og erstattast med ei ordning som ikkje er ein s\u00e6rskatt p\u00e5 arbeid", "forslaget betyr ogs\u00e5 at el noe gang settes arbeid med \u00e5 finne andre modellae slik at den eksturenede adbeidsgiver avgifter p\u00e5 fem prosent kal av vikla set og er stattas med ordninge som ikkje er e scerrskape p\u00e5 arbeid"], ["inneb\u00e6rer det at man i brevet til komiteen eee har eee lagt seg p\u00e5 en linje hvor man egentlig advarer mot det vedtaket vi n\u00e5 skal gj\u00f8re eller kan vi forvente at det ligger en god utredning i statsbudsjettet", "inne b\u00e6rer det at man i d revet til komiten see har lagt seg p\u00e5 en linj e hvor man entlig adbarer mot de vedtak ve m\u00e5 skal gj\u00f8re eller kan vi for vente at det ligge eg o utredning i stasbudsjeet"], ["i tillegg s\u00e5 kommer jo det elementet med at hvis man g\u00e5r en turnus som tilsier at du kanskje har et morgenskift eee og veksler til skift inn forbi kort tid kveld morgen og kanskje p\u00e5 igjen neste morgen og s\u00e5 videre at hviletida ikke er lang nok s\u00e5 er det en stor belastning", "i tillegs\u00e5 kommer jo det elemente med at e hvis man g\u00e5r en turne som til a t ve kanskje har et moere amskift ee og veks tla sa gkif ine for bi ort tid krele mre han og kans\u00e5e p\u00e5 i en neste m\u00e5ran er s\u00e5 vider t vile ti ed i si lange er s\u00e5 den stod belasd neg"], ["eee jeg er glad president for at vi har en av verdens mest rauseste ordninger og at det er en h\u00f8yre[UNK] frp[UNK] og venstre[UNK]regjering som skal legge fram den mest offensive eee likestilte foreldrepermisjonen som noen gang er gjort i norge", "e e gla e si den for at vi hare en a verdensme st rusestordningar og at en h\u00f8yre e fer pr og vens er e egjering som skal legge fram den mest offensive e i ldikestil te freldrepermisjoe som noen gang e m gr e norge"], ["eee og eee det vil jo eee som en del av det ligge eee i den vurderinga \u00e5 se p\u00e5 hvordan skal vi eee s\u00f8rge for at eee b barnefamiliene f\u00e5r en st\u00f8tte som som treffer dem", "e ee o g e de vil d j oe e som en del v det er lin ge e i den vurderinga o s etp po hvordan skal ve s\u00f8rger for at ee barnefamilien e foren st\u00f8tte som som treftear"], ["det er slik et revidert eee budsjett som oftest er og hovedhensikten er alts\u00e5 \u00e5 f\u00e5 seg forelagt oppdaterte tall analyser foreta justeringer der det trengs og f\u00e5 svar fra eee regjeringa p\u00e5 ulike anmodningsforslag som har blitt fremma tidligere", "det slike e r viderep budsjett sm ofde st er om hovedenegsdikten er alts\u00e5om \u00e5 f\u00e5 eg forelagt op pa terte tal analysar foreta jusderinga dee d eg trengs og f\u00e5 svare fr\u00e5 e regjeringa fog ulige adn menningsforslage som v r vortdi fremmea tidl ere"], ["hvorfor meiner statsr\u00e5den at bnl og fellesforbundet ikke er relevant \u00e5 ha med i ekspertutvalget spesielt med tanke p\u00e5 at bakgrunnen for saken er rapporten enkelt \u00e5 v\u00e6re seri\u00f8s som nettopp de her akt\u00f8rene sto bak", "horfei me en eg statsr\u00e5den ad bene elle og fellesforbun de ikke eir relevant og hamet i eksperteut valget spesielt med tanke p\u00e5 at bakegrun for saken er ra porten enkelt ei s er ig\u00f8s som nettop di her ag tj\u00f8rane sto bake"], ["det m\u00e5 samarbeides p\u00e5 tvers av sektorene for \u00e5 gj\u00f8re det lettere \u00e5 kombinere deltakelse i programmet med ordin\u00e6rt arbeid fornye og forbedre norskoppl\u00e6ringen og bidra til at alle f\u00e5r et godt grunnlag for l\u00e6ring og deltagelse i arbeids[UNK] og samfunnsliv", "deg m\u00e5 saba arbeidets po\u00e5 tversf av sektorene for \u00e5 gj\u00f8re de letter og kommbuner e deldtagels bregrammet med orden\u00e6rt arbeidd for nye forbede e skoppl\u00e6ringen og bidrattil at alle for e godt grounnlag for l\u00e6ring og bedledtargelse i arbeidsog samfunnseligr"], ["kan monica m\u00e6land si at det her er en godt gjennomarbeida klok reform som har hatt gode lokale prosesser som har lak skapt lokal begeistring eller har det blitt en prestisje bare \u00e5 gjennomf\u00f8re det koste hva det koste vil p\u00e5 grunn av at det var en del av kommunereformen", "kan bo de an er l and s i t e har e en godt igjennomarbeid dag klo k re form som r h t gode lokale prosesser som ar lagkt t skapt lokal begeistring ellea r de bgitt en pestirs jeg bare gjennomf\u00f8re de koste va det kostet vil p\u00e5 gunn ag l var en del av kom m unereformen"], ["eee det er noen av oss som mener at lavere skatter og avgifter er bra for husholdningene er bra for norsk n\u00e6ringsliv eee fordi man f\u00e5r beholde verdiskapingen sin selv beholde mer av inntektene sine selv fremfor at det er politikerne som skal fordele pengene p\u00e5 deres vegne", "e de er noen a som mener at laver skater avegfter er bra for us oldningen er bdra for nor o n e engs ligt e fri man for beholddet verdiskapring e n sin selg beholder med ag enntektene sine seg fremfr t de r politikerne som skal fordele pengene p\u00e5 deres mene"], ["stortinget ber regjeringa komme attende til stortinget p\u00e5 eigna m\u00e5te seinast i samband med statsbudsjettet for tjuetjue med framlegg om ei provenyn\u00f8ytral omlegging av finansskatten og der forh\u00f8gd arbeidsgivaravgift vert fjerna", "nstortinget bed regjeringa komm at e en dett e stortinget p\u00e5 egna m\u00e5tte seinast i sambane med statsbudsjett for tjuetjueat med framlegg o meg kro ed ny n\u00f8r teiall e omlegging a fi nnanks skatten og d er for h\u00f8gde arbeidsgive g gift hvert tfijeina"], ["eee jeg innr\u00f8mmer at det er uheldig at for enkelte s\u00e5 s\u00e5 kan det virke eee urimelig men eee her eee oppveies det eee av de positive effektene som eee botidskravet er ment \u00e5 ha", "ee dr\u00f8mmea at det e uheldig at for enkelte s\u00e5o s\u00e5m kan de virke urimelig men her e oppveyes dig e a de positive efektdaem som bodsgrave e ment a ha"], ["det viktige n\u00e5r ein inng\u00e5r internasjonalt forpliktande avtalar er at dei forpliktelsene ein teke p\u00e5 seg er kjende og blir behandla og tatt stilling til i samband med at ein inng\u00e5r den faktiske avtalen", "det e vikktig er nor ein inn g\u00e5r internasjonal forpliktae d e avtalige erg at der forpliktelsan og en te ke p\u00e5efseg e kjendt og blir bihandla og tatt stilling tigle i sambalen med at d en inng\u00e5rde edn faktisk avtalen"], ["president p\u00e5 h\u00f8ringa om finansmarkedsmeldinga s\u00e5 kom det et unisont krav om \u00e5 f\u00e5 gjort noe med smb[UNK]rabatten og f\u00e5 innf\u00f8rt smb[UNK]rabatten i norge", "president b\u00e5 h\u00f8ring a om fenansmarkedsmeldinga so kom de et undisioont grav om mo fo gjort nakke med e m beee rabatte n o fo innf\u00f8rte saom beea rabatten i norge"], ["appelsin[UNK] banan[UNK] eple og druer er hovedingredienser i en velsmakende fruktsalat som serveres p\u00e5 en popul\u00e6r restaurant i byen[UNK]", "appelsin[UNK] banan[UNK] eple og druer er hovedingredienser i en velsmakende fruktsalat som serveres p\u00e5 en popul\u00e6r restaurant i byen[UNK]"], ["eee for jeg tror vi ville f\u00e5tt mange sp\u00f8rsm\u00e5l og mange det hav hadde vekket oppmerksomhet om norge hadde brukt brexit som en eee forklaring p\u00e5 at vi \u00f8nsket \u00e5 se p\u00e5 v\u00e5r egen e\u00f8s[UNK]tilknytning", "ee o jeg tror vi ville f\u00e5tt mange sp\u00f8rsmel og mange e hadde vekket merksomhet og norge hadde brukkt berekke sitt som en ee forklaring p\u00e5 at vi \u00f8nsket \u00e5 se p\u00e5 hver egen euveses tilknytning"], ["s\u00e5 eee er det ogs\u00e5 s\u00e5nn at n\u00e5r man fjerner aktivitetskravet s\u00e5 vil det kunne ha likestillingsmessig effekt negativ effekt p\u00e5 yrkesaktivitet", "s\u00e5 ee er det ogs\u00e5 s\u00e5nn at ee nore maen fjerene aktivitets krave so bild det kunne ha likkesti gingsmessige effekt neggativ effekt p\u00e5 yrkes aktivitete"], ["man har glemt at vestens matematikk[UNK] astronomi[UNK] geografi[UNK] navigasjonskunst og medisin mer eller mindre direkte stammer fra araberverdenen[UNK]", "man har glremt tat vesten s maatematikk asteronomi geografi navigasjons kunst og medisin mer eller mindre direkte stamme fra arabeverdenen[UNK]"], ["appelsin[UNK] banan[UNK] eple og druer er hovedingredienser i en velsmakende fruktsalat som serveres p\u00e5 en popul\u00e6r restaurant i byen[UNK]", "appelsin[UNK] banan[UNK] eple og druer er boeidingredienser i en belsmakende fruktsalad som serveres p\u00e5 en populer restaurant i byen[UNK]"], ["jeg vil gj\u00f8re presidenten oppmerksom p\u00e5 at vi har en bestemmelse om at presidenten kan anmode deltakerne i debatten om \u00e5 holde seg til saken men det er alts\u00e5 representantforslaget som ikke har flertall i denne sal som vi behandler og ikke alt mulig annet", "jeg vil gj\u00f8re presidente oppmerksom p\u00e5 at vi har en bestemmelse m at presidenten kan anmodet eee deltagende debatten holde sette s aken og de e ogs \u00e5 representantforslaget som ikke e harer flertale i denne sal som iei behandler og kke alet muliane"], ["ja president n\u00e5 er jo jeg s\u00e5nn sett ikke ansvarlig for saksfeltet s\u00e5 jeg kan ikke eee tale p\u00e5 vegne av kunnskapsministeren p\u00e5 akkurat dette hva kunnskapsministeren da m\u00e5tte \u00f8nske eller ministeren for h\u00f8yere utdanning \u00f8nsker \u00e5 gj\u00f8re", "ja presidente n\u00e5 e r jo eg san ts tt ikke ansvareelig for sakssfel t e s eg kan ikke ee taele p\u00e5 vegne av kunnskappsministerene p\u00e5 ak keort dette hva knn skalsministere da mot te \u00f8nske lakket ministere for h\u00f8ye utdanning \u00f8nske j\u00f8rt"], ["eee jeg st\u00f8tter den konklusjonen eee og n\u00e5r statsr\u00e5den skal ta ordet s\u00e5 vil det v\u00e6re interessant \u00e5 h\u00f8re om han allerede n\u00e5 kan si noe om hvordan dette vil bli behandlet i ny nasjonal transportplan", "ee jeg st\u00f8pter en konpesjonen ee og nor statsr\u00e5den skal ta ordet s\u00e5 vile det v\u00e6re interassantt p\u00e5 h\u00f8e m en allerede n\u00e5 kan si n\u00e5 om hvordan dette vil bli behandlet i ny nasjonale kransport lan"], ["president det h\u00f8res veldig hult ut n\u00e5r statsr\u00e5den som er frontfiguren for de som \u00f8nsker \u00e5 bruke tvang seier at det er opp til finnmark \u00e5 styre finnmark", "president det eres beldigd huleltdt t b r statsr\u00e5den som er sromfiguren for de s m e n skal r ke tvanedn sider t et pp til findmark ag styre finmark"], ["eee jeg er opptatt av at dem skal eee n\u00e5 fram og s\u00e5 eee vil jeg samtidig si at det vedtaket som blir fatta her i fjor og som det er et bredt flertall for i stortinget om botidskravet det kjem vi til \u00e5 st\u00e5 p\u00e5", "e er opptatt av at e demn skal e n\u00e5 fram o s\u00e5 e vil e samtidig si at det vedtaket som blir fatt at her i fjor g s\u00e5n t et bredd flertall for i stortinget bot skrave det k e a n i t st\u00e5 p\u00e5"]]}

wandb/run-20220731_183904-2sjxhpmt/files/output.log CHANGED Viewed

@@ -33177,3 +33177,976 @@ Configuration saved in /data/wav2vec2-1b-npsc-nst/config.json
 Model weights saved in /data/wav2vec2-1b-npsc-nst/flax_model.msgpack
 tokenizer config file saved in ./tokenizer_config.json
 Special tokens file saved in ./special_tokens_map.json

 Model weights saved in /data/wav2vec2-1b-npsc-nst/flax_model.msgpack
 tokenizer config file saved in ./tokenizer_config.json
 Special tokens file saved in ./special_tokens_map.json
+added tokens file saved in ./added_tokens.json
+  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 3725/4729 [2:54:50<46:42,  2.79s/it]
+Step... (32100 | Loss: 0.3990156650543213, Learning Rate: 0.0003392978978808969, Gradient Norm: 8.1875)
+Step... (32000/189160 | Eval Loss: 0.6790516376495361 | Eval wer: 0.46884239453991444 | Eval cer: 0.12758939024118068 |):  15%|█████████████████                                                                                                 | 6/40 [25:24:29<127:58:40, 13550.60s/it]
+Training...:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 3825/4729 [2:59:07<35:43,  2.37s/it]
+Training...:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 3925/4729 [3:03:05<31:40,  2.36s/it]
+Training...:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 4025/4729 [3:06:56<27:04,  2.31s/it]
+Training...:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 4125/4729 [3:10:49<23:14,  2.31s/it]
+Training...:  89%|████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 4226/4729 [3:14:47<21:18,  2.54s/it]
+Training...:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 4325/4729 [3:18:42<15:23,  2.29s/it]
+Training...:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 4426/4729 [3:22:38<12:33,  2.49s/it]
+Training...:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 4525/4729 [3:26:38<08:24,  2.47s/it]
+Training...:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 4625/4729 [3:30:35<04:03,  2.34s/it]
+Training...: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 4726/4729 [3:34:17<00:04,  1.52s/it]
+Step... (32000/189160 | Eval Loss: 0.6790516376495361 | Eval wer: 0.46884239453991444 | Eval cer: 0.12758939024118068 |):  18%|██████████████████���▉                                                                                              | 7/40 [26:03:55<122:09:29, 13326.35s/it]
+2022-08-01 20:55:25.840708: E external/org_tensorflow/tensorflow/compiler/xla/pjrt/pjrt_stream_executor_client.cc:2130] Execution of replica 6 failed: RESOURCE_EXHAUSTED: Attempting to reserve 3.93G at the bottom of memory. That was not possible. There are 8.22G free, 0B reserved, and 3.72G reservable. If fragmentation is eliminated, the maximum reservable bytes would be 8.22G, so compaction will enable this reservation.  The nearest obstacle is at 3.72G from the bottom with size 16.0K.
+2022-08-01 20:55:25.843140: E external/org_tensorflow/tensorflow/compiler/xla/pjrt/pjrt_stream_executor_client.cc:2130] Execution of replica 5 failed: RESOURCE_EXHAUSTED: Attempting to reserve 3.93G at the bottom of memory. That was not possible. There are 8.22G free, 0B reserved, and 3.72G reservable. If fragmentation is eliminated, the maximum reservable bytes would be 8.22G, so compaction will enable this reservation.  The nearest obstacle is at 3.72G from the bottom with size 16.0K.
+2022-08-01 20:55:25.843561: E external/org_tensorflow/tensorflow/compiler/xla/pjrt/pjrt_stream_executor_client.cc:2130] Execution of replica 3 failed: RESOURCE_EXHAUSTED: Attempting to reserve 3.93G at the bottom of memory. That was not possible. There are 8.22G free, 0B reserved, and 3.72G reservable. If fragmentation is eliminated, the maximum reservable bytes would be 8.22G, so compaction will enable this reservation.  The nearest obstacle is at 3.72G from the bottom with size 16.0K.
+2022-08-01 20:55:25.843992: E external/org_tensorflow/tensorflow/compiler/xla/pjrt/pjrt_stream_executor_client.cc:2130] Execution of replica 2 failed: RESOURCE_EXHAUSTED: Attempting to reserve 3.93G at the bottom of memory. That was not possible. There are 8.22G free, 0B reserved, and 3.72G reservable. If fragmentation is eliminated, the maximum reservable bytes would be 8.22G, so compaction will enable this reservation.  The nearest obstacle is at 3.72G from the bottom with size 16.0K.
+2022-08-01 20:55:25.844068: E external/org_tensorflow/tensorflow/compiler/xla/pjrt/pjrt_stream_executor_client.cc:2130] Execution of replica 4 failed: RESOURCE_EXHAUSTED: Attempting to reserve 3.93G at the bottom of memory. That was not possible. There are 8.22G free, 0B reserved, and 3.72G reservable. If fragmentation is eliminated, the maximum reservable bytes would be 8.22G, so compaction will enable this reservation.  The nearest obstacle is at 3.72G from the bottom with size 16.0K.
+2022-08-01 20:55:25.847392: E external/org_tensorflow/tensorflow/compiler/xla/pjrt/pjrt_stream_executor_client.cc:2130] Execution of replica 1 failed: RESOURCE_EXHAUSTED: Attempting to reserve 3.93G at the bottom of memory. That was not possible. There are 8.22G free, 0B reserved, and 3.72G reservable. If fragmentation is eliminated, the maximum reservable bytes would be 8.22G, so compaction will enable this reservation.  The nearest obstacle is at 3.72G from the bottom with size 16.0K.
+Training...:   0%|                                                                                                                                                                                                                                               | 0/4729 [00:05<?, ?it/s]
+Step... (32000/189160 | Eval Loss: 0.6790516376495361 | Eval wer: 0.46884239453991444 | Eval cer: 0.12758939024118068 |):  18%|███████████████████▉                                                                                              | 7/40 [26:04:03<122:53:23, 13406.16s/it]
+Traceback (most recent call last):
+  File "run_flax_speech_recognition_ctc.py", line 1604, in <module>
+    main()
+  File "run_flax_speech_recognition_ctc.py", line 1516, in main
+    state, train_metric = p_train_step(state, batch)
+ValueError: RESOURCE_EXHAUSTED: Attempting to reserve 3.93G at the bottom of memory. That was not possible. There are 8.22G free, 0B reserved, and 3.72G reservable. If fragmentation is eliminated, the maximum reservable bytes would be 8.22G, so compaction will enable this reservation.  The nearest obstacle is at 3.72G from the bottom with size 16.0K.: while running replica 1 and partition 0 of a replicated computation (other replicas may have failed as well).

wandb/run-20220731_183904-2sjxhpmt/files/wandb-summary.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

wandb/run-20220731_183904-2sjxhpmt/logs/debug-internal.log CHANGED Viewed

The diff for this file is too large to render. See raw diff

wandb/run-20220731_183904-2sjxhpmt/logs/debug.log CHANGED Viewed

@@ -21,3 +21,167 @@ config: {}
 2022-07-31 18:39:08,496 INFO    MainThread:2983955 [wandb_run.py:_redirect():1689] Redirecting console.
 2022-07-31 18:39:08,498 INFO    MainThread:2983955 [wandb_run.py:_redirect():1745] Redirects installed.
 2022-07-31 18:39:08,498 INFO    MainThread:2983955 [wandb_init.py:init():633] run started, returning control to user process

 2022-07-31 18:39:08,496 INFO    MainThread:2983955 [wandb_run.py:_redirect():1689] Redirecting console.
 2022-07-31 18:39:08,498 INFO    MainThread:2983955 [wandb_run.py:_redirect():1745] Redirects installed.
 2022-07-31 18:39:08,498 INFO    MainThread:2983955 [wandb_init.py:init():633] run started, returning control to user process
+2022-08-01 20:55:26,013 INFO    MainThread:2983955 [wandb_run.py:_atexit_cleanup():1780] got exitcode: 1
+2022-08-01 20:55:26,480 INFO    MainThread:2983955 [wandb_run.py:_restore():1752] restore
+2022-08-01 20:55:28,979 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 2
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 834758
+  total_bytes: 834758
+}
+2022-08-01 20:55:29,320 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 2
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 834758
+  total_bytes: 834758
+}
+2022-08-01 20:55:30,294 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 834758
+  total_bytes: 1426801
+}
+2022-08-01 20:55:30,396 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 834758
+  total_bytes: 1426801
+}
+2022-08-01 20:55:30,498 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:30,600 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:30,701 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:30,804 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:30,906 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:31,007 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:31,109 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:31,211 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:32,335 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+2022-08-01 20:55:32,574 INFO    MainThread:2983955 [wandb_run.py:_wait_for_finish():1912] got exit ret: done: true
+exit_result {
+}
+file_counts {
+  wandb_count: 6
+  media_count: 8
+  artifact_count: 8
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 1426801
+  total_bytes: 1426801
+}
+local_info {
+}
+2022-08-01 20:55:34,231 INFO    MainThread:2983955 [wandb_run.py:_append_history():2130] rendering history
+2022-08-01 20:55:34,231 INFO    MainThread:2983955 [wandb_run.py:_append_summary():2085] rendering summary
+2022-08-01 20:55:34,232 INFO    MainThread:2983955 [wandb_run.py:_append_files():2180] logging synced files

wandb/run-20220731_183904-2sjxhpmt/run-2sjxhpmt.wandb CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5464c84f5c37f6cb52fb29c507276a5a2d20531247ce2b6a96d5346a95f7545f
-size 37255922

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bbe70a2ad4cde2cfdfea692e7a9e25b9cab9f44b8590b2bf563faa5a30973fc
+size 38750598

wandb/run-20220802_073947-3q3jac0b/files/code/run_flax_speech_recognition_ctc.py ADDED Viewed

	@@ -0,0 +1,1615 @@

+#!/usr/bin/env python
+# coding=utf-8
+# Copyright 2022 The HuggingFace Team All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+Fine-tuning the Flax library models for connectionist temporal classification (CTC) speech recognition.
+"""
+# You can also adapt this script on your own sequence to sequence task. Pointers for this are left as comments.
+import logging
+import math
+import os
+import re
+import sys
+import time
+from dataclasses import dataclass, field
+from pathlib import Path
+from typing import Any, Callable, Dict, List, Optional, Union
+import datasets
+import numpy as np
+from datasets import DatasetDict, load_dataset, load_metric
+from tqdm import tqdm
+import flax
+import jax
+import jax.numpy as jnp
+import optax
+import transformers
+import wandb as wandb
+from flax import core, jax_utils, struct, traverse_util
+from flax.jax_utils import unreplicate, pad_shard_unpad
+from flax.training.common_utils import get_metrics, shard, shard_prng_key
+from huggingface_hub import Repository
+from models import Wav2Vec2Config, FlaxWav2Vec2ForCTC
+from optax._src import linear_algebra
+from transformers import (
+    AutoFeatureExtractor,
+    AutoProcessor,
+    AutoTokenizer,
+    HfArgumentParser,
+    TrainingArguments,
+    is_tensorboard_available,
+    set_seed,
+)
+from transformers.file_utils import get_full_repo_name
+from transformers.utils import check_min_version
+from transformers.utils.versions import require_version
+# Will error if the minimal version of Transformers is not installed. Remove at your own risks.
+check_min_version("4.17.0.dev0")
+require_version("datasets>=1.18.0", "To fix: pip install -r examples/pytorch/speech-recognition/requirements.txt")
+logger = logging.getLogger(__name__)
+@flax.struct.dataclass
+class ModelArguments:
+    """
+    Arguments pertaining to which model/config/tokenizer we are going to fine-tune from.
+    """
+    model_name_or_path: str = field(
+        metadata={"help": "Path to pretrained model or model identifier from huggingface.co/models"}
+    )
+    config_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained config name or path if not the same as model_name"}
+    )
+    tokenizer_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained tokenizer name or path if not the same as model_name"}
+    )
+    feature_extractor_name: Optional[str] = field(
+        default=None, metadata={"help": "feature extractor name or path if not the same as model_name"}
+    )
+    cache_dir: Optional[str] = field(
+        default=None,
+        metadata={"help": "Where to store the pretrained models downloaded from huggingface.co"},
+    )
+    use_fast_tokenizer: bool = field(
+        default=True,
+        metadata={"help": "Whether to use one of the fast tokenizer (backed by the tokenizers library) or not."},
+    )
+    model_revision: str = field(
+        default="main",
+        metadata={"help": "The specific model version to use (can be a branch name, tag name or commit id)."},
+    )
+    use_auth_token: bool = field(
+        default=False,
+        metadata={
+            "help": "Will use the token generated when running `transformers-cli login` (necessary to use this script "
+            "with private models)."
+        },
+    )
+    freeze_feature_encoder: bool = field(
+        default=True, metadata={"help": "Whether to freeze the feature encoder layers of the model."}
+    )
+    attention_dropout: float = field(
+        default=0.0, metadata={"help": "The dropout ratio for the attention probabilities."}
+    )
+    activation_dropout: float = field(
+        default=0.1,
+        metadata={
+            "help": "The hidden activation dropout probability in the embeddings, encoder, and pooler."
+        },
+    )
+    hidden_dropout: float = field(
+        default=0.1,
+        metadata={
+            "help": "The dropout probability for all fully connected layers in the embeddings, encoder, and pooler."
+        },
+    )
+    feat_proj_dropout: float = field(
+        default=0.0,
+        metadata={
+            "help": "The feat proj dropout probability for feature encoder representations."
+        },
+    )
+    final_dropout: float = field(
+        default=0.0,
+        metadata={"help": "The dropout probability for the final projection layer."},
+    )
+    mask_time_prob: float = field(
+        default=0.1,
+        metadata={
+            "help": "The spec aug dropout probability for feature encoder representations."
+        },
+    )
+    mask_time_length: int = field(
+        default=10,
+        metadata={"help": "Length of vector span to mask along the time axis."},
+    )
+    mask_feature_prob: float = field(
+        default=0.0,
+        metadata={
+            "help": "Probability of each feature vector along the feature axis to be chosen as the start of the vector"
+                    "span to be masked. Approximately ``mask_feature_prob * sequence_length // mask_feature_length`` feature bins will be masked along the time axis."
+        },
+    )
+    mask_feature_length: int = field(
+        default=10,
+        metadata={"help": "Length of vector span to mask along the feature axis."},
+    )
+    layerdrop: float = field(default=0.0, metadata={"help": "The LayerDrop probability."})
+    ctc_loss_reduction: Optional[str] = field(
+        default="mean", metadata={"help": "The way the ctc loss should be reduced. Should be one of 'mean' or 'sum'."}
+    )
+    ctc_zero_infinity: Optional[bool] = field(
+        default=False, metadata={"help": "If True, will try yo aboud the CTC loss goinf to infinity."}
+    )
+@flax.struct.dataclass
+class DataTrainingArguments:
+    """
+    Arguments pertaining to what data we are going to input our model for training and eval.
+    """
+    dataset_name: str = field(
+        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
+    )
+    dataset_config_name: Optional[str] = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    text_column: Optional[str] = field(
+        default=None,
+        metadata={"help": "The name of the column in the datasets containing the full texts (for summarization)."},
+    )
+    dataset_cache_dir: Optional[str] = field(
+        default=None, metadata={"help": "Path to cache directory for saving and loading datasets"}
+    )
+    overwrite_cache: bool = field(
+        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
+    )
+    preprocessing_num_workers: Optional[int] = field(
+        default=None,
+        metadata={"help": "The number of processes to use for the preprocessing."},
+    )
+    max_train_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
+            "value if set."
+        },
+    )
+    max_eval_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
+            "value if set."
+        },
+    )
+    max_test_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of test examples to this "
+            "value if set."
+        },
+    )
+    audio_column_name: str = field(
+        default="audio",
+        metadata={"help": "The name of the dataset column containing the audio data. Defaults to 'audio'"},
+    )
+    text_column_name: str = field(
+        default="text",
+        metadata={"help": "The name of the dataset column containing the text data. Defaults to 'text'"},
+    )
+    max_duration_in_seconds: float = field(
+        default=20.0,
+        metadata={
+            "help": "Truncate audio files that are longer than `max_duration_in_seconds` seconds to 'max_duration_in_seconds`"
+        },
+    )
+    min_duration_in_seconds: float = field(
+        default=0.0, metadata={"help": "Filter audio files that are shorter than `min_duration_in_seconds` seconds"}
+    )
+    max_label_length: Optional[int] = field(
+        default=512,
+        metadata={
+            "help": "The minimum total sequence length for target text after tokenization. Sequences shorter "
+            "than this will be filtered."
+        },
+    )
+    min_label_length: Optional[int] = field(
+        default=2,
+        metadata={
+            "help": "The minimum total sequence length for target text after tokenization. Sequences shorter "
+            "than this will be filtered."
+        },
+    )
+    pad_input_to_multiple_of: Optional[int] = field(
+        default=32000,
+        metadata={
+            "help": "If set will pad the input sequence to a multiple of the provided value. "
+            "This is important to avoid triggering recompilations on TPU."
+        },
+    )
+    pad_target_to_multiple_of: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "If set will pad the target sequence to a multiple of the provided value. "
+            "This is important to avoid triggering recompilations on TPU."
+        },
+    )
+    preprocessing_only: bool = field(
+        default=False,
+        metadata={
+            "help": "Whether to only do data preprocessing and skip training. "
+            "This is especially useful when data preprocessing errors out in distributed training due to timeout. "
+            "In this case, one should run the preprocessing in a non-distributed setup with `preprocessing_only=True` "
+            "so that the cached datasets can consequently be loaded in distributed training"
+        },
+    )
+    train_split_name: str = field(
+        default="train",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    eval_split_name: str = field(
+        default="validation",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    do_lower_case: bool = field(
+        default=True,
+        metadata={"help": "Whether the target text should be lower cased."},
+    )
+    wandb_project: str = field(
+        default="flax-speech-recognition-ctc",
+        metadata={"help": "The name of the wandb project."},
+    )
+    wandb_name: str = field(
+        default=None,
+        metadata={"help": "The name of the wandb run."},
+    )
+    wandb_job_type: str = field(
+        default="CTC",
+        metadata={"help": "The name of the wandb job type."},
+    )
+    test_split_name: str = field(
+        default="test",
+        metadata={"help": "The name of the test data set split to use (via the datasets library). Defaults to 'test'"},
+    )
+    remove_punctuation: bool = field(
+        default=False, metadata={"help": "Whether or not to remove punctuation during training."}
+    )
+    skip_steps: Optional[int] = field(
+        default=0,
+        metadata={
+            "help": "Skip this number of steps. Useful to continue training"
+        },
+    )
+# @flax.struct.dataclass
+@dataclass
+class FlaxTrainingArguments(TrainingArguments):
+    precision: str = field(
+        default="full",
+        metadata={
+            "help": "Whether to enable mixed-precision training. If true, the optimizer is stored in half-precision (bfloat16) and computations are executed in half-precision"
+            "**Note that this only specifies the dtype of the computation and optimizer state. It does not influence the dtype of model parameters.**"
+        },
+    )
+    matmul_precision: str = field(
+        default="default",
+        metadata={
+            "help": "Default floating-point precision of internal computations used in TPU matrix multiplications and convolutions. "
+            "This configuration option controls the default precision for JAX operations that take an optional precision argument (e.g. `lax.conv_general_dilated` and `lax.dot`). "
+            "This configuration option does not change the behaviours of such calls with explicit precision arguments; "
+            "it only changes the behaviors of calls with no such argument provided. "
+            "One of `['highest', 'float32', 'high', 'bfloat16_3x', 'default', 'bfloat16', 'fastest', None]`."
+        },
+    )
+    multisteps: bool = field(
+        default=False,
+        metadata={
+            "help": "Whether to use Optax MultiSteps for gradient accumulation. If `False` (default) and `gradient_accumulation_steps > 1`, "
+            "a custom gradient accumulation implementation will be employed."
+        },
+    )
+def to_fp32(t):
+    return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+def to_bf16(t):
+    return jax.tree_map(lambda x: x.astype(jnp.bfloat16) if x.dtype == jnp.float32 else x, t)
+class MixedPrecisionTrainState(struct.PyTreeNode):
+    """Train state for use with a single Optax optimizer.
+    Adapted from flax train_state https://github.com/google/flax/blob/main/flax/training/train_state.py
+    Synopsis::
+        state = TrainState.create(
+            apply_fn=model.apply,
+            params=variables['params'],
+            tx=tx)
+        grad_fn = jax.grad(make_loss_fn(state.apply_fn))
+        for batch in data:
+          grads = grad_fn(state.params, batch)
+          state = state.apply_gradients(grads=grads)
+    Args:
+      step: Counter starts at 0 and is incremented by every call to
+        `.apply_gradients()`.
+      apply_fn: Usually set to `model.apply()`. Kept in this dataclass for
+        convenience to have a shorter params list for the `train_step()` function
+        in your training loop.
+      params: The parameters to be updated by `tx` and used by `apply_fn`.
+      tx: An Optax gradient transformation.
+      opt_state: The state for `tx`.
+      dropout_rng: PRNG key for stochastic operations.
+      bf16: Whether to use bf16 16-bit (mixed) precision training instead of 32-bit training.
+    """
+    step: int
+    apply_fn: Callable = struct.field(pytree_node=False)
+    get_attention_mask_fn: Callable = struct.field(pytree_node=False)
+    params: core.FrozenDict[str, Any]
+    tx: optax.GradientTransformation = struct.field(pytree_node=False)
+    opt_state: optax.OptState
+    dropout_rng: jnp.ndarray
+    max_grad_norm: Optional[float] = 1.0
+    def apply_gradients(self, *, grads, to_dtype, **kwargs):
+        """Updates `step`, `params`, `opt_state` and `**kwargs` in return value.
+        Note that internally this function calls `.tx.update()` followed by a call
+        to `optax.apply_updates()` to update `params` and `opt_state`.
+        Args:
+          grads: Gradients that have the same pytree structure as `.params`.
+          **kwargs: Additional dataclass attributes that should be `.replace()`-ed.
+        Returns:
+          An updated instance of `self` with `step` incremented by one, `params`
+          and `opt_state` updated by applying `grads`, and additional attributes
+          replaced as specified by `kwargs`.
+        """
+        # clip gradients by global l2 norm
+        casted_max_grad_norm = to_dtype(self.max_grad_norm)
+        g_norm = linear_algebra.global_norm(grads)
+        g_norm = jnp.maximum(casted_max_grad_norm, g_norm)
+        grads = jax.tree_map(lambda t: (t / g_norm) * casted_max_grad_norm, grads)
+        # perform update step in fp32 and subsequently downcast optimizer states if mixed precision training
+        # grads and opt_state in bf16 (need to upcast), params in fp32 (leave as is)
+        updates, new_opt_state = self.tx.update(to_fp32(grads), to_fp32(self.opt_state), self.params)
+        new_params = optax.apply_updates(self.params, updates)
+        return self.replace(
+            step=self.step + 1,
+            params=new_params,
+            opt_state=to_dtype(new_opt_state),
+            **kwargs,
+        )
+    @classmethod
+    def create(cls, *, apply_fn, params, tx, to_dtype, **kwargs):
+        """Creates a new instance with `step=0` and initialized `opt_state`."""
+        # downcast optimizer state to bf16 if mixed-precision training
+        opt_state = tx.init(to_dtype(params)) if tx is not None else None
+        return cls(
+            step=0,
+            apply_fn=apply_fn,
+            params=params,
+            tx=tx,
+            opt_state=opt_state,
+            **kwargs,
+        )
+    def replicate(self):
+        return jax_utils.replicate(self).replace(dropout_rng=shard_prng_key(self.dropout_rng))
+@flax.struct.dataclass
+class FlaxDataCollatorSpeechSeq2SeqWithPadding:
+    """
+    Data collator that will dynamically pad the inputs received.
+    Args:
+        processor ([`Wav2Vec2Processor`])
+            The processor used for proccessing the data.
+        decoder_start_token_id (:obj: `int`)
+            The begin-of-sentence of the decoder.
+        input_padding (:obj:`bool`, :obj:`str` or :class:`~transformers.tokenization_utils_base.PaddingStrategy`, `optional`, defaults to :obj:`True`):
+            Select a strategy to pad the returned input sequences (according to the model's padding side and padding index)
+            among:
+            * :obj:`True` or :obj:`'longest'`: Pad to the longest sequence in the batch (or no padding if only a single
+              sequence if provided).
+            * :obj:`'max_length'`: Pad to a maximum length specified with the argument :obj:`max_length` or to the
+              maximum acceptable input length for the model if that argument is not provided.
+            * :obj:`False` or :obj:`'do_not_pad'` (default): No padding (i.e., can output a batch with sequences of
+              different lengths).
+        target_padding (:obj:`bool`, :obj:`str` or :class:`~transformers.tokenization_utils_base.PaddingStrategy`, `optional`, defaults to :obj:`True`):
+            Select a strategy to pad the returned target sequences (according to the model's padding side and padding index).
+            See above for details.
+        max_input_length (:obj:`float`, `optional`):
+            Maximum length of the ``input_values`` of the returned list and optionally padding length (see above).
+        pad_input_to_multiple_of (:obj:`int`, `optional`):
+            If set will pad the input sequence to a multiple of the provided value.
+            This is especially useful to enable the use of Tensor Cores on NVIDIA hardware with compute capability >=
+            7.5 (Volta).
+        pad_target_to_multiple_of (:obj:`int`, `optional`):
+            If set will pad the target sequence to a multiple of the provided value.
+            This is especially useful to enable the use of Tensor Cores on NVIDIA hardware with compute capability >=
+            7.5 (Volta).
+    """
+    processor: Any
+    input_padding: Union[bool, str] = "longest"
+    label_padding: Union[bool, str] = "max_length"
+    pad_input_to_multiple_of: Optional[int] = None
+    pad_to_multiple_of_label: Optional[int] = None
+    max_input_length: Optional[float] = None
+    max_label_length: Optional[float] = None
+    def __call__(self, features: List[Dict[str, Union[List[int], np.ndarray]]]) -> Dict[str, np.ndarray]:
+        # split inputs and labels since they have to be of different lengths and need
+        # different padding methods
+        input_features = [{"input_values": feature["input_values"]} for feature in features]
+        label_features = [{"input_ids": feature["labels"]} for feature in features]
+        # reformat list to dict and set to pytorch format
+        batch = self.processor.feature_extractor.pad(
+            input_features,
+            max_length=self.max_input_length,
+            padding=self.input_padding,
+            pad_to_multiple_of=self.pad_input_to_multiple_of,
+            return_tensors="np",
+        )
+        labels_batch = self.processor.tokenizer.pad(
+            label_features,
+            max_length=self.max_label_length,
+            padding=self.label_padding,
+            pad_to_multiple_of=self.pad_to_multiple_of_label,
+            return_tensors="np",
+        )
+        labels = labels_batch["input_ids"]
+        labels = np.ma.array(labels, mask=np.not_equal(labels_batch.attention_mask, 1))
+        labels = labels.filled(fill_value=-100)
+        batch["labels"] = labels
+        return batch
+def get_grouped_indices(
+    dataset, batch_size: int, rng: Optional[List[int]] = None, mega_batch_mult: Optional[int] = None
+) -> np.array:
+    """
+    Adapted from the `get_length_grouped_indices` function in the PyTorch Trainer utils file (https://github.com/huggingface/transformers/blob/main/src/transformers/trainer_pt_utils.py#L486)
+    Function that returns a list of indices in which each slice of `batch_size` consecutive indices correspond to elements of similar
+    lengths. To do this, the indices are:
+    - randomly permuted (if a JAX rng is specified)
+    - grouped in mega-batches of size `mega_batch_mult * batch_size`
+    - sorted by length in each mega-batch
+    The result is the concatenation of all mega-batches, with the batch of `batch_size` containing the element of
+    maximum length placed first, so that an OOM happens sooner rather than later.
+    """
+    lengths = dataset["input_length"]
+    # Default for mega_batch_mult: 50 or the number to get 4 megabatches, whichever is smaller.
+    if mega_batch_mult is None:
+        mega_batch_mult = min(len(lengths) // (batch_size * 4), 50)
+        # Just in case, for tiny datasets
+        if mega_batch_mult == 0:
+            mega_batch_mult = 1
+    # We need to use JAX for the random permutation as the PRNG key will be set based on the seed outside of the sampler.
+    num_samples = len(lengths)
+    indices = jax.random.permutation(rng, np.arange(num_samples)) if rng is not None else np.arange(num_samples)
+    megabatch_size = mega_batch_mult * batch_size
+    megabatches = [indices[i : i + megabatch_size].tolist() for i in range(0, len(lengths), megabatch_size)]
+    megabatches = [list(sorted(megabatch, key=lambda i: lengths[i], reverse=True)) for megabatch in megabatches]
+    # The rest is to get the biggest batch first.
+    # Since each megabatch is sorted by descending length, the longest element is the first
+    megabatch_maximums = [lengths[megabatch[0]] for megabatch in megabatches]
+    max_idx = np.argmax(megabatch_maximums).item()
+    # Switch to put the longest batch in first position
+    # (note that this is different to the PT grouped sampler in which we only put the longest element in the first position, and not its batch)
+    megabatches[0], megabatches[max_idx] = megabatches[max_idx], megabatches[0]
+    megabatches = np.array([i for megabatch in megabatches for i in megabatch])
+    return megabatches
+def generate_batch_splits(samples_idx: np.ndarray, batch_size: int, drop_last=True) -> np.ndarray:
+    """Generate batches of data for a specified batch size from sample indices. If the dataset size is not divisible by
+    the batch size and `drop_last` is `True`, the last incomplete batch is dropped. Else, it is returned."""
+    num_samples = len(samples_idx)
+    if drop_last:
+        samples_to_remove = num_samples % batch_size
+        if samples_to_remove != 0:
+            samples_idx = samples_idx[:-samples_to_remove]
+        sections_split = num_samples // batch_size
+        samples_idx = samples_idx.reshape((sections_split, batch_size))
+    else:
+        sections_split = math.ceil(num_samples / batch_size)
+        samples_idx = np.array_split(samples_idx, sections_split)
+    return samples_idx
+def write_train_metric(summary_writer, train_metrics, train_time, step):
+    summary_writer.scalar("train_time", train_time, step)
+    train_metrics = get_metrics(train_metrics)
+    for key, vals in train_metrics.items():
+        tag = f"train_{key}"
+        for i, val in enumerate(vals):
+            summary_writer.scalar(tag, val, step - len(vals) + i + 1)
+def write_eval_metric(summary_writer, eval_metrics, step, pred_str=None):
+    for metric_name, value in eval_metrics.items():
+        summary_writer.scalar(f"eval_{metric_name}", value, step)
+    if pred_str is not None:
+        # write output actual predictions for debugging
+        summary_writer.text("eval_predictions", "\n".join(pred_str), step)
+def write_wandb_log(metrics, step, prefix=None):
+    if jax.process_index() == 0:
+        log_metrics = {}
+        for k, v in metrics.items():
+            if "layer" in k:
+                log_metrics[f"{k}/"] = v
+            elif prefix is not None:
+                log_metrics[f"{prefix}/{k}"] = v
+            else:
+                log_metrics[k] = v
+        wandb.log(log_metrics, step)
+def write_wandb_pred(pred_str, label_str, step, num_log=50, prefix="eval"):
+    if jax.process_index() == 0:
+        # convert str data to a wandb compatible format
+        str_data = [[label_str[i], pred_str[i]] for i in range(len(pred_str))]
+        # we'll log the first 50 predictions for each epoch
+        wandb.log(
+            {
+                f"{prefix}/step_{int(step / 1000)}k": wandb.Table(
+                    columns=["label_str", "pred_str"], data=str_data[:num_log]
+                )
+            },
+            step,
+        )
+def create_learning_rate_fn(
+    num_train_steps: int, num_warmup_steps: int, learning_rate: float
+) -> Callable[[int], jnp.array]:
+    """Returns a linear warmup, linear_decay learning rate function."""
+    warmup_fn = optax.linear_schedule(init_value=0.0, end_value=learning_rate, transition_steps=num_warmup_steps)
+    decay_fn = optax.linear_schedule(
+        init_value=learning_rate, end_value=0, transition_steps=num_train_steps - num_warmup_steps
+    )
+    schedule_fn = optax.join_schedules(schedules=[warmup_fn, decay_fn], boundaries=[num_warmup_steps])
+    return schedule_fn
+def ctc_loss(
+    logits,
+    logits_attention_mask,
+    labels,
+    blank_id,
+    loss_reduction="mean",
+    output_emission_dict=False,
+    log_epsilon=-100000.0,
+):
+    """Computes CTC loss.
+    This function performs forward computation over an FSA with `N * 2` states
+    where `N` is the max number of labels. The states are split into two groups:
+    Phi states and emission states. a phi-state accepts repetition of
+    phi (blank)-symbols and transits to emission state when the correct label is
+    observed. An emission state accepts repetition of the label and transits to
+    the next phi states at any time (so called epsilon-transition).
+    Below, `B` denotes the batch size, `T` denotes the time steps in `logits`,
+    and `N` denotes the time steps in `labels`.
+    Args:
+      logits: (B, T, K)-array containing log-probabilities of each class.
+      logitpaddings: (B, T)-array. Padding indicators for `logits`.
+      labels: (B, N)-array containing reference integer labels.
+      labelpaddings: (B, N)-array. Padding indicators for `labels`. Currently,
+        `labels` must be right-padded, i.e. each row of `labelpaddings` must be
+        repetition of zeroes, followed by repetition of ones.
+      blank_id: Id for blank token.
+      loss_reduction: one of "mean", "sum", "default"
+        - "none": no reduction is applied.
+        - "mean": output loss will be divided by target lengths and then the
+          mean over the batch is taken.
+        - "sum": output loss are summed over batch
+      output_emission_dict: whether to output additional information about the emission probs
+    Returns:
+      A pair of `(per_seq_loss, aux)`.
+      per_seq_loss:
+        (B,)-array containing loss values for each sequence in the batch.
+      aux: Dictionary containing interim variables used for computing losses.
+        aux['logalpha_phi']: (T, B, N+1)-array. Log-forward-probabilities of each
+          phi-state corresponding to the n-th label.
+        aux['logalpha_emit']: (T, B, N)-array. Log-forward-probabilities of each
+          emission-state corresponding to the n-th label.
+        aux['logprobs_phi']: (T, B, 1)-array. Probability of the phi-symbol
+          corresponding to each time frame.
+        aux['logprobs_emit']: (T, B, N)-array. Probability of the n-th label
+          corresponding to each time frame.
+    """
+    # label paddings are indicated by -100
+    labelpaddings = labels < 0
+    # logit paddings are the inverse of attention_mask
+    logitpaddings = ~logits_attention_mask
+    # Copied from https://github.com/tensorflow/lingvo/blob/master/lingvo/jax/layers/ctc_objectives.py
+    batchsize, unused_maxinputlen, num_classes = logits.shape
+    batchsize_, maxlabellen = labels.shape
+    logprobs = jax.nn.log_softmax(logits)
+    labellens = maxlabellen - jnp.sum(labelpaddings, axis=1).astype(jnp.int32)
+    # repeat[b, n] == 1.0 when label[b, n] == label[b, n+1].
+    repeat = (labels[:, :-1] == labels[:, 1:]).astype(jnp.float32)
+    repeat = jnp.pad(repeat, ((0, 0), (0, 1)))
+    logprobs_phi = logprobs[:, :, blank_id : blank_id + 1]  # [B, T, 1]
+    logprobs_phi = jnp.transpose(logprobs_phi, (1, 0, 2))  # [T, B, 1]
+    one_hot = jax.nn.one_hot(labels, num_classes=num_classes)  # [B, N, K]
+    logprobs_emit = jnp.einsum("btk,bnk->btn", logprobs, one_hot)
+    logprobs_emit = jnp.transpose(logprobs_emit, (1, 0, 2))  # [T, B, N]
+    logalpha_phi_init = jnp.ones((batchsize, maxlabellen + 1)) * log_epsilon  # [B, N]
+    logalpha_phi_init = logalpha_phi_init.at[:, 0].set(0.0)
+    logalpha_emit_init = jnp.ones((batchsize, maxlabellen)) * log_epsilon  # [B, N]
+    def loop_body(prev, x):
+        prev_phi, prev_emit = prev
+        # emit-to-phi epsilon transition, except if the next label is repetition
+        prev_phi_orig = prev_phi
+        prev_phi = prev_phi.at[:, 1:].set(jnp.logaddexp(prev_phi[:, 1:], prev_emit + log_epsilon * repeat))
+        logprob_emit, logprob_phi, pad = x
+        # phi-to-emit transition
+        next_emit = jnp.logaddexp(prev_phi[:, :-1] + logprob_emit, prev_emit + logprob_emit)
+        # self-loop transition
+        next_phi = prev_phi + logprob_phi
+        # emit-to-phi blank transition only when the next label is repetition
+        next_phi = next_phi.at[:, 1:].set(
+            jnp.logaddexp(next_phi[:, 1:], prev_emit + logprob_phi + log_epsilon * (1.0 - repeat))
+        )
+        pad = pad.reshape((batchsize, 1))
+        next_emit = pad * prev_emit + (1.0 - pad) * next_emit
+        next_phi = pad * prev_phi_orig + (1.0 - pad) * next_phi
+        return (next_phi, next_emit), (next_phi, next_emit)
+    xs = (logprobs_emit, logprobs_phi, logitpaddings.transpose((1, 0)))
+    _, (logalpha_phi, logalpha_emit) = jax.lax.scan(loop_body, (logalpha_phi_init, logalpha_emit_init), xs)
+    # last row needs to be updated with the last epsilon transition
+    logalpha_phi_last = logalpha_phi[-1].at[:, 1:].set(jnp.logaddexp(logalpha_phi[-1, :, 1:], logalpha_emit[-1]))
+    logalpha_phi = logalpha_phi.at[-1].set(logalpha_phi_last)
+    # extract per_seq_loss
+    one_hot = jax.nn.one_hot(labellens, num_classes=maxlabellen + 1)  # [B, N+1]
+    per_seq_loss = -jnp.einsum("bn,bn->b", logalpha_phi_last, one_hot)
+    if loss_reduction == "mean":
+        target_lengths = labelpaddings.shape[-1] - labelpaddings.sum(axis=-1)
+        loss = (per_seq_loss / target_lengths).mean()
+    elif loss_reduction == "sum":
+        loss = per_seq_loss.sum()
+    else:
+        loss = per_seq_loss
+    if not output_emission_dict:
+        return loss
+    return loss, {
+        "logalpha_phi": logalpha_phi,
+        "logalpha_emit": logalpha_emit,
+        "logprobs_phi": logprobs_phi,
+        "logprobs_emit": logprobs_emit,
+    }
+def make_dataset(data_args, seed=42):
+    # Pre-processing dataset
+    import re
+    def map_nst(entry):
+        text = entry["text"].lower()
+        text = text.replace("(...vær stille under dette opptaket...)", "")
+        text = re.sub('[áàâ]', 'a', text)
+        text = re.sub('[ä]', 'æ', text)
+        text = re.sub('[éèëê]', 'e', text)
+        text = re.sub('[íìïî]', 'i', text)
+        text = re.sub('[óòöô]', 'o', text)
+        text = re.sub('[ö]', 'ø', text)
+        text = re.sub('[ç]', 'c', text)
+        text = re.sub('[úùüû]', 'u', text)
+        # text = re.sub('\\(?=(Punktum|Komma|Utropstegn|Spørsmålstegn))', ' ', text)
+        text = re.sub('\s+', ' ', text)
+        return {"text": text}
+    def filter_nst(entry):
+        if not ((len(entry["text"]) <= len(entry["audio"]["array"]) // 320) and (len(entry["text"].strip()) >= 3)):
+            return False  # Too short
+        if re.match(entry["type"], "pIW|CA"):
+            return False  # Spelling out words
+        return True
+    def filter_npsc(entry):
+        # False if there are digits in the text
+        if not ((len(entry["text"]) <= len(entry["audio"]["array"]) // 320) and (len(entry["text"].strip()) >= 3)):
+            return False  # Too short
+        if re.search("\d", entry["text"]):
+            return False
+        return True
+    def map_npsc(entry):
+        batch = {"text": entry["text"].lower()}
+        batch["text"] = re.sub('[áàâ]', 'a', batch["text"])
+        batch["text"] = re.sub('[ä]', 'æ', batch["text"])
+        batch["text"] = re.sub('[éèëê]', 'e', batch["text"])
+        batch["text"] = re.sub('[íìïî]', 'i', batch["text"])
+        batch["text"] = re.sub('[óòöô]', 'o', batch["text"])
+        batch["text"] = re.sub('[ö]', 'ø', batch["text"])
+        batch["text"] = re.sub('[ç]', 'c', batch["text"])
+        batch["text"] = re.sub('[úùüû]', 'u', batch["text"])
+        batch["text"] = re.sub('\s', ' ', batch["text"])
+        batch["text"] = re.sub('<ee>', 'eee', batch["text"])
+        batch["text"] = re.sub('<qq>', 'qqq', batch["text"])
+        batch["text"] = re.sub('<mm>', 'mmm', batch["text"])
+        batch["text"] = re.sub('<inaudible>', 'xxx', batch["text"])
+        # batch["text"] = re.sub('<inaudible>', '?', batch["text"])
+        if "<" in batch["text"]:
+            raise ValueError(batch["text"])
+        return batch
+    nst = datasets.load_dataset("NbAiLab/NST", "no-close")
+    npsc = datasets.load_dataset("NbAiLab/NPSC", "16K_mp3")
+    # TODO NST_hesitate
+    split = len(npsc[data_args.train_split_name]) / (len(npsc[data_args.train_split_name]) + len(npsc[data_args.eval_split_name]))  # Use same train/val ratio as NPSC
+    nst_train = nst[data_args.train_split_name].train_test_split(train_size=split, seed=seed)
+    nst[data_args.train_split_name] = nst_train["train"]
+    nst[data_args.eval_split_name] = nst_train["test"]
+    nst = nst.filter(filter_nst).map(
+        map_nst,
+        num_proc=data_args.preprocessing_num_workers,
+        desc="filtering NST",
+    ).shuffle(seed=seed)
+    npsc = npsc.filter(filter_npsc).map(
+        map_npsc,
+        num_proc=data_args.preprocessing_num_workers,
+        desc="filtering NPSC",
+    ).shuffle(seed=seed)
+    npsc_base = npsc.remove_columns([col for col in npsc[data_args.train_split_name].column_names if col not in ["text", "audio"]])
+    nst_base = nst.remove_columns([col for col in nst[data_args.train_split_name].column_names if col not in ["text", "audio"]])
+    combined = {}
+    for split in data_args.train_split_name, data_args.eval_split_name, data_args.test_split_name:
+        probs = np.array([len(nst_base[split]), len(npsc_base[split])])  # Weight by number of examples
+        probs = (probs / probs.sum()).tolist()
+        comb = datasets.interleave_datasets([nst_base[split], npsc_base[split]], probabilities=probs, seed=seed)
+        combined[split] = comb
+    return datasets.DatasetDict(**combined)
+def main():
+    # 1. Parse input arguments
+    # See all possible arguments in src/transformers/training_args.py
+    # or by passing the --help flag to this script.
+    # We now keep distinct sets of args, for a cleaner separation of concerns.
+    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, FlaxTrainingArguments))
+    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
+        # If we pass only one argument to the script and it's the path to a json file,
+        # let's parse it to get our arguments.
+        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
+    else:
+        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+    # 2. Setup logging
+    # Make one log on every process with the configuration for debugging.
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        handlers=[logging.StreamHandler(sys.stdout)],
+    )
+    # Set the verbosity to info of the Transformers logger.
+    # We only want one process per machine to log things on the screen.
+    logger.setLevel(logging.INFO if jax.process_index() == 0 else logging.ERROR)
+    if jax.process_index() == 0:
+        datasets.utils.logging.set_verbosity_warning()
+        transformers.utils.logging.set_verbosity_info()
+    else:
+        datasets.utils.logging.set_verbosity_error()
+        transformers.utils.logging.set_verbosity_error()
+    # Set up wandb run
+    if jax.process_index() == 0:
+        wandb.init(project=data_args.wandb_project, name=data_args.wandb_name, job_type=data_args.wandb_job_type)
+    logger.info("Training/evaluation parameters %s", training_args)
+    # Set the default TPU matmul precision and display the number of devices
+    jax.config.update("jax_default_matmul_precision", training_args.matmul_precision)
+    logger.info(f"JAX devices: {jax.device_count()}, matmul precision: {training_args.matmul_precision}")
+    # 4. Load dataset
+    set_seed(training_args.seed)
+    raw_datasets = make_dataset(data_args, seed=training_args.seed)
+    # raw_datasets = DatasetDict()
+    # if training_args.do_train:
+    #     raw_datasets[data_args.train_split_name] = load_dataset(
+    #         data_args.dataset_name,
+    #         data_args.dataset_config_name,
+    #         split=data_args.train_split_name,
+    #         cache_dir=data_args.dataset_cache_dir,
+    #         use_auth_token=True if model_args.use_auth_token else None,
+    #     )
+    # if training_args.do_eval:
+    #     raw_datasets[data_args.eval_split_name] = load_dataset(
+    #         data_args.dataset_name,
+    #         data_args.dataset_config_name,
+    #         split=data_args.eval_split_name,
+    #         cache_dir=data_args.dataset_cache_dir,
+    #         use_auth_token=True if model_args.use_auth_token else None,
+    #     )
+    # if training_args.do_predict:
+    #     test_split = data_args.test_split_name.split("+")
+    #     for split in test_split:
+    #         raw_datasets[split] = load_dataset(
+    #             data_args.dataset_name,
+    #             data_args.dataset_config_name,
+    #             split=split,
+    #             cache_dir=data_args.dataset_cache_dir,
+    #             use_auth_token=True if model_args.use_auth_token else None,
+    #         )
+    if not training_args.do_train and not training_args.do_eval and not training_args.do_predict:
+        raise ValueError(
+            "Cannot not train, not do evaluation and not do prediction. At least one of "
+            "training, evaluation or prediction has to be done."
+        )
+    # if not training, there is no need to run multiple epochs
+    if not training_args.do_train:
+        training_args.num_train_epochs = 1
+    if data_args.audio_column_name not in next(iter(raw_datasets.values())).column_names:
+        raise ValueError(
+            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_name}'. "
+            "Make sure to set `--audio_column_name` to the correct audio column - one of "
+            f"{', '.join(next(iter(raw_datasets.values())).column_names)}."
+        )
+    if data_args.text_column_name not in next(iter(raw_datasets.values())).column_names:
+        raise ValueError(
+            f"--text_column_name {data_args.text_column_name} not found in dataset '{data_args.dataset_name}'. "
+            "Make sure to set `--text_column_name` to the correct text column - one of "
+            f"{', '.join(next(iter(raw_datasets.values())).column_names)}."
+        )
+    # 5. Load pretrained model, tokenizer, and feature extractor
+    #
+    # Distributed training:
+    # The .from_pretrained methods guarantee that only one local process can concurrently
+    config = Wav2Vec2Config.from_pretrained(
+        model_args.config_name if model_args.config_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    feature_extractor = AutoFeatureExtractor.from_pretrained(
+        model_args.feature_extractor_name if model_args.feature_extractor_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    tokenizer = AutoTokenizer.from_pretrained(
+        model_args.tokenizer_name if model_args.tokenizer_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    # update config according to training args, model args, and tokenizer attributes
+    config.update(
+        {
+            "feat_proj_dropout": model_args.feat_proj_dropout,
+            "attention_dropout": model_args.attention_dropout,
+            "hidden_dropout": model_args.hidden_dropout,
+            "final_dropout": model_args.final_dropout,
+            "mask_time_prob": model_args.mask_time_prob,
+            "mask_time_length": model_args.mask_time_length,
+            "mask_feature_prob": model_args.mask_feature_prob,
+            "mask_feature_length": model_args.mask_feature_length,
+            "gradient_checkpointing": training_args.gradient_checkpointing,
+            "layerdrop": model_args.layerdrop,
+            "ctc_loss_reduction": model_args.ctc_loss_reduction,
+            "ctc_zero_infinity": model_args.ctc_zero_infinity,
+            "pad_token_id": tokenizer.pad_token_id,
+            "vocab_size": tokenizer.vocab_size,  # len(tokenizer),
+            "activation_dropout": model_args.activation_dropout,
+        }
+    )
+    if tokenizer.do_lower_case and data_args.dataset_name != "librispeech_asr":
+        raise ValueError(
+            "Setting the tokenizer attribute `do_lower_case` to `True` converts all input strings to "
+            "uppercase prior to tokenization. This should only be done when the tokenizer is built on an uppercased corpus,"
+            "i.e. for the dataset `librispeech_asr` only. If your dataset is not `librispeech_asr`, the tokenizer is mostly likely "
+            "built on an lowercased corpus. In this case, set `tokenizer.do_lower_case` to ``False`."
+        )
+    if training_args.precision == "full_mixed":
+        dtype = jnp.bfloat16
+        training_args.mixed_precision = True
+    elif training_args.precision == "half_mixed":
+        dtype = jnp.bfloat16
+        training_args.mixed_precision = False
+    else:
+        dtype = jnp.float32
+        training_args.mixed_precision = False
+    model = FlaxWav2Vec2ForCTC.from_pretrained(
+        model_args.model_name_or_path,
+        config=config,
+        dtype=dtype,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+        from_pt=True,
+    )
+    # 6. Resample speech dataset ALWAYS
+    raw_datasets = raw_datasets.cast_column(
+        data_args.audio_column_name, datasets.features.Audio(sampling_rate=feature_extractor.sampling_rate)
+    )
+    # 7. Preprocessing the datasets.
+    # We need to read the audio files as arrays and tokenize the targets.
+    max_input_length = int(data_args.max_duration_in_seconds * feature_extractor.sampling_rate)
+    min_input_length = int(data_args.min_duration_in_seconds * feature_extractor.sampling_rate)
+    max_target_length = data_args.max_label_length
+    min_target_length = data_args.min_label_length
+    pad_input_to_multiple_of = data_args.pad_input_to_multiple_of
+    audio_column_name = data_args.audio_column_name
+    num_workers = data_args.preprocessing_num_workers
+    text_column_name = data_args.text_column_name
+    model_input_name = feature_extractor.model_input_names[0]
+    do_lower_case = data_args.do_lower_case
+    dataset_name = data_args.dataset_name
+    chars_to_ignore = ', ? . ! - ; : " “ % ‘ ” ?'.split(" ")
+    chars_to_ignore_regex = f'[{"".join(chars_to_ignore)}]'
+    # gigaspeech_punctuation = {" <comma>": ",", " <period>": ".", " <questionmark>": "?", " <exclamationpoint>": "!"}
+    # gigaspeech_disfluencies = ["<other>", "<sil>"]
+    # swb_disfluencies = ["[noise]", "[laughter]", "[silence]", "<a_aside>", "<b_aside>", "<e_aside>", "[laughter-",
+    #                 "[vocalized-noise]", "_1"]
+    # swb_punctuations = ["{", "}", "[", "]-", "]"]
+    # earnings_disfluencies = ["<crosstalk>", "<affirmative>", "<inaudible>", "inaudible", "<laugh>", "<unk>"]
+    ignore_segments = ["ignore_time_segment_in_scoring", "<noise>", "<music>", "[noise]", "[laughter]", "[silence]",
+                       "[vocalized-noise]", "<crosstalk>", "<affirmative>", "<inaudible>", "<laugh>", "<other>", "<sil>", ""]
+    if training_args.do_train and data_args.max_train_samples is not None:
+        raw_datasets[data_args.train_split_name] = raw_datasets[data_args.train_split_name].select(range(data_args.max_train_samples))
+    if training_args.do_eval and data_args.max_eval_samples is not None:
+        raw_datasets[data_args.eval_split_name] = raw_datasets[data_args.eval_split_name].select(range(data_args.max_eval_samples))
+    if training_args.do_predict and data_args.max_test_samples is not None:
+        raw_datasets[data_args.test_split_name] = raw_datasets[data_args.test_split_name].select(range(data_args.max_eval_samples))
+    if training_args.do_train and data_args.remove_punctuation:
+        def remove_punctuation(batch):
+            batch[text_column_name] = (
+                re.sub(chars_to_ignore_regex, "", batch[text_column_name]).replace("'", "").replace('"', "")
+            )
+        raw_datasets[data_args.train_split_name] = raw_datasets[data_args.train_split_name].map(
+            remove_punctuation,
+            num_proc=data_args.preprocessing_num_workers,
+            desc="removing punctuation from train split",
+        )
+    # filter data where the targets are ignored in scoring
+    def is_target_labels(input_str):
+        return input_str.lower() not in ignore_segments
+    raw_datasets = raw_datasets.filter(
+            is_target_labels,
+            num_proc=num_workers,
+            input_columns=[text_column_name],
+            desc="filtering data where the targets are ignored in scoring",
+        )
+    def prepare_dataset(batch):
+        # process audio
+        try:
+            sample = batch[audio_column_name]
+        except ValueError:
+            sample = {"array": np.array([0.]), "sampling_rate": feature_extractor.sampling_rate}
+        inputs = feature_extractor(sample["array"], sampling_rate=sample["sampling_rate"])
+        # process audio length
+        batch[model_input_name] = inputs.input_values[0]
+        batch["input_length"] = len(batch["input_values"])
+        # process targets
+        input_str = batch[text_column_name].lower() if do_lower_case else batch[text_column_name]
+        # if dataset_name == "google/xtreme_s":
+        #     # Finally, we tokenize the processed text
+        #     batch["labels"] = tokenizer(input_str).input_ids
+        #     batch["labels_length"] = len(batch["labels"])
+        #     return batch
+        # # Common Voice 9
+        # if input_str.startswith('"') and input_str.endswith('"'):
+        #     # we can remove trailing quotation marks as they do not affect the transcription
+        #     input_str = input_str[1:-1]
+        # # normalize quotation marks
+        # input_str = re.sub(r'["“”]', '"', input_str)
+        # # normalize apostrophes
+        # input_str = re.sub(r"[’']", "'", input_str)
+        # # normalize hyphens
+        # input_str = re.sub(r"[—–]", "-", input_str)
+        # # replace double quotation marks with single
+        # input_str = input_str.replace('""', '"')
+        # if dataset_name == "mozilla-foundation/common_voice_9_0" and len(input_str):
+        #     # for CV9, we'll normalize the text to always finish with punctuation
+        #     if input_str[-1] not in [".", "?", "!"]:
+        #         input_str = input_str + "."
+        # # TEDLIUM-3
+        # # delete the <unk> token from the text and replace spaced apostrophes with un-spaced
+        # input_str = input_str.replace("<unk>", "").replace(" '", "'")
+        # # GigaSpeech
+        # for disfluency in gigaspeech_disfluencies:
+        #     input_str = input_str.replace(disfluency, "")
+        # # convert spelled out punctuation to symbolic form
+        # for punctuation, replacement in gigaspeech_punctuation.items():
+        #     input_str = input_str.replace(punctuation, replacement)
+        # if dataset_name == "speechcolab/gigaspeech" and len(input_str):
+        #     # for GS, we'll normalize the text to always finish with punctuation
+        #     if input_str[-1] not in [".", "?", "!"]:
+        #         input_str = input_str + "."
+        # # SWB
+        # for disfluency in swb_disfluencies:
+        #     input_str = input_str.replace(disfluency, "")
+        # # remove parenthesised text (test data only)
+        # input_str = re.sub("[\(].*?[\)]", "", input_str)
+        # for punctuation in swb_punctuations:
+        #     input_str = input_str.replace(punctuation, "")
+        # # replace anomalous words with their correct transcriptions
+        # split_str = input_str.split("/")
+        # if len(split_str) > 1:
+        #     input_str = " ".join(
+        #         [" ".join([" ".join(i.split(" ")[:-1]) for i in split_str])] + [split_str[-1].split(" ")[-1]])
+        # # Earnings 22
+        # for disfluency in earnings_disfluencies:
+        #     input_str = input_str.replace(disfluency, "")
+        # # replace mal-formatted ellipsis
+        # input_str = input_str.replace("…", ".")
+        # JIWER compliance
+        # remove multiple spaces
+        input_str = re.sub(r"\s\s+", " ", input_str)
+        # strip trailing spaces
+        input_str = input_str.strip()
+        # Finally, we tokenize the processed text
+        batch["labels"] = tokenizer(input_str).input_ids
+        batch["labels_length"] = len(batch["labels"])
+        return batch
+    vectorized_datasets = raw_datasets.map(
+        prepare_dataset,
+        remove_columns=next(iter(raw_datasets.values())).column_names,
+        num_proc=num_workers,
+        desc="preprocess dataset",
+    )
+    # filter data with inputs shorter than min_input_length or longer than max_input_length
+    def is_audio_in_length_range(length):
+        return length > min_input_length and length < max_input_length
+    vectorized_datasets = vectorized_datasets.filter(
+        is_audio_in_length_range,
+        num_proc=num_workers,
+        input_columns=["input_length"],
+    )
+    # filter data with targets shorter than min_target_length or longer than max_target_length
+    def is_labels_in_length_range(length):
+        return length > min_target_length  # and length < max_target_length
+    vectorized_datasets = vectorized_datasets.filter(
+        is_labels_in_length_range,
+        num_proc=num_workers,
+        input_columns=["labels_length"],
+    )
+    # for large datasets it is advised to run the preprocessing on a
+    # single machine first with `args.preprocessing_only` since there will mostly likely
+    # be a timeout when running the script in distributed mode.
+    # In a second step `args.preprocessing_only` can then be set to `False` to load the
+    # cached dataset
+    if data_args.preprocessing_only:
+        cache = {k: v.cache_files for k, v in vectorized_datasets.items()}
+        logger.info(f"Data preprocessing finished. Files cached at {cache}.")
+        return
+    # 8. Load Metrics
+    wer_metric = load_metric("wer")
+    cer_metric = load_metric("cer")
+    def compute_metrics(pred_ids: List[List[int]], label_ids: List[List[int]]):
+        padded_ids = np.where(np.asarray(label_ids) == -100, tokenizer.pad_token_id, np.asarray(label_ids))
+        pred_str = tokenizer.batch_decode(pred_ids)
+        # we do not want to group tokens when computing the metrics
+        label_str = tokenizer.batch_decode(padded_ids, group_tokens=False)
+        wer = wer_metric.compute(predictions=pred_str, references=label_str)
+        cer = cer_metric.compute(predictions=pred_str, references=label_str)
+        return {"wer": wer, "cer": cer}, pred_str, label_str
+    # 9. save feature extractor, tokenizer and config
+    feature_extractor.save_pretrained(training_args.output_dir)
+    tokenizer.save_pretrained(training_args.output_dir)
+    config.save_pretrained(training_args.output_dir)
+    processor = AutoProcessor.from_pretrained(training_args.output_dir)
+    data_collator = FlaxDataCollatorSpeechSeq2SeqWithPadding(
+        processor=processor,
+        input_padding="longest",
+        pad_input_to_multiple_of=pad_input_to_multiple_of,
+        max_label_length=data_args.max_label_length,
+    )
+    # Enable tensorboard only on the master node
+    has_tensorboard = is_tensorboard_available()
+    if has_tensorboard and jax.process_index() == 0:
+        try:
+            from flax.metrics.tensorboard import SummaryWriter
+            summary_writer = SummaryWriter(log_dir=Path(training_args.output_dir))
+        except ImportError as ie:
+            has_tensorboard = False
+            logger.warning(
+                f"Unable to display metrics through TensorBoard because some package are not installed: {ie}"
+            )
+    else:
+        logger.warning(
+            "Unable to display metrics through TensorBoard because the package is not installed: "
+            "Please run `pip install tensorboard` to enable."
+        )
+    # 10. Handle the repository creation
+    if training_args.push_to_hub:
+        with open(os.path.join(training_args.output_dir, ".gitattributes"), "r+") as f:
+            git_lfs_extensions = f.read()
+            if "*.wandb" not in git_lfs_extensions:
+                f.write("*.wandb filter=lfs diff=lfs merge=lfs -text")
+        if training_args.hub_model_id is None:
+            repo_name = get_full_repo_name(
+                Path(training_args.output_dir).absolute().name, token=training_args.hub_token
+            )
+        else:
+            repo_name = training_args.hub_model_id
+        repo = Repository(training_args.output_dir, clone_from=repo_name)
+    # 11. Initialize our training
+    rng = jax.random.PRNGKey(training_args.seed)
+    rng, dropout_rng = jax.random.split(rng)
+    # Store some constants
+    max_steps = int(training_args.max_steps)
+    gradient_accumulation_steps = int(training_args.gradient_accumulation_steps)
+    train_batch_size = int(training_args.per_device_train_batch_size) * jax.device_count()
+    batch_size_per_update = train_batch_size * gradient_accumulation_steps
+    per_device_eval_batch_size = int(training_args.per_device_eval_batch_size)
+    eval_batch_size = int(training_args.per_device_eval_batch_size) * jax.device_count()
+    to_dtype = to_bf16 if training_args.mixed_precision else to_fp32
+    if training_args.do_train:
+        num_train_samples = len(vectorized_datasets[data_args.train_split_name])
+        steps_per_epoch = num_train_samples // batch_size_per_update
+        if max_steps > 0:
+            num_epochs = -(training_args.max_steps // -steps_per_epoch)
+            total_train_steps = max_steps
+        else:
+            num_epochs = int(training_args.num_train_epochs)
+            total_train_steps = steps_per_epoch * num_epochs
+        # Create learning rate schedule
+        # Create learning rate schedule
+        linear_decay_lr_schedule_fn = create_learning_rate_fn(
+            total_train_steps,
+            training_args.warmup_steps,
+            training_args.learning_rate,
+        )
+        # We use Optax's "masking" functionality to not apply weight decay
+        # to bias and LayerNorm scale parameters. decay_mask_fn returns a
+        # mask boolean with the same structure as the parameters.
+        # The mask is True for parameters that should be decayed.
+        # Note that this mask is specifically adapted for FlaxWav2Vec2 and FlaxBart.
+        # For FlaxT5, one should correct the layer norm parameter naming
+        # accordingly - see `run_t5_mlm_flax.py` e.g.
+        def decay_mask_fn(params):
+            flat_params = traverse_util.flatten_dict(params)
+            layer_norm_params = [
+                (name, "scale")
+                for name in ["layer_norm", "self_attn_layer_norm", "layernorm_embedding", "final_layer_norm"]
+            ]
+            flat_mask = {path: (path[-1] != "bias" and path[-2:] not in layer_norm_params) for path in flat_params}
+            return traverse_util.unflatten_dict(flat_mask)
+        if training_args.adafactor:
+            # Create Adafactor optimizer
+            optim = optax.adafactor(
+                learning_rate=linear_decay_lr_schedule_fn,
+                dtype_momentum=jnp.bfloat16 if training_args.mixed_precision else jnp.float32,
+                weight_decay_rate=training_args.weight_decay,
+                weight_decay_mask=decay_mask_fn,
+            )
+        else:
+            # Create AdamW optimizer
+            optim = optax.adamw(
+                learning_rate=linear_decay_lr_schedule_fn,
+                b1=training_args.adam_beta1,
+                b2=training_args.adam_beta2,
+                eps=training_args.adam_epsilon,
+                weight_decay=training_args.weight_decay,
+                mask=decay_mask_fn,
+            )
+        # Optax MultiSteps for gradient accumulation. We'll only call this optimizer transformation if gradient accumulation is required (i.e. gradient accumulation steps > 1)
+        if training_args.multisteps and gradient_accumulation_steps > 1:
+            optim = optax.MultiSteps(optim, gradient_accumulation_steps, use_grad_mean=False)
+    else:
+        num_epochs = 0
+        total_train_steps = 0
+        num_train_samples = 0
+        optim = None
+    # Setup train state
+    state = MixedPrecisionTrainState.create(
+        apply_fn=model.__call__,
+        get_attention_mask_fn=model._get_feature_vector_attention_mask,
+        params=model.params,
+        tx=optim,
+        to_dtype=to_dtype,
+        dropout_rng=dropout_rng,
+        max_grad_norm=training_args.max_grad_norm,
+    )
+    # Replicate the train state on each device
+    state = state.replicate()
+    blank_id = model.config.pad_token_id
+    # Define gradient update step fn
+    def train_step(state, batch):
+        # only one single rng per grad step, with or without accumulation, as the graph should be identical over one effective training batch
+        dropout_rng, new_dropout_rng = jax.random.split(state.dropout_rng)
+        def compute_loss(params, minibatch):
+            labels = minibatch.pop("labels")
+            logits = state.apply_fn(
+                **minibatch,
+                params=params,
+                dropout_rng=dropout_rng,
+                freeze_feature_encoder=model_args.freeze_feature_encoder,
+                train=True,
+            )[0]
+            logits_mask = state.get_attention_mask_fn(logits.shape[1], batch["attention_mask"])
+            loss = ctc_loss(logits, logits_mask, labels, blank_id, loss_reduction="mean")
+            return loss
+        grad_fn = jax.value_and_grad(compute_loss)
+        if gradient_accumulation_steps == 1 or training_args.multisteps:
+            loss, grad = grad_fn(to_dtype(state.params), batch)
+        # Custom gradient accumulation
+        else:
+            # add a first dimension over gradient_accumulation_steps for minibatch slices
+            batch = jax.tree_map(
+                lambda x: x.reshape(
+                    gradient_accumulation_steps, training_args.per_device_train_batch_size, *x.shape[1::]
+                ),
+                batch,
+            )
+            def accum_minibatch_step(accum_grad, minibatch):
+                # compute loss, num labels and grad over minibatch and accumulate
+                loss, grad = grad_fn(to_dtype(state.params), minibatch)
+                return jax.tree_map(jnp.add, accum_grad, grad), loss
+            # create an initial state for accumulating losses, num labels and gradients
+            init_grad = jax.tree_map(jnp.zeros_like, to_dtype(state.params))
+            # loop accum minibatch step over the number of gradient accumulation steps
+            grad, loss = jax.lax.scan(accum_minibatch_step, init_grad, batch)
+        # update state
+        new_state = state.apply_gradients(
+            grads=grad,
+            dropout_rng=new_dropout_rng,
+            to_dtype=to_dtype,
+        )
+        # compute gradient norms over all layers and globally for detailed monitoring
+        layer_grad_norm = jax.tree_map(jnp.linalg.norm, grad)
+        logs = {
+            "layer_grad_norm": layer_grad_norm,
+            "grad_norm": jnp.linalg.norm(jax.tree_util.tree_leaves(layer_grad_norm)),
+        }
+        # compute parameter norms over all layers and globally for detailed monitoring
+        layer_param_norm = jax.tree_map(jnp.linalg.norm, new_state.params)
+        logs["layer_param_norm"] = layer_param_norm
+        logs["param_norm"] = jnp.linalg.norm(jax.tree_util.tree_leaves(layer_param_norm))
+        metrics = {"loss": loss, "learning_rate": linear_decay_lr_schedule_fn(state.step)}
+        metrics.update(logs)
+        metrics = jax.lax.pmean(metrics, axis_name="batch")
+        # metrics = to_fp32(metrics)
+        return new_state, metrics
+    # Define eval fn
+    def eval_step(params, batch):
+        labels = batch.pop("labels")
+        logits = model(**batch, params=params, train=False)[0]
+        logits_mask = model._get_feature_vector_attention_mask(logits.shape[1], batch["attention_mask"])
+        loss = ctc_loss(logits, logits_mask, labels, blank_id, loss_reduction="mean")
+        pred_ids = jnp.argmax(logits, axis=-1)
+        # summarize metrics
+        metrics = {"loss": loss}
+        metrics = jax.lax.pmean(metrics, axis_name="batch")
+        # metrics = to_fp32(metrics)
+        return metrics, pred_ids
+    # Create parallel version of the train and eval step
+    if training_args.do_train:
+        p_train_step = jax.pmap(train_step, "batch", donate_argnums=(0,))
+    if training_args.do_eval:
+        p_eval_step = jax.pmap(eval_step, "batch")
+    def run_evaluation(step):
+        if training_args.do_eval:
+            # ======================== Evaluating ==============================
+            eval_metrics = []
+            eval_preds = []
+            eval_labels = []
+            # Generate eval set by sequentially sampling indices from the eval dataset and grouping by length
+            eval_samples_idx = get_grouped_indices(vectorized_datasets[data_args.eval_split_name], eval_batch_size)
+            eval_batch_idx = generate_batch_splits(eval_samples_idx, eval_batch_size, drop_last=False)
+            for i, batch_idx in enumerate(tqdm(eval_batch_idx, desc="Evaluating ...", position=2)):
+                samples = [vectorized_datasets[data_args.eval_split_name][int(idx)] for idx in batch_idx]
+                batch = data_collator(samples)
+                labels = batch["labels"]
+                metrics, pred_ids = pad_shard_unpad(p_eval_step)(state.params, batch.data, min_device_batch=per_device_eval_batch_size)
+                eval_preds.extend(jax.device_get(pred_ids.reshape(-1, pred_ids.shape[-1])))
+                eval_metrics.append(metrics)
+                eval_labels.extend(labels)
+            # normalize eval metrics
+            eval_metrics = get_metrics(eval_metrics)
+            eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
+            eval_metrics = to_fp32(eval_metrics)
+            # always run compute metrics
+            error_rate_metric, pred_str, label_str = compute_metrics(eval_preds, eval_labels)
+            eval_metrics.update(error_rate_metric)
+            error_rate_desc = " ".join([f"Eval {key}: {value} |" for key, value in error_rate_metric.items()])
+            # Print metrics and update progress bar
+            desc = f"Step... ({step}/{total_train_steps} | Eval Loss: {eval_metrics['loss']} | {error_rate_desc})"
+            epochs.write(desc)
+            epochs.desc = desc
+            # Save metrics
+            write_wandb_log(eval_metrics, step, prefix="eval")
+            write_wandb_pred(pred_str, label_str, step)
+            # if has_tensorboard and jax.process_index() == 0:
+            # write_eval_metric(summary_writer, eval_metrics, step, pred_str=pred_str)
+    def save_checkpoint(step):
+        # save and push checkpoint to the hub
+        if jax.process_index() == 0:
+            params = jax.device_get(jax.tree_map(lambda x: x[0], state.params))
+            model.save_pretrained(training_args.output_dir, params=params)
+            tokenizer.save_pretrained(training_args.output_dir)
+            if training_args.push_to_hub:
+                repo.push_to_hub(commit_message=f"{wandb.run.id}: saving weights and logs of step {int(step / 1000)}k", blocking=False)
+    logger.info("***** Running training *****")
+    logger.info(f"  Num examples = {num_train_samples}")
+    logger.info(f"  Num Epochs = {num_epochs}")
+    logger.info(f"  Instantaneous batch size per device = {training_args.per_device_train_batch_size}")
+    logger.info(f"  Num gradient accumulation steps = {gradient_accumulation_steps}")
+    logger.info(f"  Total train batch size (w. parallel & distributed) = {batch_size_per_update}")
+    logger.info(f"  Total optimization steps = {total_train_steps}")
+    logger.info(f"  Gradient checkpointing: {config.gradient_checkpointing}")
+    logger.info(f"  Use scan: {config.use_scan}")
+    logger.info(f"  Fuse matmuls: {config.fuse_matmuls}")
+    train_time = cur_step = 0
+    skip_epochs = data_args.skip_steps % (num_train_samples // batch_size_per_update)
+    epochs = tqdm(range(skip_epochs, num_epochs), desc=f"Epoch ... ({skip_epochs + 1}/{num_epochs})", position=0)
+    for epoch in epochs:
+        if training_args.do_train:
+            # ======================== Training ================================
+            train_start = time.time()
+            # Create sampling rng
+            rng, input_rng = jax.random.split(rng)
+            # Generate an epoch by randomly shuffling sampling indices from the train dataset and grouping by length
+            train_samples_idx = get_grouped_indices(vectorized_datasets[data_args.train_split_name], batch_size_per_update, input_rng)
+            train_batch_idx = generate_batch_splits(train_samples_idx, batch_size_per_update)
+            # Gather the indices for creating the batch and do a training step
+            for step, batch_idx in enumerate(tqdm(train_batch_idx, desc="Training...", position=1), 1):
+                samples = [vectorized_datasets[data_args.train_split_name][int(idx)] for idx in batch_idx]
+                batch = data_collator(samples)
+                batch = shard(batch.data)
+                cur_step = epoch * (num_train_samples // batch_size_per_update) + step
+                if cur_step <= data_args.skip_steps:
+                    continue
+                try:
+                    state, train_metric = p_train_step(state, batch)
+                except TypeError as e:
+                    logger.warning("Encountered following error: \n", e)
+                if cur_step % training_args.logging_steps == 0:
+                    # Save metrics
+                    train_metric = unreplicate(train_metric)
+                    train_time += time.time() - train_start
+                    # need to upcast all device arrays to fp32 for wandb logging (jnp.bfloat16 not supported) -> do this here OR in train_step
+                    write_wandb_log(to_fp32(train_metric), cur_step, prefix=data_args.train_split_name)
+                    # we won't log to tensorboard for now (it is fiddly logging param and grad norms on a layer-by-layer basis)
+                    # if has_tensorboard and jax.process_index() == 0:
+                    # write_train_metric(summary_writer, train_metrics, train_time, cur_step)
+                    epochs.write(
+                        f"Step... ({cur_step} | Loss: {train_metric['loss']}, Learning Rate: {train_metric['learning_rate']}, Gradient Norm: {train_metric['grad_norm']})"
+                    )
+                if cur_step % total_train_steps == 0:
+                    break
+                if training_args.eval_steps and cur_step % training_args.eval_steps == 0:
+                    run_evaluation(cur_step)
+                if cur_step % training_args.save_steps == 0:
+                    save_checkpoint(cur_step)
+            if training_args.eval_steps == 0 and (epoch + 1) != num_epochs:
+                # run evaluation at the end of the epoch if eval steps are not specified
+                run_evaluation(cur_step)
+                save_checkpoint(cur_step)
+    if training_args.do_train:
+        save_checkpoint(cur_step)
+    cur_step = max_steps if max_steps > 0 else cur_step  # set step to max steps so that eval happens in alignment with training
+    if training_args.do_eval:
+        run_evaluation(cur_step)
+    # TODO: collapse 'do_predict' into the run_evaluation function
+    if training_args.do_predict:
+        for split in [data_args.test_split_name]:
+            # ======================== Evaluating ==============================
+            eval_metrics = []
+            eval_preds = []
+            eval_labels = []
+            # Generate eval set by sequentially sampling indices from the test dataset and grouping by length
+            eval_samples_idx = get_grouped_indices(vectorized_datasets[split], eval_batch_size)
+            eval_batch_idx = generate_batch_splits(eval_samples_idx, eval_batch_size, drop_last=False)
+            for i, batch_idx in enumerate(tqdm(eval_batch_idx, desc=f"Predicting {split}...", position=2)):
+                samples = [vectorized_datasets[split][int(idx)] for idx in batch_idx]
+                batch = data_collator(samples)
+                labels = batch["labels"]
+                metrics, pred_ids = pad_shard_unpad(p_eval_step)(state.params, batch.data, min_device_batch=per_device_eval_batch_size)
+                eval_preds.extend(jax.device_get(pred_ids.reshape(-1, pred_ids.shape[-1])))
+                eval_metrics.append(metrics)
+                eval_labels.extend(labels)
+            # normalize eval metrics
+            eval_metrics = get_metrics(eval_metrics)
+            eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
+            eval_metrics = to_fp32(eval_metrics)
+            # always run compute metrics
+            error_rate_metric, pred_str, label_str = compute_metrics(eval_preds, eval_labels)
+            eval_metrics.update(error_rate_metric)
+            error_rate_desc = " ".join([f"Eval {key}: {value} |" for key, value in error_rate_metric.items()])
+            # Print metrics and update progress bar
+            desc = f"Step... ({cur_step}/{total_train_steps} | Eval Loss: {eval_metrics['loss']} | {error_rate_desc})"
+            epochs.write(desc)
+            epochs.desc = desc
+            # Save metrics
+            write_wandb_log(eval_metrics, cur_step, prefix=split)
+            write_wandb_pred(pred_str, label_str, cur_step, prefix=split)
+            # if has_tensorboard and jax.process_index() == 0:
+            # write_eval_metric(summary_writer, eval_metrics, cur_step, pred_str=pred_str)
+if __name__ == "__main__":
+    main()

wandb/run-20220802_073947-3q3jac0b/files/config.yaml ADDED Viewed

	@@ -0,0 +1,33 @@

+wandb_version: 1
+_wandb:
+  desc: null
+  value:
+    cli_version: 0.12.9
+    code_path: code/run_flax_speech_recognition_ctc.py
+    framework: huggingface
+    huggingface_version: 4.21.0
+    is_jupyter_run: false
+    is_kaggle_kernel: false
+    python_version: 3.8.10
+    start_time: 1659425987
+    t:
+      1:
+      - 1
+      - 2
+      - 3
+      - 11
+      - 12
+      2:
+      - 1
+      - 2
+      - 3
+      - 11
+      - 12
+      3:
+      - 13
+      4: 3.8.10
+      5: 0.12.9
+      6: 4.21.0
+      8:
+      - 5

wandb/run-20220802_073947-3q3jac0b/files/diff.patch ADDED Viewed

The diff for this file is too large to render. See raw diff

wandb/run-20220802_073947-3q3jac0b/files/output.log ADDED Viewed

	@@ -0,0 +1,457 @@

+INFO:__main__:Training/evaluation parameters FlaxTrainingArguments(
+_n_gpu=0,
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+auto_find_batch_size=False,
+bf16=False,
+bf16_full_eval=False,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=0,
+dataloader_pin_memory=True,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+debug=[],
+deepspeed=None,
+disable_tqdm=False,
+do_eval=True,
+do_predict=False,
+do_train=True,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_steps=4000,
+evaluation_strategy=steps,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=1,
+gradient_checkpointing=True,
+greater_is_better=None,
+group_by_length=True,
+half_precision_backend=auto,
+hub_model_id=NbAiLab/wav2vec2-1b-npsc-nst,
+hub_private_repo=False,
+hub_strategy=every_save,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_inputs_for_metrics=False,
+jit_mode_eval=False,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=0.00033713760785758495,
+length_column_name=input_length,
+load_best_model_at_end=False,
+local_rank=-1,
+log_level=-1,
+log_level_replica=-1,
+log_on_each_node=True,
+logging_dir=./runs/Aug02_07-39-43_t1v-n-eedfb410-w-0,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=100,
+logging_strategy=steps,
+lr_scheduler_type=linear,
+matmul_precision=bfloat16,
+max_grad_norm=1.0,
+max_steps=-1,
+metric_for_best_model=None,
+mp_parameters=,
+multisteps=False,
+no_cuda=False,
+num_train_epochs=40.0,
+optim=adamw_hf,
+output_dir=./,
+overwrite_output_dir=True,
+past_index=-1,
+per_device_eval_batch_size=8,
+per_device_train_batch_size=8,
+precision=full_mixed,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+remove_unused_columns=True,
+report_to=['tensorboard', 'wandb'],
+resume_from_checkpoint=None,
+run_name=./,
+save_on_each_node=False,
+save_steps=4000,
+save_strategy=steps,
+save_total_limit=5,
+seed=42,
+sharded_ddp=[],
+skip_memory_metrics=True,
+tf32=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+warmup_ratio=0.0,
+warmup_steps=0,
+weight_decay=0.0,
+xpu_backend=None,
+)
+INFO:__main__:JAX devices: 8, matmul precision: bfloat16
+WARNING:datasets.builder:Reusing dataset nst (/home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53)
+100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 76.91it/s]
+WARNING:datasets.builder:Reusing dataset npsc (/home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc)
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 442.56it/s]
+WARNING:datasets.arrow_dataset:Loading cached split indices for dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-a18d58183d9bf996.arrow and /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-f883e246d28776da.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-1ecb897badea6b99.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-e8c53f9b4a092be2.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-99016c8af960e19d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-d7675bb64e8cbb95.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-35cb526c6e844fe1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-9ef6aa8735c2e25f.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-b96eb3221fd7bdcd.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-5f88d447c9e96a29.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-1db3024fc21398d0.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-fe9bf9aa3972dc9e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-d47ebd3444326a96.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-100513a9bb58a7d2.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-eae23efdd20c9820.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-47204e714dab1e26.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-ef97747360cf8f77.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-849c0d5e70b1eae6.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-9ee4d61ca1de5fd3.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-64d9a4db7163286d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-93d3f904dbd9dfed.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-048d205a760fb7b1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-8252e7452ed22a3f.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-b46b71c0a44ac025.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-981266ba1dfee0dd.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-836e0b13e6c79682.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-4c07ad0c6e9209a9.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-6755dbc96791ea74.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-30999bac01ddf169.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-88ce81bdaf3537c7.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-4462dee818c7228a.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-dbd3462f0b7ec1ca.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-2c1eabbcdb92ac67.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-8c4ca51a902b3378.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-39cf8874cdcb5fad.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-72a154bf3995be4e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-83a401ee1a5ae4b0.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-f7c303b13c9787f5.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-deb16df6d6f11098.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-e2ed8b7ee6a49bbf.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-a89f8a703c382829.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-ad6ae0c2c5b5db00.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-718dab4c699166bc.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-07acbb44d2332ddf.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-aa82cb01bcd0315e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-a02927894152e700.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-7bb336297bc0fe6b.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-c453683ef7d1f91f.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-87430deb9a558175.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-364293ab4f931379.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-8d53639da64e470b.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-e51ebb4af271a8d2.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-0f77b97508d35aa2.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-6ddb824270d7c1d3.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-4fe4b3c17e4ee8f6.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-22b72f0bacf3763a.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-d44354918759d63c.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-1a3934bd8e1c854c.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-eadbb6bd5b728b54.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-c366355744a6b4fb.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-fd746182fc420273.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-64ffdd3462151b96.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-c050f920ab9f5bf5.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-0e1e01c9f06c1bf2.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-decafc8505e37441.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-9a03142b724fdaef.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-76579b4a85e95b63.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-c2a806b0458860dc.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-6a3cbf3c5b456cef.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-37cabe610bd73f12.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-daa1f848623a5f8b.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-2691698209721423.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-ba587113d73c0469.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-4b7a826ff62e9190.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-f48a7e48ca1be4a1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-ea1bea731e738d53.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-9bbb6bdad70a6bc4.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-14e88ec571f8c10c.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-12e5c26566ad2467.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-7e04bd4017d30913.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-3623af720c33578b.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-de63ddccbaaa2408.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-5922723cdae1242a.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-6e64af507b54c63d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-6cc574fd29691232.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-71e0a09e89b40263.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-cdef3fde897c2328.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-5346080ba33a9efa.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-d5b0c95ba6dddb6e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-7b39c3af46b09ae0.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-973f3faadf8c59ce.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-31d5502f147ff08d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-e5065fe32e9be0e1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-a74fe01a603aebe1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-07572c953bfc5d29.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-50df9810116a3f1c.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-4b2bc354a7716465.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-7298022e3f7e9c11.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-5f1b0cfc50c27c43.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-2a37559661ad05de.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-00ad27889f41a2e4.arrow
+WARNING:datasets.arrow_dataset:Loading cached shuffled indices for dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-a84d3ea2f9c53bb3.arrow
+WARNING:datasets.arrow_dataset:Loading cached shuffled indices for dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-860c257305cbd095.arrow
+WARNING:datasets.arrow_dataset:Loading cached shuffled indices for dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___nst/no-close/1.0.0/c9a1b1da598ea4a1b584c09ff0e7b0e06974f08bd0329959417147f3f5866f53/cache-4107db6b55e886b5.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-2a7d46aeb9705209.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-5465b0578d4d1dd6.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-dd436d3509962c33.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-81e279f107529ddd.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-0f6d5e486066b438.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-5196a627dcb5575b.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-c40a3b109e32fdcf.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-0010944e837ede95.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-77d3c26a1d78844f.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-b2ca09d43b867639.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-cf1012298a4f080f.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-22cdaa8b64a3143d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-b42663e1783f7f2d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-fe2d3a4def8e2e27.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-8bebcd60bda2ac82.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-8b63b4e4da3cc4ca.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-2c9c07d9c528c424.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-03d13a49f91a0350.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-7f5b8eae60c52bd1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-e383963499ecb6a8.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-c644a1d85fd2789f.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-edafc7330613f669.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-fe06f91fbf084a48.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-2bf654e25f5915f4.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-804ffcf68527c977.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-f3c558563706248e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-686bbe2ae9f6115c.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-e37701abaca6e19d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-ad3854e8f2fb2252.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-d404e04fb3f77dff.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-6994281014f7cb8e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-6eb6782ef81ab287.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-f2c09930a2e9c5d6.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-d2137ee267f7e063.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-3ce2d95d3d7df934.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-b7d05394fb392e55.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-b8e5af9229e97ab3.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-1f3b605719428947.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-24da4e84c07bc816.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-38b8ba74c4e2559c.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-a0769aba5df331b7.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-986ad0784997b447.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-abc305b67cf98c81.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-81fe433ae04ce1d9.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-b4043a33396e06ad.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-b2a4386334d34964.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-e5e0f56bc0836ef6.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-0b4881a47596a8b5.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-8d88027dc513f3f2.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-2bbc98a1e85edcf7.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-58671958e0bce2ab.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-1b8d037b59bdfe44.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-c6fddf4c4bdb3cf3.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-6f9d5c03685a50b1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-c115605b8f1c44d8.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-7267f62f29b4d8b2.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-1224fb2796c62199.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-192f3cb60e9dbb91.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-53a889aa100b8e34.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-5ec8414a7e29ed0b.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-97b78bc6e204c38b.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-7130e0c7c26247e9.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-74d6344ccf6f0513.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-eb64974c7f40c5d7.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-60b4b6d34c00edc7.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-591ff73292ab64d5.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-d7bb3d84d987ec16.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-093f253a3bc3c623.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-5d561e097b476d1e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-dfa3bd868fdb8264.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-fb9da51706446e03.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-f2817e2a00de495b.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-8e3f84eb9a986f8e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-26c33f08cbef01da.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-65dd2d48770a670f.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-4f35f67b714124ef.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-61a7b1dd733379c1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-bd2063716b88c5e3.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-1138c5a00fe2cdf9.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-fad78b72fcc70083.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-791904043c817c80.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-ecfeeb161e769e6d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-3b44f9e190a56d08.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-121ec2910dd9950a.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-bc0a6f115b1e0c7d.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-2cb67d1b83b5483e.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-cfd2a5ebc43e35cc.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-84a9f5f352433666.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-9a7c8f6ad347a417.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-355e6a58a8699922.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-3d57c8c4d698ef05.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-48d50bfb849e2ce3.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-a4175a5390dc6934.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-4b379c14df26aae1.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-d25b011318a9820a.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-e204efc6b9dec025.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-be94056ab8967994.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-169c7a04853fedfe.arrow
+WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-3c975d98fca8b01e.arrow
+WARNING:datasets.arrow_dataset:Loading cached shuffled indices for dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-72754550393bd27b.arrow
+WARNING:datasets.arrow_dataset:Loading cached shuffled indices for dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-7bf74cab31d17a04.arrow
+WARNING:datasets.arrow_dataset:Loading cached shuffled indices for dataset at /home/javierr/.cache/huggingface/datasets/NbAiLab___npsc/16K_mp3/1.0.0/7e6298330579d622e10a8d4637959161ad242d9af9212c25aaa958b55df675fc/cache-bde0796d68afa9b7.arrow
+loading configuration file ./config.json
+/data/flax/lib/python3.8/site-packages/transformers/configuration_utils.py:368: UserWarning: Passing `gradient_checkpointing` to a config initialization is deprecated and will be removed in v5 Transformers. Using `model.gradient_checkpointing_enable()` instead, or if you are using the `Trainer` API, pass `gradient_checkpointing=True` in your `TrainingArguments`.
+  warnings.warn(
+Model config Wav2Vec2Config {
+  "activation_dropout": 0.055,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.094,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 1024,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": true,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.04,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "fuse_matmuls": false,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.047,
+  "hidden_size": 1280,
+  "initializer_range": 0.02,
+  "intermediate_size": 5120,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.041,
+  "mask_feature_length": 64,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.25,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.082,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 48,
+  "num_negatives": 100,
+  "output_hidden_size": 1280,
+  "pad_token_id": 38,
+  "proj_codevector_dim": 1024,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.21.0",
+  "use_scan": false,
+  "use_weighted_layer_sum": false,
+  "vocab_size": 39,
+  "xvector_output_dim": 512
+}
+loading feature extractor configuration file ./preprocessor_config.json
+Feature extractor Wav2Vec2FeatureExtractor {
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}
+loading file ./vocab.json
+loading file ./tokenizer_config.json
+loading file ./added_tokens.json
+loading file ./special_tokens_map.json
+Adding <s> to the vocabulary
+Adding </s> to the vocabulary
+loading weights file ./flax_model.msgpack
+Loading PyTorch weights from /data/wav2vec2-1b-npsc-nst/flax_model.msgpack
+Traceback (most recent call last):
+  File "run_flax_speech_recognition_ctc.py", line 1615, in <module>
+    main()
+  File "run_flax_speech_recognition_ctc.py", line 1002, in main
+    model = FlaxWav2Vec2ForCTC.from_pretrained(
+  File "/data/flax/lib/python3.8/site-packages/transformers/modeling_flax_utils.py", line 783, in from_pretrained
+    state = load_pytorch_checkpoint_in_flax_state_dict(model, resolved_archive_file)
+  File "/data/flax/lib/python3.8/site-packages/transformers/modeling_flax_pytorch_utils.py", line 56, in load_pytorch_checkpoint_in_flax_state_dict
+    pt_state_dict = torch.load(pt_path, map_location="cpu")
+  File "/data/flax/lib/python3.8/site-packages/torch/serialization.py", line 713, in load
+    return _legacy_load(opened_file, map_location, pickle_module, **pickle_load_args)
+  File "/data/flax/lib/python3.8/site-packages/torch/serialization.py", line 920, in _legacy_load
+    magic_number = pickle_module.load(f, **pickle_load_args)
+ValueError: unregistered extension code 167

wandb/run-20220802_073947-3q3jac0b/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,158 @@

+absl-py==1.0.0
+aiohttp==3.8.1
+aiosignal==1.2.0
+appdirs==1.4.4
+astunparse==1.6.3
+async-timeout==4.0.2
+attrs==21.4.0
+audioread==2.1.9
+backcall==0.2.0
+cachetools==4.2.4
+certifi==2021.10.8
+cffi==1.15.1
+charset-normalizer==2.0.10
+chex==0.1.3
+click==8.0.3
+cloud-tpu-client==0.10
+cloud-tpu-profiler==2.4.0
+clu==0.0.6
+colorama==0.4.5
+commonmark==0.9.1
+configparser==5.2.0
+contextlib2==21.6.0
+cycler==0.11.0
+datasets==2.4.0
+decorator==5.1.0
+dill==0.3.4
+dm-tree==0.1.6
+docker-pycreds==0.4.0
+etils==0.6.0
+exceptiongroup==1.0.0rc8
+filelock==3.4.2
+flatbuffers==2.0
+flax==0.5.3
+fonttools==4.28.5
+frozenlist==1.2.0
+fsspec==2021.11.1
+future==0.18.2
+gast==0.4.0
+gitdb==4.0.9
+gitpython==3.1.26
+google-api-core==1.31.5
+google-api-python-client==1.8.0
+google-auth-httplib2==0.1.0
+google-auth-oauthlib==0.4.6
+google-auth==2.3.3
+google-pasta==0.2.0
+googleapis-common-protos==1.54.0
+grpcio==1.43.0
+h5py==3.6.0
+httplib2==0.20.2
+huggingface-hub==0.2.1
+hypothesis==6.53.0
+idna==3.3
+importlib-metadata==4.10.0
+importlib-resources==5.4.0
+ipython==7.31.0
+jax==0.3.15
+jaxlib==0.3.15
+jedi==0.18.1
+jiwer==2.3.0
+joblib==1.1.0
+keras-preprocessing==1.1.2
+keras==2.7.0
+kiwisolver==1.3.2
+libclang==12.0.0
+librosa==0.9.2
+libtpu-nightly==0.1.dev20220722
+llvmlite==0.39.0
+markdown==3.3.6
+matplotlib-inline==0.1.3
+matplotlib==3.5.1
+ml-collections==0.1.0
+msgpack==1.0.3
+multidict==5.2.0
+multiprocess==0.70.12.2
+numba==0.56.0
+numpy==1.22.0
+oauth2client==4.1.3
+oauthlib==3.1.1
+opt-einsum==3.3.0
+optax==0.1.3
+packaging==21.3
+pandas==1.3.5
+parso==0.8.3
+pathtools==0.1.2
+pexpect==4.8.0
+pickleshare==0.7.5
+pillow==9.0.0
+pip==22.2.1
+pkg-resources==0.0.0
+pooch==1.6.0
+promise==2.3
+prompt-toolkit==3.0.24
+protobuf==3.19.1
+psutil==5.9.0
+ptyprocess==0.7.0
+pyarrow==6.0.1
+pyasn1-modules==0.2.8
+pyasn1==0.4.8
+pycparser==2.21
+pyctcdecode==0.4.0
+pygments==2.11.1
+pygtrie==2.5.0
+pyparsing==3.0.6
+python-dateutil==2.8.2
+python-levenshtein==0.12.2
+pytz==2021.3
+pyyaml==6.0
+regex==2021.11.10
+requests-oauthlib==1.3.0
+requests==2.27.0
+resampy==0.3.1
+responses==0.18.0
+rich==11.2.0
+rsa==4.8
+sacremoses==0.0.46
+scikit-learn==1.1.1
+scipy==1.7.3
+sentry-sdk==1.5.2
+setuptools==44.0.0
+shortuuid==1.0.8
+six==1.16.0
+smmap==5.0.0
+sortedcontainers==2.4.0
+soundfile==0.10.3.post1
+sox==1.4.1
+subprocess32==3.5.4
+tensorboard-data-server==0.6.1
+tensorboard-plugin-wit==1.8.0
+tensorboard==2.7.0
+tensorflow-cpu==2.7.0
+tensorflow-datasets==4.4.0
+tensorflow-estimator==2.7.0
+tensorflow-io-gcs-filesystem==0.23.1
+tensorflow-metadata==1.5.0
+tensorflow==2.7.0
+tensorstore==0.1.21
+termcolor==1.1.0
+threadpoolctl==3.1.0
+tokenizers==0.11.2
+toolz==0.11.2
+torch==1.12.0
+torchaudio==0.12.0+cpu
+tqdm==4.62.3
+traitlets==5.1.1
+transformers==4.21.0
+typing-extensions==4.3.0
+uritemplate==3.0.1
+urllib3==1.26.7
+wandb==0.12.9
+wcwidth==0.2.5
+werkzeug==2.0.2
+wheel==0.37.1
+wrapt==1.13.3
+xxhash==2.0.2
+yarl==1.7.2
+yaspin==2.1.0
+zipp==3.7.0

wandb/run-20220802_073947-3q3jac0b/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,69 @@

+{
+    "os": "Linux-5.4.0-1043-gcp-x86_64-with-glibc2.29",
+    "python": "3.8.10",
+    "heartbeatAt": "2022-08-02T07:39:51.312631",
+    "startedAt": "2022-08-02T07:39:47.832662",
+    "docker": null,
+    "cpu_count": 96,
+    "cuda": null,
+    "args": [
+        "--model_name_or_path=./",
+        "--hub_model_id=NbAiLab/wav2vec2-1b-npsc-nst",
+        "--tokenizer_name=./",
+        "--output_dir=./",
+        "--overwrite_output_dir",
+        "--num_train_epochs=40",
+        "--per_device_train_batch_size=8",
+        "--per_device_eval_batch_size=8",
+        "--gradient_accumulation_steps=1",
+        "--precision=full_mixed",
+        "--matmul_precision=bfloat16",
+        "--learning_rate=0.00033713760785758495",
+        "--skip_steps=33100",
+        "--warmup_steps=0",
+        "--length_column_name=input_length",
+        "--evaluation_strategy=steps",
+        "--text_column_name=text",
+        "--save_steps=4000",
+        "--eval_steps=4000",
+        "--logging_steps=100",
+        "--layerdrop=0.041",
+        "--attention_dropout=0.094",
+        "--activation_dropout=0.055",
+        "--hidden_dropout=0.047",
+        "--save_total_limit=5",
+        "--freeze_feature_encoder",
+        "--feat_proj_dropout=0.04",
+        "--mask_time_prob=0.082",
+        "--mask_time_length=10",
+        "--mask_feature_prob=0.25",
+        "--mask_feature_length=64",
+        "--gradient_checkpointing",
+        "--min_duration_in_seconds=0.5",
+        "--max_duration_in_seconds=20.0",
+        "--use_auth_token",
+        "--seed=42",
+        "--group_by_length",
+        "--do_train",
+        "--do_eval",
+        "--push_to_hub",
+        "--preprocessing_num_workers=32",
+        "--ctc_zero_infinity",
+        "--do_lower_case",
+        "--wandb_project=wav2vec2",
+        "--wandb_name=wav2vec2-1b-npsc-nst (cont.)",
+        "--remove_punctuation"
+    ],
+    "state": "running",
+    "program": "run_flax_speech_recognition_ctc.py",
+    "codePath": "run_flax_speech_recognition_ctc.py",
+    "git": {
+        "remote": "https://huggingface.co/NbAiLab/wav2vec2-1b-npsc-nst",
+        "commit": "4f995e8718adff5045133dd384c7aa42ebe89fa9"
+    },
+    "email": "versae@gmail.com",
+    "root": "/data/wav2vec2-1b-npsc-nst",
+    "host": "t1v-n-eedfb410-w-0",
+    "username": "javierr",
+    "executable": "/data/flax/bin/python"
+}

wandb/run-20220802_073947-3q3jac0b/files/wandb-summary.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"_wandb": {"runtime": 33}}

wandb/run-20220802_073947-3q3jac0b/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,160 @@

+2022-08-02 07:39:48,765 INFO    MainThread:3977817 [internal.py:wandb_internal():87] W&B internal server running at pid: 3977817, started at: 2022-08-02 07:39:48.765289
+2022-08-02 07:39:48,767 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: check_version
+2022-08-02 07:39:48,767 INFO    WriterThread:3977817 [datastore.py:open_for_write():77] open: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/run-3q3jac0b.wandb
+2022-08-02 07:39:48,768 DEBUG   SenderThread:3977817 [sender.py:send():234] send: header
+2022-08-02 07:39:48,768 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: check_version
+2022-08-02 07:39:48,809 DEBUG   SenderThread:3977817 [sender.py:send():234] send: run
+2022-08-02 07:39:49,023 INFO    SenderThread:3977817 [dir_watcher.py:__init__():169] watching files in: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files
+2022-08-02 07:39:49,023 INFO    SenderThread:3977817 [sender.py:_start_run_threads():804] run started: 3q3jac0b with start time 1659425987
+2022-08-02 07:39:49,023 DEBUG   SenderThread:3977817 [sender.py:send():234] send: summary
+2022-08-02 07:39:49,023 INFO    SenderThread:3977817 [sender.py:_save_file():939] saving file wandb-summary.json with policy end
+2022-08-02 07:39:49,023 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: run_start
+2022-08-02 07:39:50,029 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/wandb-summary.json
+2022-08-02 07:39:51,312 DEBUG   HandlerThread:3977817 [meta.py:__init__():40] meta init
+2022-08-02 07:39:51,312 DEBUG   HandlerThread:3977817 [meta.py:__init__():54] meta init done
+2022-08-02 07:39:51,312 DEBUG   HandlerThread:3977817 [meta.py:probe():214] probe
+2022-08-02 07:39:51,314 DEBUG   HandlerThread:3977817 [meta.py:_setup_git():204] setup git
+2022-08-02 07:39:51,353 DEBUG   HandlerThread:3977817 [meta.py:_setup_git():211] setup git done
+2022-08-02 07:39:51,353 DEBUG   HandlerThread:3977817 [meta.py:_save_code():92] save code
+2022-08-02 07:39:51,366 DEBUG   HandlerThread:3977817 [meta.py:_save_code():113] save code done
+2022-08-02 07:39:51,366 DEBUG   HandlerThread:3977817 [meta.py:_save_patches():130] save patches
+2022-08-02 07:39:52,034 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/code/run_flax_speech_recognition_ctc.py
+2022-08-02 07:39:52,035 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/diff.patch
+2022-08-02 07:39:52,035 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/code
+2022-08-02 07:39:52,344 DEBUG   HandlerThread:3977817 [meta.py:_save_patches():172] save patches done
+2022-08-02 07:39:52,344 DEBUG   HandlerThread:3977817 [meta.py:_save_pip():58] save pip
+2022-08-02 07:39:52,345 DEBUG   HandlerThread:3977817 [meta.py:_save_pip():72] save pip done
+2022-08-02 07:39:52,345 DEBUG   HandlerThread:3977817 [meta.py:probe():252] probe done
+2022-08-02 07:39:52,364 DEBUG   SenderThread:3977817 [sender.py:send():234] send: files
+2022-08-02 07:39:52,364 INFO    SenderThread:3977817 [sender.py:_save_file():939] saving file wandb-metadata.json with policy now
+2022-08-02 07:39:52,365 INFO    SenderThread:3977817 [sender.py:_save_file():939] saving file code/run_flax_speech_recognition_ctc.py with policy now
+2022-08-02 07:39:52,366 INFO    SenderThread:3977817 [sender.py:_save_file():939] saving file diff.patch with policy now
+2022-08-02 07:39:52,372 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:39:52,372 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:39:53,034 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/diff.patch
+2022-08-02 07:39:53,036 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/wandb-metadata.json
+2022-08-02 07:39:53,036 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:39:53,036 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/requirements.txt
+2022-08-02 07:39:53,060 INFO    Thread-12 :3977817 [upload_job.py:push():137] Uploaded file /tmp/tmpki5sholowandb/19x6t1r2-code/run_flax_speech_recognition_ctc.py
+2022-08-02 07:39:53,064 INFO    Thread-13 :3977817 [upload_job.py:push():137] Uploaded file /tmp/tmpki5sholowandb/2lizhqc0-diff.patch
+2022-08-02 07:39:53,447 INFO    Thread-11 :3977817 [upload_job.py:push():137] Uploaded file /tmp/tmpki5sholowandb/5wl8ghg8-wandb-metadata.json
+2022-08-02 07:39:55,035 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:39:57,036 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:39:59,037 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:40:01,038 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:40:07,041 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:40:07,521 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:40:07,522 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:40:19,401 DEBUG   SenderThread:3977817 [sender.py:send():234] send: stats
+2022-08-02 07:40:21,048 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:40:22,156 DEBUG   SenderThread:3977817 [sender.py:send():234] send: telemetry
+2022-08-02 07:40:22,156 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:22,157 DEBUG   SenderThread:3977817 [sender.py:send():234] send: exit
+2022-08-02 07:40:22,157 INFO    SenderThread:3977817 [sender.py:send_exit():366] handling exit code: 1
+2022-08-02 07:40:22,157 INFO    SenderThread:3977817 [sender.py:send_exit():368] handling runtime: 33
+2022-08-02 07:40:22,160 INFO    SenderThread:3977817 [sender.py:_save_file():939] saving file wandb-summary.json with policy end
+2022-08-02 07:40:22,160 INFO    SenderThread:3977817 [sender.py:send_exit():374] send defer
+2022-08-02 07:40:22,160 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:22,161 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:22,161 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 0
+2022-08-02 07:40:22,161 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:22,161 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 0
+2022-08-02 07:40:22,161 INFO    SenderThread:3977817 [sender.py:transition_state():387] send defer: 1
+2022-08-02 07:40:22,162 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:22,162 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 1
+2022-08-02 07:40:22,208 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:22,208 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 1
+2022-08-02 07:40:22,209 INFO    SenderThread:3977817 [sender.py:transition_state():387] send defer: 2
+2022-08-02 07:40:22,209 DEBUG   SenderThread:3977817 [sender.py:send():234] send: stats
+2022-08-02 07:40:22,209 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:22,209 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 2
+2022-08-02 07:40:22,209 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:22,209 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 2
+2022-08-02 07:40:22,210 INFO    SenderThread:3977817 [sender.py:transition_state():387] send defer: 3
+2022-08-02 07:40:22,210 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:22,210 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 3
+2022-08-02 07:40:22,210 DEBUG   SenderThread:3977817 [sender.py:send():234] send: summary
+2022-08-02 07:40:22,210 INFO    SenderThread:3977817 [sender.py:_save_file():939] saving file wandb-summary.json with policy end
+2022-08-02 07:40:22,210 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:22,210 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 3
+2022-08-02 07:40:22,210 INFO    SenderThread:3977817 [sender.py:transition_state():387] send defer: 4
+2022-08-02 07:40:22,211 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:22,211 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 4
+2022-08-02 07:40:22,211 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:22,211 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 4
+2022-08-02 07:40:22,262 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:22,374 INFO    SenderThread:3977817 [sender.py:transition_state():387] send defer: 5
+2022-08-02 07:40:22,374 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:22,374 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:22,375 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 5
+2022-08-02 07:40:22,375 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:22,375 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 5
+2022-08-02 07:40:22,375 INFO    SenderThread:3977817 [dir_watcher.py:finish():283] shutting down directory watcher
+2022-08-02 07:40:22,475 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:23,049 INFO    Thread-8  :3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/wandb-summary.json
+2022-08-02 07:40:23,050 INFO    SenderThread:3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/config.yaml
+2022-08-02 07:40:23,051 INFO    SenderThread:3977817 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:40:23,051 INFO    SenderThread:3977817 [dir_watcher.py:finish():313] scan: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files
+2022-08-02 07:40:23,051 INFO    SenderThread:3977817 [dir_watcher.py:finish():327] scan save: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/config.yaml config.yaml
+2022-08-02 07:40:23,051 INFO    SenderThread:3977817 [dir_watcher.py:finish():327] scan save: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/diff.patch diff.patch
+2022-08-02 07:40:23,051 INFO    SenderThread:3977817 [dir_watcher.py:finish():327] scan save: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/requirements.txt requirements.txt
+2022-08-02 07:40:23,051 INFO    SenderThread:3977817 [dir_watcher.py:finish():327] scan save: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log output.log
+2022-08-02 07:40:23,052 INFO    SenderThread:3977817 [dir_watcher.py:finish():327] scan save: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/wandb-summary.json wandb-summary.json
+2022-08-02 07:40:23,052 INFO    SenderThread:3977817 [dir_watcher.py:finish():327] scan save: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/wandb-metadata.json wandb-metadata.json
+2022-08-02 07:40:23,052 INFO    SenderThread:3977817 [dir_watcher.py:finish():327] scan save: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/code/run_flax_speech_recognition_ctc.py code/run_flax_speech_recognition_ctc.py
+2022-08-02 07:40:23,052 INFO    SenderThread:3977817 [sender.py:transition_state():387] send defer: 6
+2022-08-02 07:40:23,058 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:23,059 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:23,065 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 6
+2022-08-02 07:40:23,065 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:23,065 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 6
+2022-08-02 07:40:23,065 INFO    SenderThread:3977817 [file_pusher.py:finish():177] shutting down file pusher
+2022-08-02 07:40:23,160 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:23,161 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:23,262 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:23,263 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:23,364 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:23,364 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:23,466 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:23,466 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:23,546 INFO    Thread-14 :3977817 [upload_job.py:push():137] Uploaded file /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/config.yaml
+2022-08-02 07:40:23,555 INFO    Thread-16 :3977817 [upload_job.py:push():137] Uploaded file /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/output.log
+2022-08-02 07:40:23,568 INFO    Thread-15 :3977817 [upload_job.py:push():137] Uploaded file /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/requirements.txt
+2022-08-02 07:40:23,568 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:23,568 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:23,579 INFO    Thread-17 :3977817 [upload_job.py:push():137] Uploaded file /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/files/wandb-summary.json
+2022-08-02 07:40:23,670 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:23,670 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:23,772 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:23,772 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:23,780 INFO    Thread-7  :3977817 [sender.py:transition_state():387] send defer: 7
+2022-08-02 07:40:23,780 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:23,781 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 7
+2022-08-02 07:40:23,781 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:23,781 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 7
+2022-08-02 07:40:23,873 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:24,259 INFO    SenderThread:3977817 [sender.py:transition_state():387] send defer: 8
+2022-08-02 07:40:24,260 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:24,260 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:24,260 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 8
+2022-08-02 07:40:24,261 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:24,261 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 8
+2022-08-02 07:40:24,261 INFO    SenderThread:3977817 [sender.py:transition_state():387] send defer: 9
+2022-08-02 07:40:24,261 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: defer
+2022-08-02 07:40:24,261 INFO    HandlerThread:3977817 [handler.py:handle_request_defer():147] handle defer: 9
+2022-08-02 07:40:24,262 DEBUG   SenderThread:3977817 [sender.py:send():234] send: final
+2022-08-02 07:40:24,262 DEBUG   SenderThread:3977817 [sender.py:send():234] send: footer
+2022-08-02 07:40:24,262 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: defer
+2022-08-02 07:40:24,262 INFO    SenderThread:3977817 [sender.py:send_request_defer():383] handle sender defer: 9
+2022-08-02 07:40:24,361 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: poll_exit
+2022-08-02 07:40:24,361 DEBUG   SenderThread:3977817 [sender.py:send_request():248] send_request: poll_exit
+2022-08-02 07:40:24,362 INFO    SenderThread:3977817 [file_pusher.py:join():182] waiting for file pusher
+2022-08-02 07:40:24,617 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: get_summary
+2022-08-02 07:40:24,618 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: sampled_history
+2022-08-02 07:40:24,618 DEBUG   HandlerThread:3977817 [handler.py:handle_request():130] handle_request: shutdown
+2022-08-02 07:40:24,619 INFO    HandlerThread:3977817 [handler.py:finish():731] shutting down handler
+2022-08-02 07:40:25,262 INFO    WriterThread:3977817 [datastore.py:close():281] close: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/run-3q3jac0b.wandb
+2022-08-02 07:40:25,616 INFO    SenderThread:3977817 [sender.py:finish():1070] shutting down sender
+2022-08-02 07:40:25,616 INFO    SenderThread:3977817 [file_pusher.py:finish():177] shutting down file pusher
+2022-08-02 07:40:25,616 INFO    SenderThread:3977817 [file_pusher.py:join():182] waiting for file pusher
+2022-08-02 07:40:25,619 INFO    MainThread:3977817 [internal.py:handle_exit():77] Internal process exited

wandb/run-20220802_073947-3q3jac0b/logs/debug.log ADDED Viewed

	@@ -0,0 +1,139 @@

+2022-08-02 07:39:47,835 INFO    MainThread:3976529 [wandb_setup.py:_flush():71] setting env: {'project': 'wav2vec2', 'entity': 'NbAiLab'}
+2022-08-02 07:39:47,835 INFO    MainThread:3976529 [wandb_setup.py:_flush():71] setting login settings: {}
+2022-08-02 07:39:47,835 INFO    MainThread:3976529 [wandb_init.py:_log_setup():371] Logging user logs to /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/logs/debug.log
+2022-08-02 07:39:47,835 INFO    MainThread:3976529 [wandb_init.py:_log_setup():372] Logging internal logs to /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_073947-3q3jac0b/logs/debug-internal.log
+2022-08-02 07:39:47,835 INFO    MainThread:3976529 [wandb_init.py:init():404] calling init triggers
+2022-08-02 07:39:47,835 INFO    MainThread:3976529 [wandb_init.py:init():409] wandb.init called with sweep_config: {}
+config: {}
+2022-08-02 07:39:47,835 INFO    MainThread:3976529 [wandb_init.py:init():460] starting backend
+2022-08-02 07:39:47,835 INFO    MainThread:3976529 [backend.py:_multiprocessing_setup():99] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2022-08-02 07:39:47,883 INFO    MainThread:3976529 [backend.py:ensure_launched():216] starting backend process...
+2022-08-02 07:39:47,927 INFO    MainThread:3976529 [backend.py:ensure_launched():221] started backend process with pid: 3977817
+2022-08-02 07:39:47,930 INFO    MainThread:3976529 [wandb_init.py:init():469] backend started and connected
+2022-08-02 07:39:47,948 INFO    MainThread:3976529 [wandb_init.py:init():533] updated telemetry
+2022-08-02 07:39:48,061 INFO    MainThread:3976529 [wandb_init.py:init():563] communicating current version
+2022-08-02 07:39:48,807 INFO    MainThread:3976529 [wandb_init.py:init():568] got version response upgrade_message: "wandb version 0.12.21 is available!  To upgrade, please run:\n $ pip install wandb --upgrade"
+2022-08-02 07:39:48,808 INFO    MainThread:3976529 [wandb_init.py:init():578] communicating run to backend with 30 second timeout
+2022-08-02 07:39:49,023 INFO    MainThread:3976529 [wandb_init.py:init():606] starting run threads in backend
+2022-08-02 07:39:52,368 INFO    MainThread:3976529 [wandb_run.py:_console_start():1810] atexit reg
+2022-08-02 07:39:52,369 INFO    MainThread:3976529 [wandb_run.py:_redirect():1684] redirect: SettingsConsole.REDIRECT
+2022-08-02 07:39:52,369 INFO    MainThread:3976529 [wandb_run.py:_redirect():1689] Redirecting console.
+2022-08-02 07:39:52,371 INFO    MainThread:3976529 [wandb_run.py:_redirect():1745] Redirects installed.
+2022-08-02 07:39:52,371 INFO    MainThread:3976529 [wandb_init.py:init():633] run started, returning control to user process
+2022-08-02 07:40:20,016 INFO    MainThread:3976529 [wandb_run.py:_atexit_cleanup():1780] got exitcode: 1
+2022-08-02 07:40:20,018 INFO    MainThread:3976529 [wandb_run.py:_restore():1752] restore
+2022-08-02 07:40:22,161 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 2
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 484657
+  total_bytes: 484657
+}
+2022-08-02 07:40:22,375 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 2
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 484657
+  total_bytes: 484657
+}
+2022-08-02 07:40:23,059 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 484657
+  total_bytes: 544336
+}
+2022-08-02 07:40:23,161 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 484657
+  total_bytes: 544336
+}
+2022-08-02 07:40:23,263 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 544336
+  total_bytes: 544336
+}
+2022-08-02 07:40:23,365 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 544336
+  total_bytes: 544336
+}
+2022-08-02 07:40:23,467 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 544336
+  total_bytes: 544336
+}
+2022-08-02 07:40:23,569 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 544336
+  total_bytes: 544336
+}
+2022-08-02 07:40:23,671 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 544336
+  total_bytes: 544336
+}
+2022-08-02 07:40:23,773 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 544336
+  total_bytes: 544336
+}
+2022-08-02 07:40:24,260 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 544336
+  total_bytes: 544336
+}
+2022-08-02 07:40:24,616 INFO    MainThread:3976529 [wandb_run.py:_wait_for_finish():1912] got exit ret: done: true
+exit_result {
+}
+file_counts {
+  wandb_count: 6
+  other_count: 1
+}
+pusher_stats {
+  uploaded_bytes: 544336
+  total_bytes: 544336
+}
+local_info {
+}
+2022-08-02 07:40:26,145 INFO    MainThread:3976529 [wandb_run.py:_append_files():2180] logging synced files

wandb/run-20220802_073947-3q3jac0b/run-3q3jac0b.wandb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbacd374c2df78d05cf4c0353094781230fcd46c659507728e7ee459a84af474
+size 57535

wandb/run-20220802_074501-31ig5poi/files/code/run_flax_speech_recognition_ctc.py ADDED Viewed

	@@ -0,0 +1,1625 @@

+#!/usr/bin/env python
+# coding=utf-8
+# Copyright 2022 The HuggingFace Team All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+Fine-tuning the Flax library models for connectionist temporal classification (CTC) speech recognition.
+"""
+# You can also adapt this script on your own sequence to sequence task. Pointers for this are left as comments.
+import logging
+import math
+import os
+import re
+import sys
+import time
+from dataclasses import dataclass, field
+from pathlib import Path
+from typing import Any, Callable, Dict, List, Optional, Union
+import datasets
+import numpy as np
+from datasets import DatasetDict, load_dataset, load_metric
+from tqdm import tqdm
+import flax
+import jax
+import jax.numpy as jnp
+import optax
+import transformers
+import wandb as wandb
+from flax import core, jax_utils, struct, traverse_util
+from flax.jax_utils import unreplicate, pad_shard_unpad
+from flax.training.common_utils import get_metrics, shard, shard_prng_key
+from huggingface_hub import Repository
+from models import Wav2Vec2Config, FlaxWav2Vec2ForCTC
+from optax._src import linear_algebra
+from transformers import (
+    AutoFeatureExtractor,
+    AutoProcessor,
+    AutoTokenizer,
+    HfArgumentParser,
+    TrainingArguments,
+    is_tensorboard_available,
+    set_seed,
+)
+from transformers.file_utils import get_full_repo_name
+from transformers.utils import check_min_version
+from transformers.utils.versions import require_version
+# Will error if the minimal version of Transformers is not installed. Remove at your own risks.
+check_min_version("4.17.0.dev0")
+require_version("datasets>=1.18.0", "To fix: pip install -r examples/pytorch/speech-recognition/requirements.txt")
+logger = logging.getLogger(__name__)
+@flax.struct.dataclass
+class ModelArguments:
+    """
+    Arguments pertaining to which model/config/tokenizer we are going to fine-tune from.
+    """
+    model_name_or_path: str = field(
+        metadata={"help": "Path to pretrained model or model identifier from huggingface.co/models"}
+    )
+    config_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained config name or path if not the same as model_name"}
+    )
+    tokenizer_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained tokenizer name or path if not the same as model_name"}
+    )
+    feature_extractor_name: Optional[str] = field(
+        default=None, metadata={"help": "feature extractor name or path if not the same as model_name"}
+    )
+    cache_dir: Optional[str] = field(
+        default=None,
+        metadata={"help": "Where to store the pretrained models downloaded from huggingface.co"},
+    )
+    use_fast_tokenizer: bool = field(
+        default=True,
+        metadata={"help": "Whether to use one of the fast tokenizer (backed by the tokenizers library) or not."},
+    )
+    model_revision: str = field(
+        default="main",
+        metadata={"help": "The specific model version to use (can be a branch name, tag name or commit id)."},
+    )
+    use_auth_token: bool = field(
+        default=False,
+        metadata={
+            "help": "Will use the token generated when running `transformers-cli login` (necessary to use this script "
+            "with private models)."
+        },
+    )
+    freeze_feature_encoder: bool = field(
+        default=True, metadata={"help": "Whether to freeze the feature encoder layers of the model."}
+    )
+    attention_dropout: float = field(
+        default=0.0, metadata={"help": "The dropout ratio for the attention probabilities."}
+    )
+    activation_dropout: float = field(
+        default=0.1,
+        metadata={
+            "help": "The hidden activation dropout probability in the embeddings, encoder, and pooler."
+        },
+    )
+    hidden_dropout: float = field(
+        default=0.1,
+        metadata={
+            "help": "The dropout probability for all fully connected layers in the embeddings, encoder, and pooler."
+        },
+    )
+    feat_proj_dropout: float = field(
+        default=0.0,
+        metadata={
+            "help": "The feat proj dropout probability for feature encoder representations."
+        },
+    )
+    final_dropout: float = field(
+        default=0.0,
+        metadata={"help": "The dropout probability for the final projection layer."},
+    )
+    mask_time_prob: float = field(
+        default=0.1,
+        metadata={
+            "help": "The spec aug dropout probability for feature encoder representations."
+        },
+    )
+    mask_time_length: int = field(
+        default=10,
+        metadata={"help": "Length of vector span to mask along the time axis."},
+    )
+    mask_feature_prob: float = field(
+        default=0.0,
+        metadata={
+            "help": "Probability of each feature vector along the feature axis to be chosen as the start of the vector"
+                    "span to be masked. Approximately ``mask_feature_prob * sequence_length // mask_feature_length`` feature bins will be masked along the time axis."
+        },
+    )
+    mask_feature_length: int = field(
+        default=10,
+        metadata={"help": "Length of vector span to mask along the feature axis."},
+    )
+    layerdrop: float = field(default=0.0, metadata={"help": "The LayerDrop probability."})
+    ctc_loss_reduction: Optional[str] = field(
+        default="mean", metadata={"help": "The way the ctc loss should be reduced. Should be one of 'mean' or 'sum'."}
+    )
+    ctc_zero_infinity: Optional[bool] = field(
+        default=False, metadata={"help": "If True, will try yo aboud the CTC loss goinf to infinity."}
+    )
+@flax.struct.dataclass
+class DataTrainingArguments:
+    """
+    Arguments pertaining to what data we are going to input our model for training and eval.
+    """
+    dataset_name: str = field(
+        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
+    )
+    dataset_config_name: Optional[str] = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    text_column: Optional[str] = field(
+        default=None,
+        metadata={"help": "The name of the column in the datasets containing the full texts (for summarization)."},
+    )
+    dataset_cache_dir: Optional[str] = field(
+        default=None, metadata={"help": "Path to cache directory for saving and loading datasets"}
+    )
+    overwrite_cache: bool = field(
+        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
+    )
+    preprocessing_num_workers: Optional[int] = field(
+        default=None,
+        metadata={"help": "The number of processes to use for the preprocessing."},
+    )
+    max_train_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
+            "value if set."
+        },
+    )
+    max_eval_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
+            "value if set."
+        },
+    )
+    max_test_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of test examples to this "
+            "value if set."
+        },
+    )
+    audio_column_name: str = field(
+        default="audio",
+        metadata={"help": "The name of the dataset column containing the audio data. Defaults to 'audio'"},
+    )
+    text_column_name: str = field(
+        default="text",
+        metadata={"help": "The name of the dataset column containing the text data. Defaults to 'text'"},
+    )
+    max_duration_in_seconds: float = field(
+        default=20.0,
+        metadata={
+            "help": "Truncate audio files that are longer than `max_duration_in_seconds` seconds to 'max_duration_in_seconds`"
+        },
+    )
+    min_duration_in_seconds: float = field(
+        default=0.0, metadata={"help": "Filter audio files that are shorter than `min_duration_in_seconds` seconds"}
+    )
+    max_label_length: Optional[int] = field(
+        default=512,
+        metadata={
+            "help": "The minimum total sequence length for target text after tokenization. Sequences shorter "
+            "than this will be filtered."
+        },
+    )
+    min_label_length: Optional[int] = field(
+        default=2,
+        metadata={
+            "help": "The minimum total sequence length for target text after tokenization. Sequences shorter "
+            "than this will be filtered."
+        },
+    )
+    pad_input_to_multiple_of: Optional[int] = field(
+        default=32000,
+        metadata={
+            "help": "If set will pad the input sequence to a multiple of the provided value. "
+            "This is important to avoid triggering recompilations on TPU."
+        },
+    )
+    pad_target_to_multiple_of: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "If set will pad the target sequence to a multiple of the provided value. "
+            "This is important to avoid triggering recompilations on TPU."
+        },
+    )
+    preprocessing_only: bool = field(
+        default=False,
+        metadata={
+            "help": "Whether to only do data preprocessing and skip training. "
+            "This is especially useful when data preprocessing errors out in distributed training due to timeout. "
+            "In this case, one should run the preprocessing in a non-distributed setup with `preprocessing_only=True` "
+            "so that the cached datasets can consequently be loaded in distributed training"
+        },
+    )
+    train_split_name: str = field(
+        default="train",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    eval_split_name: str = field(
+        default="validation",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    do_lower_case: bool = field(
+        default=True,
+        metadata={"help": "Whether the target text should be lower cased."},
+    )
+    wandb_project: str = field(
+        default="flax-speech-recognition-ctc",
+        metadata={"help": "The name of the wandb project."},
+    )
+    wandb_name: str = field(
+        default=None,
+        metadata={"help": "The name of the wandb run."},
+    )
+    wandb_job_type: str = field(
+        default="CTC",
+        metadata={"help": "The name of the wandb job type."},
+    )
+    test_split_name: str = field(
+        default="test",
+        metadata={"help": "The name of the test data set split to use (via the datasets library). Defaults to 'test'"},
+    )
+    remove_punctuation: bool = field(
+        default=False, metadata={"help": "Whether or not to remove punctuation during training."}
+    )
+    skip_steps: Optional[int] = field(
+        default=0,
+        metadata={
+            "help": "Skip this number of steps. Useful to continue training"
+        },
+    )
+# @flax.struct.dataclass
+@dataclass
+class FlaxTrainingArguments(TrainingArguments):
+    precision: str = field(
+        default="full",
+        metadata={
+            "help": "Whether to enable mixed-precision training. If true, the optimizer is stored in half-precision (bfloat16) and computations are executed in half-precision"
+            "**Note that this only specifies the dtype of the computation and optimizer state. It does not influence the dtype of model parameters.**"
+        },
+    )
+    matmul_precision: str = field(
+        default="default",
+        metadata={
+            "help": "Default floating-point precision of internal computations used in TPU matrix multiplications and convolutions. "
+            "This configuration option controls the default precision for JAX operations that take an optional precision argument (e.g. `lax.conv_general_dilated` and `lax.dot`). "
+            "This configuration option does not change the behaviours of such calls with explicit precision arguments; "
+            "it only changes the behaviors of calls with no such argument provided. "
+            "One of `['highest', 'float32', 'high', 'bfloat16_3x', 'default', 'bfloat16', 'fastest', None]`."
+        },
+    )
+    multisteps: bool = field(
+        default=False,
+        metadata={
+            "help": "Whether to use Optax MultiSteps for gradient accumulation. If `False` (default) and `gradient_accumulation_steps > 1`, "
+            "a custom gradient accumulation implementation will be employed."
+        },
+    )
+def to_fp32(t):
+    return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+def to_bf16(t):
+    return jax.tree_map(lambda x: x.astype(jnp.bfloat16) if x.dtype == jnp.float32 else x, t)
+class MixedPrecisionTrainState(struct.PyTreeNode):
+    """Train state for use with a single Optax optimizer.
+    Adapted from flax train_state https://github.com/google/flax/blob/main/flax/training/train_state.py
+    Synopsis::
+        state = TrainState.create(
+            apply_fn=model.apply,
+            params=variables['params'],
+            tx=tx)
+        grad_fn = jax.grad(make_loss_fn(state.apply_fn))
+        for batch in data:
+          grads = grad_fn(state.params, batch)
+          state = state.apply_gradients(grads=grads)
+    Args:
+      step: Counter starts at 0 and is incremented by every call to
+        `.apply_gradients()`.
+      apply_fn: Usually set to `model.apply()`. Kept in this dataclass for
+        convenience to have a shorter params list for the `train_step()` function
+        in your training loop.
+      params: The parameters to be updated by `tx` and used by `apply_fn`.
+      tx: An Optax gradient transformation.
+      opt_state: The state for `tx`.
+      dropout_rng: PRNG key for stochastic operations.
+      bf16: Whether to use bf16 16-bit (mixed) precision training instead of 32-bit training.
+    """
+    step: int
+    apply_fn: Callable = struct.field(pytree_node=False)
+    get_attention_mask_fn: Callable = struct.field(pytree_node=False)
+    params: core.FrozenDict[str, Any]
+    tx: optax.GradientTransformation = struct.field(pytree_node=False)
+    opt_state: optax.OptState
+    dropout_rng: jnp.ndarray
+    max_grad_norm: Optional[float] = 1.0
+    def apply_gradients(self, *, grads, to_dtype, **kwargs):
+        """Updates `step`, `params`, `opt_state` and `**kwargs` in return value.
+        Note that internally this function calls `.tx.update()` followed by a call
+        to `optax.apply_updates()` to update `params` and `opt_state`.
+        Args:
+          grads: Gradients that have the same pytree structure as `.params`.
+          **kwargs: Additional dataclass attributes that should be `.replace()`-ed.
+        Returns:
+          An updated instance of `self` with `step` incremented by one, `params`
+          and `opt_state` updated by applying `grads`, and additional attributes
+          replaced as specified by `kwargs`.
+        """
+        # clip gradients by global l2 norm
+        casted_max_grad_norm = to_dtype(self.max_grad_norm)
+        g_norm = linear_algebra.global_norm(grads)
+        g_norm = jnp.maximum(casted_max_grad_norm, g_norm)
+        grads = jax.tree_map(lambda t: (t / g_norm) * casted_max_grad_norm, grads)
+        # perform update step in fp32 and subsequently downcast optimizer states if mixed precision training
+        # grads and opt_state in bf16 (need to upcast), params in fp32 (leave as is)
+        updates, new_opt_state = self.tx.update(to_fp32(grads), to_fp32(self.opt_state), self.params)
+        new_params = optax.apply_updates(self.params, updates)
+        return self.replace(
+            step=self.step + 1,
+            params=new_params,
+            opt_state=to_dtype(new_opt_state),
+            **kwargs,
+        )
+    @classmethod
+    def create(cls, *, apply_fn, params, tx, to_dtype, **kwargs):
+        """Creates a new instance with `step=0` and initialized `opt_state`."""
+        # downcast optimizer state to bf16 if mixed-precision training
+        opt_state = tx.init(to_dtype(params)) if tx is not None else None
+        return cls(
+            step=0,
+            apply_fn=apply_fn,
+            params=params,
+            tx=tx,
+            opt_state=opt_state,
+            **kwargs,
+        )
+    def replicate(self):
+        return jax_utils.replicate(self).replace(dropout_rng=shard_prng_key(self.dropout_rng))
+@flax.struct.dataclass
+class FlaxDataCollatorSpeechSeq2SeqWithPadding:
+    """
+    Data collator that will dynamically pad the inputs received.
+    Args:
+        processor ([`Wav2Vec2Processor`])
+            The processor used for proccessing the data.
+        decoder_start_token_id (:obj: `int`)
+            The begin-of-sentence of the decoder.
+        input_padding (:obj:`bool`, :obj:`str` or :class:`~transformers.tokenization_utils_base.PaddingStrategy`, `optional`, defaults to :obj:`True`):
+            Select a strategy to pad the returned input sequences (according to the model's padding side and padding index)
+            among:
+            * :obj:`True` or :obj:`'longest'`: Pad to the longest sequence in the batch (or no padding if only a single
+              sequence if provided).
+            * :obj:`'max_length'`: Pad to a maximum length specified with the argument :obj:`max_length` or to the
+              maximum acceptable input length for the model if that argument is not provided.
+            * :obj:`False` or :obj:`'do_not_pad'` (default): No padding (i.e., can output a batch with sequences of
+              different lengths).
+        target_padding (:obj:`bool`, :obj:`str` or :class:`~transformers.tokenization_utils_base.PaddingStrategy`, `optional`, defaults to :obj:`True`):
+            Select a strategy to pad the returned target sequences (according to the model's padding side and padding index).
+            See above for details.
+        max_input_length (:obj:`float`, `optional`):
+            Maximum length of the ``input_values`` of the returned list and optionally padding length (see above).
+        pad_input_to_multiple_of (:obj:`int`, `optional`):
+            If set will pad the input sequence to a multiple of the provided value.
+            This is especially useful to enable the use of Tensor Cores on NVIDIA hardware with compute capability >=
+            7.5 (Volta).
+        pad_target_to_multiple_of (:obj:`int`, `optional`):
+            If set will pad the target sequence to a multiple of the provided value.
+            This is especially useful to enable the use of Tensor Cores on NVIDIA hardware with compute capability >=
+            7.5 (Volta).
+    """
+    processor: Any
+    input_padding: Union[bool, str] = "longest"
+    label_padding: Union[bool, str] = "max_length"
+    pad_input_to_multiple_of: Optional[int] = None
+    pad_to_multiple_of_label: Optional[int] = None
+    max_input_length: Optional[float] = None
+    max_label_length: Optional[float] = None
+    def __call__(self, features: List[Dict[str, Union[List[int], np.ndarray]]]) -> Dict[str, np.ndarray]:
+        # split inputs and labels since they have to be of different lengths and need
+        # different padding methods
+        input_features = [{"input_values": feature["input_values"]} for feature in features]
+        label_features = [{"input_ids": feature["labels"]} for feature in features]
+        # reformat list to dict and set to pytorch format
+        batch = self.processor.feature_extractor.pad(
+            input_features,
+            max_length=self.max_input_length,
+            padding=self.input_padding,
+            pad_to_multiple_of=self.pad_input_to_multiple_of,
+            return_tensors="np",
+        )
+        labels_batch = self.processor.tokenizer.pad(
+            label_features,
+            max_length=self.max_label_length,
+            padding=self.label_padding,
+            pad_to_multiple_of=self.pad_to_multiple_of_label,
+            return_tensors="np",
+        )
+        labels = labels_batch["input_ids"]
+        labels = np.ma.array(labels, mask=np.not_equal(labels_batch.attention_mask, 1))
+        labels = labels.filled(fill_value=-100)
+        batch["labels"] = labels
+        return batch
+def get_grouped_indices(
+    dataset, batch_size: int, rng: Optional[List[int]] = None, mega_batch_mult: Optional[int] = None
+) -> np.array:
+    """
+    Adapted from the `get_length_grouped_indices` function in the PyTorch Trainer utils file (https://github.com/huggingface/transformers/blob/main/src/transformers/trainer_pt_utils.py#L486)
+    Function that returns a list of indices in which each slice of `batch_size` consecutive indices correspond to elements of similar
+    lengths. To do this, the indices are:
+    - randomly permuted (if a JAX rng is specified)
+    - grouped in mega-batches of size `mega_batch_mult * batch_size`
+    - sorted by length in each mega-batch
+    The result is the concatenation of all mega-batches, with the batch of `batch_size` containing the element of
+    maximum length placed first, so that an OOM happens sooner rather than later.
+    """
+    lengths = dataset["input_length"]
+    # Default for mega_batch_mult: 50 or the number to get 4 megabatches, whichever is smaller.
+    if mega_batch_mult is None:
+        mega_batch_mult = min(len(lengths) // (batch_size * 4), 50)
+        # Just in case, for tiny datasets
+        if mega_batch_mult == 0:
+            mega_batch_mult = 1
+    # We need to use JAX for the random permutation as the PRNG key will be set based on the seed outside of the sampler.
+    num_samples = len(lengths)
+    indices = jax.random.permutation(rng, np.arange(num_samples)) if rng is not None else np.arange(num_samples)
+    megabatch_size = mega_batch_mult * batch_size
+    megabatches = [indices[i : i + megabatch_size].tolist() for i in range(0, len(lengths), megabatch_size)]
+    megabatches = [list(sorted(megabatch, key=lambda i: lengths[i], reverse=True)) for megabatch in megabatches]
+    # The rest is to get the biggest batch first.
+    # Since each megabatch is sorted by descending length, the longest element is the first
+    megabatch_maximums = [lengths[megabatch[0]] for megabatch in megabatches]
+    max_idx = np.argmax(megabatch_maximums).item()
+    # Switch to put the longest batch in first position
+    # (note that this is different to the PT grouped sampler in which we only put the longest element in the first position, and not its batch)
+    megabatches[0], megabatches[max_idx] = megabatches[max_idx], megabatches[0]
+    megabatches = np.array([i for megabatch in megabatches for i in megabatch])
+    return megabatches
+def generate_batch_splits(samples_idx: np.ndarray, batch_size: int, drop_last=True) -> np.ndarray:
+    """Generate batches of data for a specified batch size from sample indices. If the dataset size is not divisible by
+    the batch size and `drop_last` is `True`, the last incomplete batch is dropped. Else, it is returned."""
+    num_samples = len(samples_idx)
+    if drop_last:
+        samples_to_remove = num_samples % batch_size
+        if samples_to_remove != 0:
+            samples_idx = samples_idx[:-samples_to_remove]
+        sections_split = num_samples // batch_size
+        samples_idx = samples_idx.reshape((sections_split, batch_size))
+    else:
+        sections_split = math.ceil(num_samples / batch_size)
+        samples_idx = np.array_split(samples_idx, sections_split)
+    return samples_idx
+def write_train_metric(summary_writer, train_metrics, train_time, step):
+    summary_writer.scalar("train_time", train_time, step)
+    train_metrics = get_metrics(train_metrics)
+    for key, vals in train_metrics.items():
+        tag = f"train_{key}"
+        for i, val in enumerate(vals):
+            summary_writer.scalar(tag, val, step - len(vals) + i + 1)
+def write_eval_metric(summary_writer, eval_metrics, step, pred_str=None):
+    for metric_name, value in eval_metrics.items():
+        summary_writer.scalar(f"eval_{metric_name}", value, step)
+    if pred_str is not None:
+        # write output actual predictions for debugging
+        summary_writer.text("eval_predictions", "\n".join(pred_str), step)
+def write_wandb_log(metrics, step, prefix=None):
+    if jax.process_index() == 0:
+        log_metrics = {}
+        for k, v in metrics.items():
+            if "layer" in k:
+                log_metrics[f"{k}/"] = v
+            elif prefix is not None:
+                log_metrics[f"{prefix}/{k}"] = v
+            else:
+                log_metrics[k] = v
+        wandb.log(log_metrics, step)
+def write_wandb_pred(pred_str, label_str, step, num_log=50, prefix="eval"):
+    if jax.process_index() == 0:
+        # convert str data to a wandb compatible format
+        str_data = [[label_str[i], pred_str[i]] for i in range(len(pred_str))]
+        # we'll log the first 50 predictions for each epoch
+        wandb.log(
+            {
+                f"{prefix}/step_{int(step / 1000)}k": wandb.Table(
+                    columns=["label_str", "pred_str"], data=str_data[:num_log]
+                )
+            },
+            step,
+        )
+def create_learning_rate_fn(
+    num_train_steps: int, num_warmup_steps: int, learning_rate: float
+) -> Callable[[int], jnp.array]:
+    """Returns a linear warmup, linear_decay learning rate function."""
+    warmup_fn = optax.linear_schedule(init_value=0.0, end_value=learning_rate, transition_steps=num_warmup_steps)
+    decay_fn = optax.linear_schedule(
+        init_value=learning_rate, end_value=0, transition_steps=num_train_steps - num_warmup_steps
+    )
+    schedule_fn = optax.join_schedules(schedules=[warmup_fn, decay_fn], boundaries=[num_warmup_steps])
+    return schedule_fn
+def ctc_loss(
+    logits,
+    logits_attention_mask,
+    labels,
+    blank_id,
+    loss_reduction="mean",
+    output_emission_dict=False,
+    log_epsilon=-100000.0,
+):
+    """Computes CTC loss.
+    This function performs forward computation over an FSA with `N * 2` states
+    where `N` is the max number of labels. The states are split into two groups:
+    Phi states and emission states. a phi-state accepts repetition of
+    phi (blank)-symbols and transits to emission state when the correct label is
+    observed. An emission state accepts repetition of the label and transits to
+    the next phi states at any time (so called epsilon-transition).
+    Below, `B` denotes the batch size, `T` denotes the time steps in `logits`,
+    and `N` denotes the time steps in `labels`.
+    Args:
+      logits: (B, T, K)-array containing log-probabilities of each class.
+      logitpaddings: (B, T)-array. Padding indicators for `logits`.
+      labels: (B, N)-array containing reference integer labels.
+      labelpaddings: (B, N)-array. Padding indicators for `labels`. Currently,
+        `labels` must be right-padded, i.e. each row of `labelpaddings` must be
+        repetition of zeroes, followed by repetition of ones.
+      blank_id: Id for blank token.
+      loss_reduction: one of "mean", "sum", "default"
+        - "none": no reduction is applied.
+        - "mean": output loss will be divided by target lengths and then the
+          mean over the batch is taken.
+        - "sum": output loss are summed over batch
+      output_emission_dict: whether to output additional information about the emission probs
+    Returns:
+      A pair of `(per_seq_loss, aux)`.
+      per_seq_loss:
+        (B,)-array containing loss values for each sequence in the batch.
+      aux: Dictionary containing interim variables used for computing losses.
+        aux['logalpha_phi']: (T, B, N+1)-array. Log-forward-probabilities of each
+          phi-state corresponding to the n-th label.
+        aux['logalpha_emit']: (T, B, N)-array. Log-forward-probabilities of each
+          emission-state corresponding to the n-th label.
+        aux['logprobs_phi']: (T, B, 1)-array. Probability of the phi-symbol
+          corresponding to each time frame.
+        aux['logprobs_emit']: (T, B, N)-array. Probability of the n-th label
+          corresponding to each time frame.
+    """
+    # label paddings are indicated by -100
+    labelpaddings = labels < 0
+    # logit paddings are the inverse of attention_mask
+    logitpaddings = ~logits_attention_mask
+    # Copied from https://github.com/tensorflow/lingvo/blob/master/lingvo/jax/layers/ctc_objectives.py
+    batchsize, unused_maxinputlen, num_classes = logits.shape
+    batchsize_, maxlabellen = labels.shape
+    logprobs = jax.nn.log_softmax(logits)
+    labellens = maxlabellen - jnp.sum(labelpaddings, axis=1).astype(jnp.int32)
+    # repeat[b, n] == 1.0 when label[b, n] == label[b, n+1].
+    repeat = (labels[:, :-1] == labels[:, 1:]).astype(jnp.float32)
+    repeat = jnp.pad(repeat, ((0, 0), (0, 1)))
+    logprobs_phi = logprobs[:, :, blank_id : blank_id + 1]  # [B, T, 1]
+    logprobs_phi = jnp.transpose(logprobs_phi, (1, 0, 2))  # [T, B, 1]
+    one_hot = jax.nn.one_hot(labels, num_classes=num_classes)  # [B, N, K]
+    logprobs_emit = jnp.einsum("btk,bnk->btn", logprobs, one_hot)
+    logprobs_emit = jnp.transpose(logprobs_emit, (1, 0, 2))  # [T, B, N]
+    logalpha_phi_init = jnp.ones((batchsize, maxlabellen + 1)) * log_epsilon  # [B, N]
+    logalpha_phi_init = logalpha_phi_init.at[:, 0].set(0.0)
+    logalpha_emit_init = jnp.ones((batchsize, maxlabellen)) * log_epsilon  # [B, N]
+    def loop_body(prev, x):
+        prev_phi, prev_emit = prev
+        # emit-to-phi epsilon transition, except if the next label is repetition
+        prev_phi_orig = prev_phi
+        prev_phi = prev_phi.at[:, 1:].set(jnp.logaddexp(prev_phi[:, 1:], prev_emit + log_epsilon * repeat))
+        logprob_emit, logprob_phi, pad = x
+        # phi-to-emit transition
+        next_emit = jnp.logaddexp(prev_phi[:, :-1] + logprob_emit, prev_emit + logprob_emit)
+        # self-loop transition
+        next_phi = prev_phi + logprob_phi
+        # emit-to-phi blank transition only when the next label is repetition
+        next_phi = next_phi.at[:, 1:].set(
+            jnp.logaddexp(next_phi[:, 1:], prev_emit + logprob_phi + log_epsilon * (1.0 - repeat))
+        )
+        pad = pad.reshape((batchsize, 1))
+        next_emit = pad * prev_emit + (1.0 - pad) * next_emit
+        next_phi = pad * prev_phi_orig + (1.0 - pad) * next_phi
+        return (next_phi, next_emit), (next_phi, next_emit)
+    xs = (logprobs_emit, logprobs_phi, logitpaddings.transpose((1, 0)))
+    _, (logalpha_phi, logalpha_emit) = jax.lax.scan(loop_body, (logalpha_phi_init, logalpha_emit_init), xs)
+    # last row needs to be updated with the last epsilon transition
+    logalpha_phi_last = logalpha_phi[-1].at[:, 1:].set(jnp.logaddexp(logalpha_phi[-1, :, 1:], logalpha_emit[-1]))
+    logalpha_phi = logalpha_phi.at[-1].set(logalpha_phi_last)
+    # extract per_seq_loss
+    one_hot = jax.nn.one_hot(labellens, num_classes=maxlabellen + 1)  # [B, N+1]
+    per_seq_loss = -jnp.einsum("bn,bn->b", logalpha_phi_last, one_hot)
+    if loss_reduction == "mean":
+        target_lengths = labelpaddings.shape[-1] - labelpaddings.sum(axis=-1)
+        loss = (per_seq_loss / target_lengths).mean()
+    elif loss_reduction == "sum":
+        loss = per_seq_loss.sum()
+    else:
+        loss = per_seq_loss
+    if not output_emission_dict:
+        return loss
+    return loss, {
+        "logalpha_phi": logalpha_phi,
+        "logalpha_emit": logalpha_emit,
+        "logprobs_phi": logprobs_phi,
+        "logprobs_emit": logprobs_emit,
+    }
+def make_dataset(data_args, seed=42):
+    # Pre-processing dataset
+    import re
+    def map_nst(entry):
+        text = entry["text"].lower()
+        text = text.replace("(...vær stille under dette opptaket...)", "")
+        text = re.sub('[áàâ]', 'a', text)
+        text = re.sub('[ä]', 'æ', text)
+        text = re.sub('[éèëê]', 'e', text)
+        text = re.sub('[íìïî]', 'i', text)
+        text = re.sub('[óòöô]', 'o', text)
+        text = re.sub('[ö]', 'ø', text)
+        text = re.sub('[ç]', 'c', text)
+        text = re.sub('[úùüû]', 'u', text)
+        # text = re.sub('\\(?=(Punktum|Komma|Utropstegn|Spørsmålstegn))', ' ', text)
+        text = re.sub('\s+', ' ', text)
+        return {"text": text}
+    def filter_nst(entry):
+        if not ((len(entry["text"]) <= len(entry["audio"]["array"]) // 320) and (len(entry["text"].strip()) >= 3)):
+            return False  # Too short
+        if re.match(entry["type"], "pIW|CA"):
+            return False  # Spelling out words
+        return True
+    def filter_npsc(entry):
+        # False if there are digits in the text
+        if not ((len(entry["text"]) <= len(entry["audio"]["array"]) // 320) and (len(entry["text"].strip()) >= 3)):
+            return False  # Too short
+        if re.search("\d", entry["text"]):
+            return False
+        return True
+    def map_npsc(entry):
+        batch = {"text": entry["text"].lower()}
+        batch["text"] = re.sub('[áàâ]', 'a', batch["text"])
+        batch["text"] = re.sub('[ä]', 'æ', batch["text"])
+        batch["text"] = re.sub('[éèëê]', 'e', batch["text"])
+        batch["text"] = re.sub('[íìïî]', 'i', batch["text"])
+        batch["text"] = re.sub('[óòöô]', 'o', batch["text"])
+        batch["text"] = re.sub('[ö]', 'ø', batch["text"])
+        batch["text"] = re.sub('[ç]', 'c', batch["text"])
+        batch["text"] = re.sub('[úùüû]', 'u', batch["text"])
+        batch["text"] = re.sub('\s', ' ', batch["text"])
+        batch["text"] = re.sub('<ee>', 'eee', batch["text"])
+        batch["text"] = re.sub('<qq>', 'qqq', batch["text"])
+        batch["text"] = re.sub('<mm>', 'mmm', batch["text"])
+        batch["text"] = re.sub('<inaudible>', 'xxx', batch["text"])
+        # batch["text"] = re.sub('<inaudible>', '?', batch["text"])
+        if "<" in batch["text"]:
+            raise ValueError(batch["text"])
+        return batch
+    nst = datasets.load_dataset("NbAiLab/NST", "no-close")
+    npsc = datasets.load_dataset("NbAiLab/NPSC", "16K_mp3")
+    # TODO NST_hesitate
+    split = len(npsc[data_args.train_split_name]) / (len(npsc[data_args.train_split_name]) + len(npsc[data_args.eval_split_name]))  # Use same train/val ratio as NPSC
+    nst_train = nst[data_args.train_split_name].train_test_split(train_size=split, seed=seed)
+    nst[data_args.train_split_name] = nst_train["train"]
+    nst[data_args.eval_split_name] = nst_train["test"]
+    nst = nst.filter(filter_nst).map(
+        map_nst,
+        num_proc=data_args.preprocessing_num_workers,
+        desc="filtering NST",
+    ).shuffle(seed=seed)
+    npsc = npsc.filter(filter_npsc).map(
+        map_npsc,
+        num_proc=data_args.preprocessing_num_workers,
+        desc="filtering NPSC",
+    ).shuffle(seed=seed)
+    npsc_base = npsc.remove_columns([col for col in npsc[data_args.train_split_name].column_names if col not in ["text", "audio"]])
+    nst_base = nst.remove_columns([col for col in nst[data_args.train_split_name].column_names if col not in ["text", "audio"]])
+    combined = {}
+    for split in data_args.train_split_name, data_args.eval_split_name, data_args.test_split_name:
+        probs = np.array([len(nst_base[split]), len(npsc_base[split])])  # Weight by number of examples
+        probs = (probs / probs.sum()).tolist()
+        comb = datasets.interleave_datasets([nst_base[split], npsc_base[split]], probabilities=probs, seed=seed)
+        combined[split] = comb
+    return datasets.DatasetDict(**combined)
+def main():
+    # 1. Parse input arguments
+    # See all possible arguments in src/transformers/training_args.py
+    # or by passing the --help flag to this script.
+    # We now keep distinct sets of args, for a cleaner separation of concerns.
+    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, FlaxTrainingArguments))
+    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
+        # If we pass only one argument to the script and it's the path to a json file,
+        # let's parse it to get our arguments.
+        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
+    else:
+        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+    # 2. Setup logging
+    # Make one log on every process with the configuration for debugging.
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        handlers=[logging.StreamHandler(sys.stdout)],
+    )
+    # Set the verbosity to info of the Transformers logger.
+    # We only want one process per machine to log things on the screen.
+    logger.setLevel(logging.INFO if jax.process_index() == 0 else logging.ERROR)
+    if jax.process_index() == 0:
+        datasets.utils.logging.set_verbosity_warning()
+        transformers.utils.logging.set_verbosity_info()
+    else:
+        datasets.utils.logging.set_verbosity_error()
+        transformers.utils.logging.set_verbosity_error()
+    # Set up wandb run
+    if jax.process_index() == 0:
+        wandb.init(project=data_args.wandb_project, name=data_args.wandb_name, job_type=data_args.wandb_job_type)
+    logger.info("Training/evaluation parameters %s", training_args)
+    # Set the default TPU matmul precision and display the number of devices
+    jax.config.update("jax_default_matmul_precision", training_args.matmul_precision)
+    logger.info(f"JAX devices: {jax.device_count()}, matmul precision: {training_args.matmul_precision}")
+    # 4. Load dataset
+    set_seed(training_args.seed)
+    raw_datasets = make_dataset(data_args, seed=training_args.seed)
+    # raw_datasets = DatasetDict()
+    # if training_args.do_train:
+    #     raw_datasets[data_args.train_split_name] = load_dataset(
+    #         data_args.dataset_name,
+    #         data_args.dataset_config_name,
+    #         split=data_args.train_split_name,
+    #         cache_dir=data_args.dataset_cache_dir,
+    #         use_auth_token=True if model_args.use_auth_token else None,
+    #     )
+    # if training_args.do_eval:
+    #     raw_datasets[data_args.eval_split_name] = load_dataset(
+    #         data_args.dataset_name,
+    #         data_args.dataset_config_name,
+    #         split=data_args.eval_split_name,
+    #         cache_dir=data_args.dataset_cache_dir,
+    #         use_auth_token=True if model_args.use_auth_token else None,
+    #     )
+    # if training_args.do_predict:
+    #     test_split = data_args.test_split_name.split("+")
+    #     for split in test_split:
+    #         raw_datasets[split] = load_dataset(
+    #             data_args.dataset_name,
+    #             data_args.dataset_config_name,
+    #             split=split,
+    #             cache_dir=data_args.dataset_cache_dir,
+    #             use_auth_token=True if model_args.use_auth_token else None,
+    #         )
+    if not training_args.do_train and not training_args.do_eval and not training_args.do_predict:
+        raise ValueError(
+            "Cannot not train, not do evaluation and not do prediction. At least one of "
+            "training, evaluation or prediction has to be done."
+        )
+    # if not training, there is no need to run multiple epochs
+    if not training_args.do_train:
+        training_args.num_train_epochs = 1
+    if data_args.audio_column_name not in next(iter(raw_datasets.values())).column_names:
+        raise ValueError(
+            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_name}'. "
+            "Make sure to set `--audio_column_name` to the correct audio column - one of "
+            f"{', '.join(next(iter(raw_datasets.values())).column_names)}."
+        )
+    if data_args.text_column_name not in next(iter(raw_datasets.values())).column_names:
+        raise ValueError(
+            f"--text_column_name {data_args.text_column_name} not found in dataset '{data_args.dataset_name}'. "
+            "Make sure to set `--text_column_name` to the correct text column - one of "
+            f"{', '.join(next(iter(raw_datasets.values())).column_names)}."
+        )
+    # 5. Load pretrained model, tokenizer, and feature extractor
+    #
+    # Distributed training:
+    # The .from_pretrained methods guarantee that only one local process can concurrently
+    config = Wav2Vec2Config.from_pretrained(
+        model_args.config_name if model_args.config_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    feature_extractor = AutoFeatureExtractor.from_pretrained(
+        model_args.feature_extractor_name if model_args.feature_extractor_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    tokenizer = AutoTokenizer.from_pretrained(
+        model_args.tokenizer_name if model_args.tokenizer_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    # update config according to training args, model args, and tokenizer attributes
+    config.update(
+        {
+            "feat_proj_dropout": model_args.feat_proj_dropout,
+            "attention_dropout": model_args.attention_dropout,
+            "hidden_dropout": model_args.hidden_dropout,
+            "final_dropout": model_args.final_dropout,
+            "mask_time_prob": model_args.mask_time_prob,
+            "mask_time_length": model_args.mask_time_length,
+            "mask_feature_prob": model_args.mask_feature_prob,
+            "mask_feature_length": model_args.mask_feature_length,
+            "gradient_checkpointing": training_args.gradient_checkpointing,
+            "layerdrop": model_args.layerdrop,
+            "ctc_loss_reduction": model_args.ctc_loss_reduction,
+            "ctc_zero_infinity": model_args.ctc_zero_infinity,
+            "pad_token_id": tokenizer.pad_token_id,
+            "vocab_size": tokenizer.vocab_size,  # len(tokenizer),
+            "activation_dropout": model_args.activation_dropout,
+        }
+    )
+    if tokenizer.do_lower_case and data_args.dataset_name != "librispeech_asr":
+        raise ValueError(
+            "Setting the tokenizer attribute `do_lower_case` to `True` converts all input strings to "
+            "uppercase prior to tokenization. This should only be done when the tokenizer is built on an uppercased corpus,"
+            "i.e. for the dataset `librispeech_asr` only. If your dataset is not `librispeech_asr`, the tokenizer is mostly likely "
+            "built on an lowercased corpus. In this case, set `tokenizer.do_lower_case` to ``False`."
+        )
+    if training_args.precision == "full_mixed":
+        dtype = jnp.bfloat16
+        training_args.mixed_precision = True
+    elif training_args.precision == "half_mixed":
+        dtype = jnp.bfloat16
+        training_args.mixed_precision = False
+    else:
+        dtype = jnp.float32
+        training_args.mixed_precision = False
+    try:
+        model = FlaxWav2Vec2ForCTC.from_pretrained(
+            model_args.model_name_or_path,
+            config=config,
+            dtype=dtype,
+            cache_dir=model_args.cache_dir,
+            revision=model_args.model_revision,
+            use_auth_token=True if model_args.use_auth_token else None,
+        )
+    except:
+        model = FlaxWav2Vec2ForCTC.from_pretrained(
+            model_args.model_name_or_path,
+            config=config,
+            dtype=dtype,
+            cache_dir=model_args.cache_dir,
+            revision=model_args.model_revision,
+            use_auth_token=True if model_args.use_auth_token else None,
+            from_pt=True,
+        )
+    # 6. Resample speech dataset ALWAYS
+    raw_datasets = raw_datasets.cast_column(
+        data_args.audio_column_name, datasets.features.Audio(sampling_rate=feature_extractor.sampling_rate)
+    )
+    # 7. Preprocessing the datasets.
+    # We need to read the audio files as arrays and tokenize the targets.
+    max_input_length = int(data_args.max_duration_in_seconds * feature_extractor.sampling_rate)
+    min_input_length = int(data_args.min_duration_in_seconds * feature_extractor.sampling_rate)
+    max_target_length = data_args.max_label_length
+    min_target_length = data_args.min_label_length
+    pad_input_to_multiple_of = data_args.pad_input_to_multiple_of
+    audio_column_name = data_args.audio_column_name
+    num_workers = data_args.preprocessing_num_workers
+    text_column_name = data_args.text_column_name
+    model_input_name = feature_extractor.model_input_names[0]
+    do_lower_case = data_args.do_lower_case
+    dataset_name = data_args.dataset_name
+    chars_to_ignore = ', ? . ! - ; : " “ % ‘ ” ?'.split(" ")
+    chars_to_ignore_regex = f'[{"".join(chars_to_ignore)}]'
+    # gigaspeech_punctuation = {" <comma>": ",", " <period>": ".", " <questionmark>": "?", " <exclamationpoint>": "!"}
+    # gigaspeech_disfluencies = ["<other>", "<sil>"]
+    # swb_disfluencies = ["[noise]", "[laughter]", "[silence]", "<a_aside>", "<b_aside>", "<e_aside>", "[laughter-",
+    #                 "[vocalized-noise]", "_1"]
+    # swb_punctuations = ["{", "}", "[", "]-", "]"]
+    # earnings_disfluencies = ["<crosstalk>", "<affirmative>", "<inaudible>", "inaudible", "<laugh>", "<unk>"]
+    ignore_segments = ["ignore_time_segment_in_scoring", "<noise>", "<music>", "[noise]", "[laughter]", "[silence]",
+                       "[vocalized-noise]", "<crosstalk>", "<affirmative>", "<inaudible>", "<laugh>", "<other>", "<sil>", ""]
+    if training_args.do_train and data_args.max_train_samples is not None:
+        raw_datasets[data_args.train_split_name] = raw_datasets[data_args.train_split_name].select(range(data_args.max_train_samples))
+    if training_args.do_eval and data_args.max_eval_samples is not None:
+        raw_datasets[data_args.eval_split_name] = raw_datasets[data_args.eval_split_name].select(range(data_args.max_eval_samples))
+    if training_args.do_predict and data_args.max_test_samples is not None:
+        raw_datasets[data_args.test_split_name] = raw_datasets[data_args.test_split_name].select(range(data_args.max_eval_samples))
+    if training_args.do_train and data_args.remove_punctuation:
+        def remove_punctuation(batch):
+            batch[text_column_name] = (
+                re.sub(chars_to_ignore_regex, "", batch[text_column_name]).replace("'", "").replace('"', "")
+            )
+        raw_datasets[data_args.train_split_name] = raw_datasets[data_args.train_split_name].map(
+            remove_punctuation,
+            num_proc=data_args.preprocessing_num_workers,
+            desc="removing punctuation from train split",
+        )
+    # filter data where the targets are ignored in scoring
+    def is_target_labels(input_str):
+        return input_str.lower() not in ignore_segments
+    raw_datasets = raw_datasets.filter(
+            is_target_labels,
+            num_proc=num_workers,
+            input_columns=[text_column_name],
+            desc="filtering data where the targets are ignored in scoring",
+        )
+    def prepare_dataset(batch):
+        # process audio
+        try:
+            sample = batch[audio_column_name]
+        except ValueError:
+            sample = {"array": np.array([0.]), "sampling_rate": feature_extractor.sampling_rate}
+        inputs = feature_extractor(sample["array"], sampling_rate=sample["sampling_rate"])
+        # process audio length
+        batch[model_input_name] = inputs.input_values[0]
+        batch["input_length"] = len(batch["input_values"])
+        # process targets
+        input_str = batch[text_column_name].lower() if do_lower_case else batch[text_column_name]
+        # if dataset_name == "google/xtreme_s":
+        #     # Finally, we tokenize the processed text
+        #     batch["labels"] = tokenizer(input_str).input_ids
+        #     batch["labels_length"] = len(batch["labels"])
+        #     return batch
+        # # Common Voice 9
+        # if input_str.startswith('"') and input_str.endswith('"'):
+        #     # we can remove trailing quotation marks as they do not affect the transcription
+        #     input_str = input_str[1:-1]
+        # # normalize quotation marks
+        # input_str = re.sub(r'["“”]', '"', input_str)
+        # # normalize apostrophes
+        # input_str = re.sub(r"[’']", "'", input_str)
+        # # normalize hyphens
+        # input_str = re.sub(r"[—–]", "-", input_str)
+        # # replace double quotation marks with single
+        # input_str = input_str.replace('""', '"')
+        # if dataset_name == "mozilla-foundation/common_voice_9_0" and len(input_str):
+        #     # for CV9, we'll normalize the text to always finish with punctuation
+        #     if input_str[-1] not in [".", "?", "!"]:
+        #         input_str = input_str + "."
+        # # TEDLIUM-3
+        # # delete the <unk> token from the text and replace spaced apostrophes with un-spaced
+        # input_str = input_str.replace("<unk>", "").replace(" '", "'")
+        # # GigaSpeech
+        # for disfluency in gigaspeech_disfluencies:
+        #     input_str = input_str.replace(disfluency, "")
+        # # convert spelled out punctuation to symbolic form
+        # for punctuation, replacement in gigaspeech_punctuation.items():
+        #     input_str = input_str.replace(punctuation, replacement)
+        # if dataset_name == "speechcolab/gigaspeech" and len(input_str):
+        #     # for GS, we'll normalize the text to always finish with punctuation
+        #     if input_str[-1] not in [".", "?", "!"]:
+        #         input_str = input_str + "."
+        # # SWB
+        # for disfluency in swb_disfluencies:
+        #     input_str = input_str.replace(disfluency, "")
+        # # remove parenthesised text (test data only)
+        # input_str = re.sub("[\(].*?[\)]", "", input_str)
+        # for punctuation in swb_punctuations:
+        #     input_str = input_str.replace(punctuation, "")
+        # # replace anomalous words with their correct transcriptions
+        # split_str = input_str.split("/")
+        # if len(split_str) > 1:
+        #     input_str = " ".join(
+        #         [" ".join([" ".join(i.split(" ")[:-1]) for i in split_str])] + [split_str[-1].split(" ")[-1]])
+        # # Earnings 22
+        # for disfluency in earnings_disfluencies:
+        #     input_str = input_str.replace(disfluency, "")
+        # # replace mal-formatted ellipsis
+        # input_str = input_str.replace("…", ".")
+        # JIWER compliance
+        # remove multiple spaces
+        input_str = re.sub(r"\s\s+", " ", input_str)
+        # strip trailing spaces
+        input_str = input_str.strip()
+        # Finally, we tokenize the processed text
+        batch["labels"] = tokenizer(input_str).input_ids
+        batch["labels_length"] = len(batch["labels"])
+        return batch
+    vectorized_datasets = raw_datasets.map(
+        prepare_dataset,
+        remove_columns=next(iter(raw_datasets.values())).column_names,
+        num_proc=num_workers,
+        desc="preprocess dataset",
+    )
+    # filter data with inputs shorter than min_input_length or longer than max_input_length
+    def is_audio_in_length_range(length):
+        return length > min_input_length and length < max_input_length
+    vectorized_datasets = vectorized_datasets.filter(
+        is_audio_in_length_range,
+        num_proc=num_workers,
+        input_columns=["input_length"],
+    )
+    # filter data with targets shorter than min_target_length or longer than max_target_length
+    def is_labels_in_length_range(length):
+        return length > min_target_length  # and length < max_target_length
+    vectorized_datasets = vectorized_datasets.filter(
+        is_labels_in_length_range,
+        num_proc=num_workers,
+        input_columns=["labels_length"],
+    )
+    # for large datasets it is advised to run the preprocessing on a
+    # single machine first with `args.preprocessing_only` since there will mostly likely
+    # be a timeout when running the script in distributed mode.
+    # In a second step `args.preprocessing_only` can then be set to `False` to load the
+    # cached dataset
+    if data_args.preprocessing_only:
+        cache = {k: v.cache_files for k, v in vectorized_datasets.items()}
+        logger.info(f"Data preprocessing finished. Files cached at {cache}.")
+        return
+    # 8. Load Metrics
+    wer_metric = load_metric("wer")
+    cer_metric = load_metric("cer")
+    def compute_metrics(pred_ids: List[List[int]], label_ids: List[List[int]]):
+        padded_ids = np.where(np.asarray(label_ids) == -100, tokenizer.pad_token_id, np.asarray(label_ids))
+        pred_str = tokenizer.batch_decode(pred_ids)
+        # we do not want to group tokens when computing the metrics
+        label_str = tokenizer.batch_decode(padded_ids, group_tokens=False)
+        wer = wer_metric.compute(predictions=pred_str, references=label_str)
+        cer = cer_metric.compute(predictions=pred_str, references=label_str)
+        return {"wer": wer, "cer": cer}, pred_str, label_str
+    # 9. save feature extractor, tokenizer and config
+    feature_extractor.save_pretrained(training_args.output_dir)
+    tokenizer.save_pretrained(training_args.output_dir)
+    config.save_pretrained(training_args.output_dir)
+    processor = AutoProcessor.from_pretrained(training_args.output_dir)
+    data_collator = FlaxDataCollatorSpeechSeq2SeqWithPadding(
+        processor=processor,
+        input_padding="longest",
+        pad_input_to_multiple_of=pad_input_to_multiple_of,
+        max_label_length=data_args.max_label_length,
+    )
+    # Enable tensorboard only on the master node
+    has_tensorboard = is_tensorboard_available()
+    if has_tensorboard and jax.process_index() == 0:
+        try:
+            from flax.metrics.tensorboard import SummaryWriter
+            summary_writer = SummaryWriter(log_dir=Path(training_args.output_dir))
+        except ImportError as ie:
+            has_tensorboard = False
+            logger.warning(
+                f"Unable to display metrics through TensorBoard because some package are not installed: {ie}"
+            )
+    else:
+        logger.warning(
+            "Unable to display metrics through TensorBoard because the package is not installed: "
+            "Please run `pip install tensorboard` to enable."
+        )
+    # 10. Handle the repository creation
+    if training_args.push_to_hub:
+        with open(os.path.join(training_args.output_dir, ".gitattributes"), "r+") as f:
+            git_lfs_extensions = f.read()
+            if "*.wandb" not in git_lfs_extensions:
+                f.write("*.wandb filter=lfs diff=lfs merge=lfs -text")
+        if training_args.hub_model_id is None:
+            repo_name = get_full_repo_name(
+                Path(training_args.output_dir).absolute().name, token=training_args.hub_token
+            )
+        else:
+            repo_name = training_args.hub_model_id
+        repo = Repository(training_args.output_dir, clone_from=repo_name)
+    # 11. Initialize our training
+    rng = jax.random.PRNGKey(training_args.seed)
+    rng, dropout_rng = jax.random.split(rng)
+    # Store some constants
+    max_steps = int(training_args.max_steps)
+    gradient_accumulation_steps = int(training_args.gradient_accumulation_steps)
+    train_batch_size = int(training_args.per_device_train_batch_size) * jax.device_count()
+    batch_size_per_update = train_batch_size * gradient_accumulation_steps
+    per_device_eval_batch_size = int(training_args.per_device_eval_batch_size)
+    eval_batch_size = int(training_args.per_device_eval_batch_size) * jax.device_count()
+    to_dtype = to_bf16 if training_args.mixed_precision else to_fp32
+    if training_args.do_train:
+        num_train_samples = len(vectorized_datasets[data_args.train_split_name])
+        steps_per_epoch = num_train_samples // batch_size_per_update
+        if max_steps > 0:
+            num_epochs = -(training_args.max_steps // -steps_per_epoch)
+            total_train_steps = max_steps
+        else:
+            num_epochs = int(training_args.num_train_epochs)
+            total_train_steps = steps_per_epoch * num_epochs
+        # Create learning rate schedule
+        # Create learning rate schedule
+        linear_decay_lr_schedule_fn = create_learning_rate_fn(
+            total_train_steps,
+            training_args.warmup_steps,
+            training_args.learning_rate,
+        )
+        # We use Optax's "masking" functionality to not apply weight decay
+        # to bias and LayerNorm scale parameters. decay_mask_fn returns a
+        # mask boolean with the same structure as the parameters.
+        # The mask is True for parameters that should be decayed.
+        # Note that this mask is specifically adapted for FlaxWav2Vec2 and FlaxBart.
+        # For FlaxT5, one should correct the layer norm parameter naming
+        # accordingly - see `run_t5_mlm_flax.py` e.g.
+        def decay_mask_fn(params):
+            flat_params = traverse_util.flatten_dict(params)
+            layer_norm_params = [
+                (name, "scale")
+                for name in ["layer_norm", "self_attn_layer_norm", "layernorm_embedding", "final_layer_norm"]
+            ]
+            flat_mask = {path: (path[-1] != "bias" and path[-2:] not in layer_norm_params) for path in flat_params}
+            return traverse_util.unflatten_dict(flat_mask)
+        if training_args.adafactor:
+            # Create Adafactor optimizer
+            optim = optax.adafactor(
+                learning_rate=linear_decay_lr_schedule_fn,
+                dtype_momentum=jnp.bfloat16 if training_args.mixed_precision else jnp.float32,
+                weight_decay_rate=training_args.weight_decay,
+                weight_decay_mask=decay_mask_fn,
+            )
+        else:
+            # Create AdamW optimizer
+            optim = optax.adamw(
+                learning_rate=linear_decay_lr_schedule_fn,
+                b1=training_args.adam_beta1,
+                b2=training_args.adam_beta2,
+                eps=training_args.adam_epsilon,
+                weight_decay=training_args.weight_decay,
+                mask=decay_mask_fn,
+            )
+        # Optax MultiSteps for gradient accumulation. We'll only call this optimizer transformation if gradient accumulation is required (i.e. gradient accumulation steps > 1)
+        if training_args.multisteps and gradient_accumulation_steps > 1:
+            optim = optax.MultiSteps(optim, gradient_accumulation_steps, use_grad_mean=False)
+    else:
+        num_epochs = 0
+        total_train_steps = 0
+        num_train_samples = 0
+        optim = None
+    # Setup train state
+    state = MixedPrecisionTrainState.create(
+        apply_fn=model.__call__,
+        get_attention_mask_fn=model._get_feature_vector_attention_mask,
+        params=model.params,
+        tx=optim,
+        to_dtype=to_dtype,
+        dropout_rng=dropout_rng,
+        max_grad_norm=training_args.max_grad_norm,
+    )
+    # Replicate the train state on each device
+    state = state.replicate()
+    blank_id = model.config.pad_token_id
+    # Define gradient update step fn
+    def train_step(state, batch):
+        # only one single rng per grad step, with or without accumulation, as the graph should be identical over one effective training batch
+        dropout_rng, new_dropout_rng = jax.random.split(state.dropout_rng)
+        def compute_loss(params, minibatch):
+            labels = minibatch.pop("labels")
+            logits = state.apply_fn(
+                **minibatch,
+                params=params,
+                dropout_rng=dropout_rng,
+                freeze_feature_encoder=model_args.freeze_feature_encoder,
+                train=True,
+            )[0]
+            logits_mask = state.get_attention_mask_fn(logits.shape[1], batch["attention_mask"])
+            loss = ctc_loss(logits, logits_mask, labels, blank_id, loss_reduction="mean")
+            return loss
+        grad_fn = jax.value_and_grad(compute_loss)
+        if gradient_accumulation_steps == 1 or training_args.multisteps:
+            loss, grad = grad_fn(to_dtype(state.params), batch)
+        # Custom gradient accumulation
+        else:
+            # add a first dimension over gradient_accumulation_steps for minibatch slices
+            batch = jax.tree_map(
+                lambda x: x.reshape(
+                    gradient_accumulation_steps, training_args.per_device_train_batch_size, *x.shape[1::]
+                ),
+                batch,
+            )
+            def accum_minibatch_step(accum_grad, minibatch):
+                # compute loss, num labels and grad over minibatch and accumulate
+                loss, grad = grad_fn(to_dtype(state.params), minibatch)
+                return jax.tree_map(jnp.add, accum_grad, grad), loss
+            # create an initial state for accumulating losses, num labels and gradients
+            init_grad = jax.tree_map(jnp.zeros_like, to_dtype(state.params))
+            # loop accum minibatch step over the number of gradient accumulation steps
+            grad, loss = jax.lax.scan(accum_minibatch_step, init_grad, batch)
+        # update state
+        new_state = state.apply_gradients(
+            grads=grad,
+            dropout_rng=new_dropout_rng,
+            to_dtype=to_dtype,
+        )
+        # compute gradient norms over all layers and globally for detailed monitoring
+        layer_grad_norm = jax.tree_map(jnp.linalg.norm, grad)
+        logs = {
+            "layer_grad_norm": layer_grad_norm,
+            "grad_norm": jnp.linalg.norm(jax.tree_util.tree_leaves(layer_grad_norm)),
+        }
+        # compute parameter norms over all layers and globally for detailed monitoring
+        layer_param_norm = jax.tree_map(jnp.linalg.norm, new_state.params)
+        logs["layer_param_norm"] = layer_param_norm
+        logs["param_norm"] = jnp.linalg.norm(jax.tree_util.tree_leaves(layer_param_norm))
+        metrics = {"loss": loss, "learning_rate": linear_decay_lr_schedule_fn(state.step)}
+        metrics.update(logs)
+        metrics = jax.lax.pmean(metrics, axis_name="batch")
+        # metrics = to_fp32(metrics)
+        return new_state, metrics
+    # Define eval fn
+    def eval_step(params, batch):
+        labels = batch.pop("labels")
+        logits = model(**batch, params=params, train=False)[0]
+        logits_mask = model._get_feature_vector_attention_mask(logits.shape[1], batch["attention_mask"])
+        loss = ctc_loss(logits, logits_mask, labels, blank_id, loss_reduction="mean")
+        pred_ids = jnp.argmax(logits, axis=-1)
+        # summarize metrics
+        metrics = {"loss": loss}
+        metrics = jax.lax.pmean(metrics, axis_name="batch")
+        # metrics = to_fp32(metrics)
+        return metrics, pred_ids
+    # Create parallel version of the train and eval step
+    if training_args.do_train:
+        p_train_step = jax.pmap(train_step, "batch", donate_argnums=(0,))
+    if training_args.do_eval:
+        p_eval_step = jax.pmap(eval_step, "batch")
+    def run_evaluation(step):
+        if training_args.do_eval:
+            # ======================== Evaluating ==============================
+            eval_metrics = []
+            eval_preds = []
+            eval_labels = []
+            # Generate eval set by sequentially sampling indices from the eval dataset and grouping by length
+            eval_samples_idx = get_grouped_indices(vectorized_datasets[data_args.eval_split_name], eval_batch_size)
+            eval_batch_idx = generate_batch_splits(eval_samples_idx, eval_batch_size, drop_last=False)
+            for i, batch_idx in enumerate(tqdm(eval_batch_idx, desc="Evaluating ...", position=2)):
+                samples = [vectorized_datasets[data_args.eval_split_name][int(idx)] for idx in batch_idx]
+                batch = data_collator(samples)
+                labels = batch["labels"]
+                metrics, pred_ids = pad_shard_unpad(p_eval_step)(state.params, batch.data, min_device_batch=per_device_eval_batch_size)
+                eval_preds.extend(jax.device_get(pred_ids.reshape(-1, pred_ids.shape[-1])))
+                eval_metrics.append(metrics)
+                eval_labels.extend(labels)
+            # normalize eval metrics
+            eval_metrics = get_metrics(eval_metrics)
+            eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
+            eval_metrics = to_fp32(eval_metrics)
+            # always run compute metrics
+            error_rate_metric, pred_str, label_str = compute_metrics(eval_preds, eval_labels)
+            eval_metrics.update(error_rate_metric)
+            error_rate_desc = " ".join([f"Eval {key}: {value} |" for key, value in error_rate_metric.items()])
+            # Print metrics and update progress bar
+            desc = f"Step... ({step}/{total_train_steps} | Eval Loss: {eval_metrics['loss']} | {error_rate_desc})"
+            epochs.write(desc)
+            epochs.desc = desc
+            # Save metrics
+            write_wandb_log(eval_metrics, step, prefix="eval")
+            write_wandb_pred(pred_str, label_str, step)
+            # if has_tensorboard and jax.process_index() == 0:
+            # write_eval_metric(summary_writer, eval_metrics, step, pred_str=pred_str)
+    def save_checkpoint(step):
+        # save and push checkpoint to the hub
+        if jax.process_index() == 0:
+            params = jax.device_get(jax.tree_map(lambda x: x[0], state.params))
+            model.save_pretrained(training_args.output_dir, params=params)
+            tokenizer.save_pretrained(training_args.output_dir)
+            if training_args.push_to_hub:
+                repo.push_to_hub(commit_message=f"{wandb.run.id}: saving weights and logs of step {int(step / 1000)}k", blocking=False)
+    logger.info("***** Running training *****")
+    logger.info(f"  Num examples = {num_train_samples}")
+    logger.info(f"  Num Epochs = {num_epochs}")
+    logger.info(f"  Instantaneous batch size per device = {training_args.per_device_train_batch_size}")
+    logger.info(f"  Num gradient accumulation steps = {gradient_accumulation_steps}")
+    logger.info(f"  Total train batch size (w. parallel & distributed) = {batch_size_per_update}")
+    logger.info(f"  Total optimization steps = {total_train_steps}")
+    logger.info(f"  Gradient checkpointing: {config.gradient_checkpointing}")
+    logger.info(f"  Use scan: {config.use_scan}")
+    logger.info(f"  Fuse matmuls: {config.fuse_matmuls}")
+    train_time = cur_step = 0
+    skip_epochs = data_args.skip_steps % (num_train_samples // batch_size_per_update)
+    epochs = tqdm(range(skip_epochs, num_epochs), desc=f"Epoch ... ({skip_epochs + 1}/{num_epochs})", position=0)
+    for epoch in epochs:
+        if training_args.do_train:
+            # ======================== Training ================================
+            train_start = time.time()
+            # Create sampling rng
+            rng, input_rng = jax.random.split(rng)
+            # Generate an epoch by randomly shuffling sampling indices from the train dataset and grouping by length
+            train_samples_idx = get_grouped_indices(vectorized_datasets[data_args.train_split_name], batch_size_per_update, input_rng)
+            train_batch_idx = generate_batch_splits(train_samples_idx, batch_size_per_update)
+            # Gather the indices for creating the batch and do a training step
+            for step, batch_idx in enumerate(tqdm(train_batch_idx, desc="Training...", position=1), 1):
+                samples = [vectorized_datasets[data_args.train_split_name][int(idx)] for idx in batch_idx]
+                batch = data_collator(samples)
+                batch = shard(batch.data)
+                cur_step = epoch * (num_train_samples // batch_size_per_update) + step
+                if cur_step <= data_args.skip_steps:
+                    continue
+                try:
+                    state, train_metric = p_train_step(state, batch)
+                except TypeError as e:
+                    logger.warning("Encountered following error: \n", e)
+                if cur_step % training_args.logging_steps == 0:
+                    # Save metrics
+                    train_metric = unreplicate(train_metric)
+                    train_time += time.time() - train_start
+                    # need to upcast all device arrays to fp32 for wandb logging (jnp.bfloat16 not supported) -> do this here OR in train_step
+                    write_wandb_log(to_fp32(train_metric), cur_step, prefix=data_args.train_split_name)
+                    # we won't log to tensorboard for now (it is fiddly logging param and grad norms on a layer-by-layer basis)
+                    # if has_tensorboard and jax.process_index() == 0:
+                    # write_train_metric(summary_writer, train_metrics, train_time, cur_step)
+                    epochs.write(
+                        f"Step... ({cur_step} | Loss: {train_metric['loss']}, Learning Rate: {train_metric['learning_rate']}, Gradient Norm: {train_metric['grad_norm']})"
+                    )
+                if cur_step % total_train_steps == 0:
+                    break
+                if training_args.eval_steps and cur_step % training_args.eval_steps == 0:
+                    run_evaluation(cur_step)
+                if cur_step % training_args.save_steps == 0:
+                    save_checkpoint(cur_step)
+            if training_args.eval_steps == 0 and (epoch + 1) != num_epochs:
+                # run evaluation at the end of the epoch if eval steps are not specified
+                run_evaluation(cur_step)
+                save_checkpoint(cur_step)
+    if training_args.do_train:
+        save_checkpoint(cur_step)
+    cur_step = max_steps if max_steps > 0 else cur_step  # set step to max steps so that eval happens in alignment with training
+    if training_args.do_eval:
+        run_evaluation(cur_step)
+    # TODO: collapse 'do_predict' into the run_evaluation function
+    if training_args.do_predict:
+        for split in [data_args.test_split_name]:
+            # ======================== Evaluating ==============================
+            eval_metrics = []
+            eval_preds = []
+            eval_labels = []
+            # Generate eval set by sequentially sampling indices from the test dataset and grouping by length
+            eval_samples_idx = get_grouped_indices(vectorized_datasets[split], eval_batch_size)
+            eval_batch_idx = generate_batch_splits(eval_samples_idx, eval_batch_size, drop_last=False)
+            for i, batch_idx in enumerate(tqdm(eval_batch_idx, desc=f"Predicting {split}...", position=2)):
+                samples = [vectorized_datasets[split][int(idx)] for idx in batch_idx]
+                batch = data_collator(samples)
+                labels = batch["labels"]
+                metrics, pred_ids = pad_shard_unpad(p_eval_step)(state.params, batch.data, min_device_batch=per_device_eval_batch_size)
+                eval_preds.extend(jax.device_get(pred_ids.reshape(-1, pred_ids.shape[-1])))
+                eval_metrics.append(metrics)
+                eval_labels.extend(labels)
+            # normalize eval metrics
+            eval_metrics = get_metrics(eval_metrics)
+            eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
+            eval_metrics = to_fp32(eval_metrics)
+            # always run compute metrics
+            error_rate_metric, pred_str, label_str = compute_metrics(eval_preds, eval_labels)
+            eval_metrics.update(error_rate_metric)
+            error_rate_desc = " ".join([f"Eval {key}: {value} |" for key, value in error_rate_metric.items()])
+            # Print metrics and update progress bar
+            desc = f"Step... ({cur_step}/{total_train_steps} | Eval Loss: {eval_metrics['loss']} | {error_rate_desc})"
+            epochs.write(desc)
+            epochs.desc = desc
+            # Save metrics
+            write_wandb_log(eval_metrics, cur_step, prefix=split)
+            write_wandb_pred(pred_str, label_str, cur_step, prefix=split)
+            # if has_tensorboard and jax.process_index() == 0:
+            # write_eval_metric(summary_writer, eval_metrics, cur_step, pred_str=pred_str)
+if __name__ == "__main__":
+    main()

wandb/run-20220802_074501-31ig5poi/files/config.yaml ADDED Viewed

	@@ -0,0 +1,27 @@

+wandb_version: 1
+_wandb:
+  desc: null
+  value:
+    cli_version: 0.12.9
+    code_path: code/run_flax_speech_recognition_ctc.py
+    framework: huggingface
+    huggingface_version: 4.21.0
+    is_jupyter_run: false
+    is_kaggle_kernel: false
+    python_version: 3.8.10
+    start_time: 1659426301
+    t:
+      1:
+      - 1
+      - 2
+      - 3
+      - 11
+      - 12
+      3:
+      - 13
+      4: 3.8.10
+      5: 0.12.9
+      6: 4.21.0
+      8:
+      - 5

wandb/run-20220802_074501-31ig5poi/files/diff.patch ADDED Viewed

The diff for this file is too large to render. See raw diff

wandb/run-20220802_074501-31ig5poi/files/output.log ADDED Viewed

The diff for this file is too large to render. See raw diff

wandb/run-20220802_074501-31ig5poi/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,158 @@

+absl-py==1.0.0
+aiohttp==3.8.1
+aiosignal==1.2.0
+appdirs==1.4.4
+astunparse==1.6.3
+async-timeout==4.0.2
+attrs==21.4.0
+audioread==2.1.9
+backcall==0.2.0
+cachetools==4.2.4
+certifi==2021.10.8
+cffi==1.15.1
+charset-normalizer==2.0.10
+chex==0.1.3
+click==8.0.3
+cloud-tpu-client==0.10
+cloud-tpu-profiler==2.4.0
+clu==0.0.6
+colorama==0.4.5
+commonmark==0.9.1
+configparser==5.2.0
+contextlib2==21.6.0
+cycler==0.11.0
+datasets==2.4.0
+decorator==5.1.0
+dill==0.3.4
+dm-tree==0.1.6
+docker-pycreds==0.4.0
+etils==0.6.0
+exceptiongroup==1.0.0rc8
+filelock==3.4.2
+flatbuffers==2.0
+flax==0.5.3
+fonttools==4.28.5
+frozenlist==1.2.0
+fsspec==2021.11.1
+future==0.18.2
+gast==0.4.0
+gitdb==4.0.9
+gitpython==3.1.26
+google-api-core==1.31.5
+google-api-python-client==1.8.0
+google-auth-httplib2==0.1.0
+google-auth-oauthlib==0.4.6
+google-auth==2.3.3
+google-pasta==0.2.0
+googleapis-common-protos==1.54.0
+grpcio==1.43.0
+h5py==3.6.0
+httplib2==0.20.2
+huggingface-hub==0.2.1
+hypothesis==6.53.0
+idna==3.3
+importlib-metadata==4.10.0
+importlib-resources==5.4.0
+ipython==7.31.0
+jax==0.3.15
+jaxlib==0.3.15
+jedi==0.18.1
+jiwer==2.3.0
+joblib==1.1.0
+keras-preprocessing==1.1.2
+keras==2.7.0
+kiwisolver==1.3.2
+libclang==12.0.0
+librosa==0.9.2
+libtpu-nightly==0.1.dev20220722
+llvmlite==0.39.0
+markdown==3.3.6
+matplotlib-inline==0.1.3
+matplotlib==3.5.1
+ml-collections==0.1.0
+msgpack==1.0.3
+multidict==5.2.0
+multiprocess==0.70.12.2
+numba==0.56.0
+numpy==1.22.0
+oauth2client==4.1.3
+oauthlib==3.1.1
+opt-einsum==3.3.0
+optax==0.1.3
+packaging==21.3
+pandas==1.3.5
+parso==0.8.3
+pathtools==0.1.2
+pexpect==4.8.0
+pickleshare==0.7.5
+pillow==9.0.0
+pip==22.2.1
+pkg-resources==0.0.0
+pooch==1.6.0
+promise==2.3
+prompt-toolkit==3.0.24
+protobuf==3.19.1
+psutil==5.9.0
+ptyprocess==0.7.0
+pyarrow==6.0.1
+pyasn1-modules==0.2.8
+pyasn1==0.4.8
+pycparser==2.21
+pyctcdecode==0.4.0
+pygments==2.11.1
+pygtrie==2.5.0
+pyparsing==3.0.6
+python-dateutil==2.8.2
+python-levenshtein==0.12.2
+pytz==2021.3
+pyyaml==6.0
+regex==2021.11.10
+requests-oauthlib==1.3.0
+requests==2.27.0
+resampy==0.3.1
+responses==0.18.0
+rich==11.2.0
+rsa==4.8
+sacremoses==0.0.46
+scikit-learn==1.1.1
+scipy==1.7.3
+sentry-sdk==1.5.2
+setuptools==44.0.0
+shortuuid==1.0.8
+six==1.16.0
+smmap==5.0.0
+sortedcontainers==2.4.0
+soundfile==0.10.3.post1
+sox==1.4.1
+subprocess32==3.5.4
+tensorboard-data-server==0.6.1
+tensorboard-plugin-wit==1.8.0
+tensorboard==2.7.0
+tensorflow-cpu==2.7.0
+tensorflow-datasets==4.4.0
+tensorflow-estimator==2.7.0
+tensorflow-io-gcs-filesystem==0.23.1
+tensorflow-metadata==1.5.0
+tensorflow==2.7.0
+tensorstore==0.1.21
+termcolor==1.1.0
+threadpoolctl==3.1.0
+tokenizers==0.11.2
+toolz==0.11.2
+torch==1.12.0
+torchaudio==0.12.0+cpu
+tqdm==4.62.3
+traitlets==5.1.1
+transformers==4.21.0
+typing-extensions==4.3.0
+uritemplate==3.0.1
+urllib3==1.26.7
+wandb==0.12.9
+wcwidth==0.2.5
+werkzeug==2.0.2
+wheel==0.37.1
+wrapt==1.13.3
+xxhash==2.0.2
+yarl==1.7.2
+yaspin==2.1.0
+zipp==3.7.0

wandb/run-20220802_074501-31ig5poi/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,69 @@

+{
+    "os": "Linux-5.4.0-1043-gcp-x86_64-with-glibc2.29",
+    "python": "3.8.10",
+    "heartbeatAt": "2022-08-02T07:45:05.227908",
+    "startedAt": "2022-08-02T07:45:01.837235",
+    "docker": null,
+    "cpu_count": 96,
+    "cuda": null,
+    "args": [
+        "--model_name_or_path=./",
+        "--hub_model_id=NbAiLab/wav2vec2-1b-npsc-nst",
+        "--tokenizer_name=./",
+        "--output_dir=./",
+        "--overwrite_output_dir",
+        "--num_train_epochs=40",
+        "--per_device_train_batch_size=8",
+        "--per_device_eval_batch_size=8",
+        "--gradient_accumulation_steps=1",
+        "--precision=full_mixed",
+        "--matmul_precision=bfloat16",
+        "--learning_rate=0.00033713760785758495",
+        "--skip_steps=33100",
+        "--warmup_steps=0",
+        "--length_column_name=input_length",
+        "--evaluation_strategy=steps",
+        "--text_column_name=text",
+        "--save_steps=4000",
+        "--eval_steps=4000",
+        "--logging_steps=100",
+        "--layerdrop=0.041",
+        "--attention_dropout=0.094",
+        "--activation_dropout=0.055",
+        "--hidden_dropout=0.047",
+        "--save_total_limit=5",
+        "--freeze_feature_encoder",
+        "--feat_proj_dropout=0.04",
+        "--mask_time_prob=0.082",
+        "--mask_time_length=10",
+        "--mask_feature_prob=0.25",
+        "--mask_feature_length=64",
+        "--gradient_checkpointing",
+        "--min_duration_in_seconds=0.5",
+        "--max_duration_in_seconds=20.0",
+        "--use_auth_token",
+        "--seed=42",
+        "--group_by_length",
+        "--do_train",
+        "--do_eval",
+        "--push_to_hub",
+        "--preprocessing_num_workers=32",
+        "--ctc_zero_infinity",
+        "--do_lower_case",
+        "--wandb_project=wav2vec2",
+        "--wandb_name=wav2vec2-1b-npsc-nst (cont.)",
+        "--remove_punctuation"
+    ],
+    "state": "running",
+    "program": "run_flax_speech_recognition_ctc.py",
+    "codePath": "run_flax_speech_recognition_ctc.py",
+    "git": {
+        "remote": "https://huggingface.co/NbAiLab/wav2vec2-1b-npsc-nst",
+        "commit": "4f995e8718adff5045133dd384c7aa42ebe89fa9"
+    },
+    "email": "versae@gmail.com",
+    "root": "/data/wav2vec2-1b-npsc-nst",
+    "host": "t1v-n-eedfb410-w-0",
+    "username": "javierr",
+    "executable": "/data/flax/bin/python"
+}

wandb/run-20220802_074501-31ig5poi/files/wandb-summary.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {}

wandb/run-20220802_074501-31ig5poi/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,412 @@

+2022-08-02 07:45:02,738 INFO    MainThread:3984200 [internal.py:wandb_internal():87] W&B internal server running at pid: 3984200, started at: 2022-08-02 07:45:02.737806
+2022-08-02 07:45:02,739 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: check_version
+2022-08-02 07:45:02,740 INFO    WriterThread:3984200 [datastore.py:open_for_write():77] open: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/run-31ig5poi.wandb
+2022-08-02 07:45:02,741 DEBUG   SenderThread:3984200 [sender.py:send():234] send: header
+2022-08-02 07:45:02,741 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: check_version
+2022-08-02 07:45:02,780 DEBUG   SenderThread:3984200 [sender.py:send():234] send: run
+2022-08-02 07:45:02,948 INFO    SenderThread:3984200 [dir_watcher.py:__init__():169] watching files in: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files
+2022-08-02 07:45:02,948 INFO    SenderThread:3984200 [sender.py:_start_run_threads():804] run started: 31ig5poi with start time 1659426301
+2022-08-02 07:45:02,948 DEBUG   SenderThread:3984200 [sender.py:send():234] send: summary
+2022-08-02 07:45:02,949 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: run_start
+2022-08-02 07:45:02,949 INFO    SenderThread:3984200 [sender.py:_save_file():939] saving file wandb-summary.json with policy end
+2022-08-02 07:45:03,950 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/wandb-summary.json
+2022-08-02 07:45:05,227 DEBUG   HandlerThread:3984200 [meta.py:__init__():40] meta init
+2022-08-02 07:45:05,227 DEBUG   HandlerThread:3984200 [meta.py:__init__():54] meta init done
+2022-08-02 07:45:05,227 DEBUG   HandlerThread:3984200 [meta.py:probe():214] probe
+2022-08-02 07:45:05,229 DEBUG   HandlerThread:3984200 [meta.py:_setup_git():204] setup git
+2022-08-02 07:45:05,268 DEBUG   HandlerThread:3984200 [meta.py:_setup_git():211] setup git done
+2022-08-02 07:45:05,269 DEBUG   HandlerThread:3984200 [meta.py:_save_code():92] save code
+2022-08-02 07:45:05,282 DEBUG   HandlerThread:3984200 [meta.py:_save_code():113] save code done
+2022-08-02 07:45:05,282 DEBUG   HandlerThread:3984200 [meta.py:_save_patches():130] save patches
+2022-08-02 07:45:05,954 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/diff.patch
+2022-08-02 07:45:05,956 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/code/run_flax_speech_recognition_ctc.py
+2022-08-02 07:45:05,956 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/code
+2022-08-02 07:45:06,234 DEBUG   HandlerThread:3984200 [meta.py:_save_patches():172] save patches done
+2022-08-02 07:45:06,235 DEBUG   HandlerThread:3984200 [meta.py:_save_pip():58] save pip
+2022-08-02 07:45:06,235 DEBUG   HandlerThread:3984200 [meta.py:_save_pip():72] save pip done
+2022-08-02 07:45:06,235 DEBUG   HandlerThread:3984200 [meta.py:probe():252] probe done
+2022-08-02 07:45:06,238 DEBUG   SenderThread:3984200 [sender.py:send():234] send: files
+2022-08-02 07:45:06,239 INFO    SenderThread:3984200 [sender.py:_save_file():939] saving file wandb-metadata.json with policy now
+2022-08-02 07:45:06,239 INFO    SenderThread:3984200 [sender.py:_save_file():939] saving file code/run_flax_speech_recognition_ctc.py with policy now
+2022-08-02 07:45:06,240 INFO    SenderThread:3984200 [sender.py:_save_file():939] saving file diff.patch with policy now
+2022-08-02 07:45:06,247 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:45:06,248 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:45:06,737 INFO    Thread-11 :3984200 [upload_job.py:push():137] Uploaded file /tmp/tmpjt6l9kmzwandb/ox4bihe1-wandb-metadata.json
+2022-08-02 07:45:06,948 INFO    Thread-13 :3984200 [upload_job.py:push():137] Uploaded file /tmp/tmpjt6l9kmzwandb/3itqmoyr-diff.patch
+2022-08-02 07:45:06,955 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/diff.patch
+2022-08-02 07:45:06,955 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/wandb-metadata.json
+2022-08-02 07:45:06,955 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:06,955 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_created():217] file/dir created: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/requirements.txt
+2022-08-02 07:45:06,979 INFO    Thread-12 :3984200 [upload_job.py:push():137] Uploaded file /tmp/tmpjt6l9kmzwandb/32ez21om-code/run_flax_speech_recognition_ctc.py
+2022-08-02 07:45:08,956 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:10,957 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:12,958 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:14,959 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:20,962 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:21,394 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:45:21,395 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:45:33,321 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:45:34,969 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:36,594 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:45:36,594 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:45:40,972 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:48,976 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:45:51,782 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:45:51,782 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:45:51,977 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:03,397 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:46:03,983 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:05,984 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:06,960 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:46:06,961 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:46:22,172 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:46:22,172 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:46:33,472 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:46:37,502 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:46:37,502 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:46:47,003 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:49,004 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:51,005 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:52,749 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:46:52,749 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:46:53,006 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:55,007 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:57,008 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:46:59,009 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:01,011 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:03,012 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:03,541 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:47:05,013 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:07,013 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:08,222 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:47:08,222 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:47:10,015 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:12,017 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:14,019 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:16,020 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:18,021 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:20,022 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:22,023 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:23,391 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:47:23,391 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:47:24,025 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:26,026 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:28,027 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:30,028 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:32,030 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:33,625 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:47:34,031 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:36,032 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:38,033 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:38,541 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:47:38,541 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:47:40,034 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:42,035 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:44,035 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:46,036 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:48,037 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:50,038 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:52,039 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:53,697 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:47:53,698 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:47:54,040 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:56,041 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:47:58,042 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:00,043 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:02,044 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:03,708 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:48:04,046 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:06,047 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:08,048 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:08,839 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:48:08,839 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:48:10,049 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:12,050 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:14,053 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:16,054 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:18,055 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:20,056 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:22,058 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:23,980 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:48:23,981 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:48:24,059 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:26,060 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:28,061 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:30,062 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:32,063 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:33,795 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:48:34,064 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:36,065 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:38,066 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:39,148 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:48:39,149 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:48:40,068 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:42,069 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:44,070 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:46,071 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:48,072 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:50,073 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:52,074 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:54,075 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:54,294 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:48:54,294 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:48:56,076 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:48:58,078 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:00,079 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:02,080 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:03,880 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:49:04,081 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:06,082 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:08,083 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:09,441 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:49:09,442 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:49:10,085 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:12,085 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:14,086 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:16,087 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:18,092 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:20,097 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:22,094 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:24,095 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:24,600 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:49:24,601 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:49:26,096 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:28,097 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:30,099 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:32,100 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:33,963 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:49:34,103 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:36,104 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:38,106 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:39,769 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:49:39,769 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:49:40,107 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:42,108 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:44,109 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:46,110 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:48,112 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:50,113 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:52,114 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:54,115 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:54,953 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:49:54,953 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:49:56,116 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:49:58,118 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:00,119 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:02,120 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:04,058 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:50:04,121 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:06,122 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:08,123 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:10,099 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:50:10,099 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:50:10,124 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:12,125 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:14,126 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:16,127 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:18,128 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:20,129 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:22,130 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:24,131 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:25,253 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:50:25,254 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:50:26,132 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:28,133 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:30,134 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:32,135 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:34,131 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:50:34,136 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:36,137 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:38,138 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:40,139 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:40,400 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:50:40,401 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:50:42,140 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:44,141 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:46,142 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:48,143 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:50,144 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:52,145 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:55,146 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:55,559 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:50:55,559 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:50:57,147 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:50:59,148 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:01,149 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:03,150 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:04,212 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:51:05,151 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:07,152 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:09,153 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:10,711 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:51:10,712 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:51:11,154 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:13,156 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:15,157 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:17,158 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:19,159 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:21,160 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:23,161 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:25,162 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:25,866 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:51:25,866 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:51:27,163 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:29,164 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:31,168 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:34,295 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:51:41,020 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:51:41,021 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:51:51,173 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:53,175 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:55,175 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:56,183 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:51:56,183 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:51:57,177 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:51:59,178 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:01,179 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:03,180 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:04,385 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:52:05,181 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:07,182 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:09,182 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:11,183 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:11,328 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:52:11,328 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:52:13,190 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:15,191 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:17,191 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:19,193 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:21,194 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:23,195 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:25,196 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:52:26,490 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:52:26,490 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:52:34,455 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:52:41,626 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:52:41,627 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:52:56,839 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:52:56,840 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:53:03,214 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:04,529 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:53:05,215 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:07,216 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:09,217 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:11,218 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:12,011 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:53:12,011 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:53:13,219 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:15,220 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:17,221 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:19,223 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:21,224 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:23,225 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:25,226 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:27,150 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:53:27,150 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:53:27,227 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:29,228 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:31,229 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:33,231 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:34,612 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:53:41,234 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:42,296 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:53:42,296 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:53:43,237 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:45,238 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:47,239 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:49,240 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:53:57,474 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:53:57,475 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:54:04,679 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:54:12,610 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:54:12,611 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:54:15,252 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:26,256 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:27,746 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:54:27,747 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:54:28,257 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:30,258 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:32,259 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:34,260 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:34,757 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:54:36,262 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:38,263 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:40,263 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:42,264 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:42,900 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:54:42,900 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:54:44,265 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:46,266 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:48,271 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:50,272 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:52,273 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:54,274 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:56,275 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:54:58,037 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:54:58,037 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:55:00,277 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:02,278 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:04,279 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:04,837 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:55:06,280 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:08,281 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:10,282 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:12,283 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:13,188 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:55:13,188 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:55:14,284 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:16,289 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:18,290 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:20,291 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:22,292 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:24,293 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:26,294 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:28,295 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:28,327 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:55:28,327 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:55:30,296 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:32,297 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:34,298 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:34,920 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:55:36,299 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:38,300 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:40,301 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:42,303 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:43,472 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:55:43,473 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:55:44,304 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:46,305 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:48,306 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:55:58,641 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:55:58,641 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:56:05,000 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:56:13,774 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:56:13,775 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:56:28,975 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:56:28,975 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:56:31,325 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:56:35,080 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:56:37,328 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:56:44,223 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:56:44,224 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:56:44,331 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:56:50,334 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:56:56,336 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:56:59,451 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:56:59,451 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:57:02,339 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:57:05,159 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:57:06,341 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:57:08,342 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:57:12,344 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:57:15,673 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:57:15,673 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:57:16,346 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:57:24,349 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:57:26,350 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:57:30,823 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:57:30,824 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status
+2022-08-02 07:57:35,236 DEBUG   SenderThread:3984200 [sender.py:send():234] send: stats
+2022-08-02 07:57:38,356 INFO    Thread-8  :3984200 [dir_watcher.py:_on_file_modified():230] file/dir modified: /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/files/output.log
+2022-08-02 07:57:45,984 DEBUG   HandlerThread:3984200 [handler.py:handle_request():130] handle_request: stop_status
+2022-08-02 07:57:45,985 DEBUG   SenderThread:3984200 [sender.py:send_request():248] send_request: stop_status

wandb/run-20220802_074501-31ig5poi/logs/debug.log ADDED Viewed

	@@ -0,0 +1,23 @@

+2022-08-02 07:45:01,839 INFO    MainThread:3982953 [wandb_setup.py:_flush():71] setting env: {'project': 'wav2vec2', 'entity': 'NbAiLab'}
+2022-08-02 07:45:01,839 INFO    MainThread:3982953 [wandb_setup.py:_flush():71] setting login settings: {}
+2022-08-02 07:45:01,840 INFO    MainThread:3982953 [wandb_init.py:_log_setup():371] Logging user logs to /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/logs/debug.log
+2022-08-02 07:45:01,840 INFO    MainThread:3982953 [wandb_init.py:_log_setup():372] Logging internal logs to /data/wav2vec2-1b-npsc-nst/wandb/run-20220802_074501-31ig5poi/logs/debug-internal.log
+2022-08-02 07:45:01,840 INFO    MainThread:3982953 [wandb_init.py:init():404] calling init triggers
+2022-08-02 07:45:01,840 INFO    MainThread:3982953 [wandb_init.py:init():409] wandb.init called with sweep_config: {}
+config: {}
+2022-08-02 07:45:01,840 INFO    MainThread:3982953 [wandb_init.py:init():460] starting backend
+2022-08-02 07:45:01,840 INFO    MainThread:3982953 [backend.py:_multiprocessing_setup():99] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2022-08-02 07:45:01,887 INFO    MainThread:3982953 [backend.py:ensure_launched():216] starting backend process...
+2022-08-02 07:45:01,933 INFO    MainThread:3982953 [backend.py:ensure_launched():221] started backend process with pid: 3984200
+2022-08-02 07:45:01,935 INFO    MainThread:3982953 [wandb_init.py:init():469] backend started and connected
+2022-08-02 07:45:01,950 INFO    MainThread:3982953 [wandb_init.py:init():533] updated telemetry
+2022-08-02 07:45:02,064 INFO    MainThread:3982953 [wandb_init.py:init():563] communicating current version
+2022-08-02 07:45:02,778 INFO    MainThread:3982953 [wandb_init.py:init():568] got version response upgrade_message: "wandb version 0.12.21 is available!  To upgrade, please run:\n $ pip install wandb --upgrade"
+2022-08-02 07:45:02,779 INFO    MainThread:3982953 [wandb_init.py:init():578] communicating run to backend with 30 second timeout
+2022-08-02 07:45:02,948 INFO    MainThread:3982953 [wandb_init.py:init():606] starting run threads in backend
+2022-08-02 07:45:06,243 INFO    MainThread:3982953 [wandb_run.py:_console_start():1810] atexit reg
+2022-08-02 07:45:06,243 INFO    MainThread:3982953 [wandb_run.py:_redirect():1684] redirect: SettingsConsole.REDIRECT
+2022-08-02 07:45:06,244 INFO    MainThread:3982953 [wandb_run.py:_redirect():1689] Redirecting console.
+2022-08-02 07:45:06,246 INFO    MainThread:3982953 [wandb_run.py:_redirect():1745] Redirects installed.
+2022-08-02 07:45:06,246 INFO    MainThread:3982953 [wandb_init.py:init():633] run started, returning control to user process

wandb/run-20220802_074501-31ig5poi/run-31ig5poi.wandb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8002a15dcc52b07d01af74dc49bf603acdebc0a74c8fa5f3f1e322b444bec21c
+size 421207