diff --git "a/nohup.out" "b/nohup.out"
--- "a/nohup.out"
+++ "b/nohup.out"
@@ -66167,3 +66167,1606 @@ huggingface/tokenizers: The current process just got forked, after parallelism h
 To disable this warning, you can either:
 	- Avoid using `tokenizers` before the fork if possible
 	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
+huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
+To disable this warning, you can either:
+	- Avoid using `tokenizers` before the fork if possible
+	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
+huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
+To disable this warning, you can either:
+	- Avoid using `tokenizers` before the fork if possible
+	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
+huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
+To disable this warning, you can either:
+	- Avoid using `tokenizers` before the fork if possible
+	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
+huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
+To disable this warning, you can either:
+	- Avoid using `tokenizers` before the fork if possible
+	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
+huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
+To disable this warning, you can either:
+	- Avoid using `tokenizers` before the fork if possible
+	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
+huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
+To disable this warning, you can either:
+	- Avoid using `tokenizers` before the fork if possible
+	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
+Step... (48325 | Loss: 0.006273908074945211, Learning Rate: 3.385859599802643e-06, Gradient Norm: 0.1460614949464798)
+Step... (48350 | Loss: 0.0028254184871912003, Learning Rate: 3.335356723255245e-06, Gradient Norm: 0.10338709503412247)
+Step... (48375 | Loss: 0.004019684158265591, Learning Rate: 3.28484770761861e-06, Gradient Norm: 0.1249128133058548)
+Step... (48400 | Loss: 0.004758585710078478, Learning Rate: 3.2343446036975365e-06, Gradient Norm: 0.15959139168262482)
+Step... (48425 | Loss: 0.0057290843687951565, Learning Rate: 3.1838417271501385e-06, Gradient Norm: 0.3134813904762268)
+Step... (48450 | Loss: 0.0017834462923929095, Learning Rate: 3.1333327115135035e-06, Gradient Norm: 0.07752764225006104)
+Step... (48475 | Loss: 0.00752327311784029, Learning Rate: 3.08282960759243e-06, Gradient Norm: 0.1572938710451126)
+Step... (48500 | Loss: 0.0028460498433560133, Learning Rate: 3.032326731045032e-06, Gradient Norm: 0.14785446226596832)
+Step... (48525 | Loss: 0.003165456233546138, Learning Rate: 2.981817715408397e-06, Gradient Norm: 0.14088474214076996)
+Step... (48550 | Loss: 0.003088166005909443, Learning Rate: 2.9313146114873234e-06, Gradient Norm: 0.14618875086307526)
+Step... (48575 | Loss: 0.005377086345106363, Learning Rate: 2.8808055958506884e-06, Gradient Norm: 0.1480293571949005)
+Step... (48600 | Loss: 0.008808658458292484, Learning Rate: 2.8303027193032904e-06, Gradient Norm: 0.29225432872772217)
+Step... (48625 | Loss: 0.005420982837677002, Learning Rate: 2.779799615382217e-06, Gradient Norm: 0.12026731669902802)
+Step... (48650 | Loss: 0.0027397857047617435, Learning Rate: 2.729290599745582e-06, Gradient Norm: 0.15806540846824646)
+Step... (48675 | Loss: 0.00710515258833766, Learning Rate: 2.678787723198184e-06, Gradient Norm: 0.22162267565727234)
+Step... (48700 | Loss: 0.005460535641759634, Learning Rate: 2.6282846192771103e-06, Gradient Norm: 0.15932734310626984)
+Step... (48725 | Loss: 0.0032200149726122618, Learning Rate: 2.5777756036404753e-06, Gradient Norm: 0.12232287973165512)
+Step... (48750 | Loss: 0.003293083980679512, Learning Rate: 2.5272727270930773e-06, Gradient Norm: 0.1615389883518219)
+Step... (48775 | Loss: 0.006437454838305712, Learning Rate: 2.4767696231720038e-06, Gradient Norm: 0.17736835777759552)
+Step... (48800 | Loss: 0.003951036371290684, Learning Rate: 2.4262606075353688e-06, Gradient Norm: 0.14531250298023224)
+Step... (48825 | Loss: 0.005099722649902105, Learning Rate: 2.3757577309879707e-06, Gradient Norm: 0.160662442445755)
+Step... (48850 | Loss: 0.0032283207401633263, Learning Rate: 2.3252546270668972e-06, Gradient Norm: 0.13414400815963745)
+Step... (48875 | Loss: 0.0015734140761196613, Learning Rate: 2.2747456114302622e-06, Gradient Norm: 0.07306690514087677)
+Step... (48900 | Loss: 0.004713626578450203, Learning Rate: 2.224242734882864e-06, Gradient Norm: 0.37370821833610535)
+Step... (48925 | Loss: 0.00445198779925704, Learning Rate: 2.1737396309617907e-06, Gradient Norm: 0.11672279238700867)
+Step... (48950 | Loss: 0.005622401367872953, Learning Rate: 2.1232306153251557e-06, Gradient Norm: 0.36664897203445435)
+Step... (48975 | Loss: 0.004830599296838045, Learning Rate: 2.0727277387777576e-06, Gradient Norm: 0.1332392543554306)
+Step... (49000 | Loss: 0.001942885690368712, Learning Rate: 2.022224634856684e-06, Gradient Norm: 0.08187990635633469)
+Step... (49025 | Loss: 0.002983431564643979, Learning Rate: 1.971715619220049e-06, Gradient Norm: 0.12874305248260498)
+Step... (49050 | Loss: 0.003948990721255541, Learning Rate: 1.9212125152989756e-06, Gradient Norm: 0.1727469116449356)
+Step... (49075 | Loss: 0.0030416282825171947, Learning Rate: 1.8707096387515776e-06, Gradient Norm: 0.11190405488014221)
+Step... (49100 | Loss: 0.002342380816116929, Learning Rate: 1.8202006231149426e-06, Gradient Norm: 0.186001718044281)
+Step... (49125 | Loss: 0.005597165320068598, Learning Rate: 1.7696976328807068e-06, Gradient Norm: 0.1563747525215149)
+Step... (49150 | Loss: 0.006304830778390169, Learning Rate: 1.719194642646471e-06, Gradient Norm: 0.3608132302761078)
+Step
+
+Evaluating ...:   0% 0/85 [00:00<?, ?it/s][A[A... (49175 | Loss: 0.005585476290434599, Learning Rate: 1.668685627009836e-06, Gradient Norm: 0.1635635942220688)
+Step... (49200 | Loss: 0.0022299003321677446, Learning Rate: 1.6181826367756003e-06, Gradient Norm: 0.09342005848884583)
+Step... (49225 | Loss: 0.003186724614351988, Learning Rate: 1.5676796465413645e-06, Gradient Norm: 0.11787708848714828)
+Step... (49250 | Loss: 0.0044976030476391315, Learning Rate: 1.5171706309047295e-06, Gradient Norm: 0.15412402153015137)
+Step... (49275 | Loss: 0.002793824765831232, Learning Rate: 1.4666676406704937e-06, Gradient Norm: 0.12002275139093399)
+Step... (49300 | Loss: 0.005244765896350145, Learning Rate: 1.416164650436258e-06, Gradient Norm: 0.20691828429698944)
+Step... (49325 | Loss: 0.005228319205343723, Learning Rate: 1.365655634799623e-06, Gradient Norm: 0.11888090521097183)
+Step... (49350 | Loss: 0.0021032176446169615, Learning Rate: 1.3151526445653872e-06, Gradient Norm: 0.11082443594932556)
+Step... (49375 | Loss: 0.002918470650911331, Learning Rate: 1.2646496543311514e-06, Gradient Norm: 0.10087604075670242)
+Step... (49400 | Loss: 0.00608043372631073, Learning Rate: 1.2141406386945164e-06, Gradient Norm: 0.24040699005126953)
+Step... (49425 | Loss: 0.0024373417254537344, Learning Rate: 1.1636376484602806e-06, Gradient Norm: 0.11463785171508789)
+Step... (49450 | Loss: 0.002385038649663329, Learning Rate: 1.1131345445392071e-06, Gradient Norm: 0.21716482937335968)
+Step... (49475 | Loss: 0.005627614911645651, Learning Rate: 1.0626256425894098e-06, Gradient Norm: 0.23284529149532318)
+Step... (49500 | Loss: 0.0034920424222946167, Learning Rate: 1.012122652355174e-06, Gradient Norm: 0.329440176486969)
+Step... (49525 | Loss: 0.005277593154460192, Learning Rate: 9.616195484341006e-07, Gradient Norm: 0.1645783931016922)
+Step... (49550 | Loss: 0.0022860753815621138, Learning Rate: 9.111105896408844e-07, Gradient Norm: 0.08527761697769165)
+Step... (49575 | Loss: 0.00586397061124444, Learning Rate: 8.606075994066487e-07, Gradient Norm: 0.16009190678596497)
+Step... (49600 | Loss: 0.003235064446926117, Learning Rate: 8.100986406134325e-07, Gradient Norm: 0.10364442318677902)
+Step... (49625 | Loss: 0.0035986381117254496, Learning Rate: 7.595955935357779e-07, Gradient Norm: 0.11373201012611389)
+Step... (49650 | Loss: 0.001558838877826929, Learning Rate: 7.090926033015421e-07, Gradient Norm: 0.07926014810800552)
+Step... (49675 | Loss: 0.0028727748431265354, Learning Rate: 6.58583644508326e-07, Gradient Norm: 0.1340569704771042)
+Step... (49700 | Loss: 0.003118803957477212, Learning Rate: 6.080805974306713e-07, Gradient Norm: 0.12160930037498474)
+Step... (49725 | Loss: 0.003669364843517542, Learning Rate: 5.575776071964356e-07, Gradient Norm: 0.1003832146525383)
+Step... (49750 | Loss: 0.002524098614230752, Learning Rate: 5.070686484032194e-07, Gradient Norm: 0.11493940651416779)
+Step... (49775 | Loss: 0.010293897241353989, Learning Rate: 4.565656013255648e-07, Gradient Norm: 0.27238357067108154)
+Step... (49800 | Loss: 0.0035836833994835615, Learning Rate: 4.060625826696196e-07, Gradient Norm: 0.09983225166797638)
+Step... (49825 | Loss: 0.005596230737864971, Learning Rate: 3.5555362387640344e-07, Gradient Norm: 0.20980145037174225)
+Step... (49850 | Loss: 0.004051040858030319, Learning Rate: 3.0505060522045824e-07, Gradient Norm: 0.23624876141548157)
+Step... (49875 | Loss: 0.0029332884587347507, Learning Rate: 2.5454758656451304e-07, Gradient Norm: 0.12203349173069)
+Step... (49900 | Loss: 0.003682792419567704, Learning Rate: 2.0403861356044217e-07, Gradient Norm: 0.15977534651756287)
+Step... (49925 | Loss: 0.005816394928842783, Learning Rate: 1.5353559490449697e-07, Gradient Norm: 0.18484382331371307)
+Step... (49950 | Loss: 0.005385520868003368, Learning Rate: 1.0303258335397913e-07, Gradient Norm: 0.30565232038497925)
+Step... (49975 | Loss: 0.0029563589487224817, Learning Rate: 5.252361034990827e-08, Gradient Norm: 0.1044062077999115)
+Step... (50000 | Loss: 0.00470846937969327, Learning Rate: 2.0205974671227978e-09, Gradient Norm: 0.18846991658210754)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:   1% 1/85 [00:42<59:57, 42.83s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:   2% 2/85 [01:11<47:29, 34.33s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:   4% 3/85 [01:37<42:08, 30.84s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:   5% 4/85 [02:03<38:43, 28.69s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:   6% 5/85 [02:07<26:39, 20.00s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:   7% 6/85 [02:31<27:48, 21.11s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:   8% 7/85 [02:35<20:14, 15.57s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:   9% 8/85 [02:58<22:55, 17.86s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:  11% 9/85 [03:01<17:04, 13.47s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:  12% 10/85 [03:23<20:09, 16.13s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:  13% 11/85 [03:27<15:08, 12.27s/it][A[A
+
+Evaluating ...:  14% 12/85 [03:31<11:46,  9.68s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:  15% 13/85 [04:17<24:54, 20.75s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:  16% 14/85 [04:20<18:18, 15.48s/it][A[A
+
+Evaluating ...:  18% 15/85 [04:24<14:01, 12.02s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:  19% 16/85 [04:44<16:37, 14.45s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:  20% 17/85 [04:49<13:09, 11.61s/it][A[A
+
+Evaluating ...:  21% 18/85 [04:54<10:37,  9.52s/it][A[A
+
+Evaluating ...:  22% 19/85 [05:00<09:15,  8.42s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:  24% 20/85 [05:20<12:48, 11.83s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:  25% 21/85 [05:30<12:05, 11.34s/it][A[A
+
+Evaluating ...:  26% 22/85 [05:38<10:57, 10.43s/it][A[A
+
+Evaluating ...:  27% 23/85 [05:44<09:27,  9.15s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:  28% 24/85 [06:09<14:06, 13.87s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:  29% 25/85 [06:14<11:10, 11.18s/it][A[A
+
+Evaluating ...:  31% 26/85 [06:19<09:00,  9.17s/it][A[A
+
+Evaluating ...:  32% 27/85 [06:23<07:26,  7.70s/it][A[A
+
+Evaluating ...:  33% 28/85 [06:27<06:21,  6.69s/it][A[A
+
+Evaluating ...:  34% 29/85 [06:31<05:25,  5.81s/it][A[A
+
+Evaluating ...:  35% 30/85 [06:35<04:49,  5.27s/it][A[A
+
+Evaluating ...:  36% 31/85 [06:39<04:22,  4.86s/it][A[A
+
+Evaluating ...:  38% 32/85 [06:42<03:57,  4.48s/it][A[A
+
+Evaluating ...:  39% 33/85 [06:47<03:53,  4.49s/it][A[A
+
+Evaluating ...:  40% 34/85 [06:51<03:36,  4.25s/it][A[A
+
+Evaluating ...:  41% 35/85 [06:55<03:28,  4.18s/it][A[A
+
+Evaluating ...:  42% 36/85 [06:59<03:33,  4.36s/it][A[A
+
+Evaluating ...:  44% 37/85 [07:04<03:32,  4.42s/it][A[A
+
+Evaluating ...:  45% 38/85 [07:09<03:34,  4.57s/it][A[A
+
+Evaluating ...:  46% 39/85 [07:14<03:40,  4.79s/it][A[A
+
+Evaluating ...:  47% 40/85 [07:21<04:06,  5.47s/it][A[A
+
+Evaluating ...:  48% 41/85 [07:29<04:25,  6.04s/it][A[A
+
+Evaluating ...:  49% 42/85 [07:39<05:12,  7.27s/it][A[A
+
+Evaluating ...:  51% 43/85 [07:48<05:34,  7.97s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:  52% 44/85 [08:15<09:15, 13.55s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:  53% 45/85 [08:20<07:18, 10.95s/it][A[A
+
+Evaluating ...:  54% 46/85 [08:24<05:51,  9.01s/it][A[A
+
+Evaluating ...:  55% 47/85 [08:29<04:48,  7.60s/it][A[A
+
+Evaluating ...:  56% 48/85 [08:33<04:03,  6.59s/it][A[A
+
+Evaluating ...:  58% 49/85 [08:37<03:31,  5.87s/it][A[A
+
+Evaluating ...:  59% 50/85 [08:41<03:08,  5.39s/it][A[A
+
+Evaluating ...:  60% 51/85 [08:45<02:48,  4.97s/it][A[A
+
+Evaluating ...:  61% 52/85 [08:49<02:32,  4.63s/it][A[A
+
+Evaluating ...:  62% 53/85 [08:53<02:22,  4.45s/it][A[A
+
+Evaluating ...:  64% 54/85 [08:58<02:16,  4.40s/it][A[A
+
+Evaluating ...:  65% 55/85 [09:02<02:10,  4.35s/it][A[A
+
+Evaluating ...:  66% 56/85 [09:07<02:11,  4.54s/it][A[A
+
+Evaluating ...:  67% 57/85 [09:12<02:11,  4.69s/it][A[A
+
+Evaluating ...:  68% 58/85 [09:18<02:18,  5.13s/it][A[A
+
+Evaluating ...:  69% 59/85 [09:23<02:12,  5.09s/it][A[A
+
+Evaluating ...:  71% 60/85 [09:29<02:15,  5.40s/it][A[A
+
+Evaluating ...:  72% 61/85 [09:35<02:12,  5.51s/it][A[A
+
+Evaluating ...:  73% 62/85 [09:43<02:26,  6.37s/it][A[A
+
+Evaluating ...:  74% 63/85 [09:52<02:37,  7.18s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...:  75% 64/85 [10:24<05:02, 14.43s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Evaluating ...:  76% 65/85 [10:31<04:03, 12.19s/it][A[A
+
+Evaluating ...:  78% 66/85 [10:36<03:11, 10.07s/it][A[A
+
+Evaluating ...:  79% 67/85 [10:40<02:31,  8.43s/it][A[A
+
+Evaluating ...:  80% 68/85 [10:45<02:02,  7.18s/it][A[A
+
+Evaluating ...:  81% 69/85 [10:49<01:39,  6.22s/it][A[A
+
+Evaluating ...:  82% 70/85 [10:52<01:23,  5.54s/it][A[A
+
+Evaluating ...:  84% 71/85 [10:56<01:10,  5.01s/it][A[A
+
+Evaluating ...:  85% 72/85 [11:00<01:00,  4.66s/it][A[A
+
+Evaluating ...:  86% 73/85 [11:04<00:52,  4.35s/it][A[A
+
+Evaluating ...:  87% 74/85 [11:07<00:45,  4.09s/it][A[A
+
+Evaluating ...:  88% 75/85 [11:11<00:40,  4.01s/it][A[A
+
+Evaluating ...:  89% 76/85 [11:15<00:35,  3.92s/it][A[A
+
+Evaluating ...:  91% 77/85 [11:19<00:32,  4.02s/it][A[A
+
+Evaluating ...:  92% 78/85 [11:24<00:29,  4.20s/it][A[A
+
+Evaluating ...:  93% 79/85 [11:29<00:26,  4.41s/it][A[A
+
+Evaluating ...:  94% 80/85 [11:34<00:23,  4.62s/it][A[A
+
+Evaluating ...:  95% 81/85 [11:39<00:19,  4.89s/it][A[A
+
+Evaluating ...:  96% 82/85 [11:46<00:16,  5.39s/it][A[A
+
+Evaluating ...:  98% 83/85 [11:50<00:10,  5.08s/it][A[A
+
+Evaluating ...:  99% 84/85 [11:56<00:05,  5.32s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Evaluating ...: 100% 85/85 [12:23<00:00, 11.83s/it][A[AEvaluating ...: 100% 85/85 [12:23<00:00,  8.75s/it]
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(stack_args, *forest)
+run_flax_speech_recognition_seq2seq.py:1392: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
+run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+
+
+Predicting validation.other...:   0% 0/90 [00:00<?, ?it/s][A[AStep... (50000/50000 | Eval Loss: 1.0609267950057983 | Eval wer: 0.043509429800374984 | Eval cer: 0.031179798652134123 |)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  loss = jax.tree_map(lambda l: l / total_samples, loss)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Predicting validation.other...:   1% 1/90 [01:28<2:11:58, 88.97s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Predicting validation.other...:   2% 2/90 [01:35<59:02, 40.25s/it]  [A[A
+
+Predicting validation.other...:   3% 3/90 [01:40<35:01, 24.15s/it][A[A
+
+Predicting validation.other...:   4% 4/90 [01:44<23:26, 16.35s/it][A[A
+
+Predicting validation.other...:   6% 5/90 [01:48<16:58, 11.98s/it][A[A
+
+Predicting validation.other...:   7% 6/90 [01:52<12:51,  9.19s/it][A[A
+
+Predicting validation.other...:   8% 7/90 [01:56<10:18,  7.45s/it][A[A
+
+Predicting validation.other...:   9% 8/90 [02:00<08:31,  6.24s/it][A[A
+
+Predicting validation.other...:  10% 9/90 [02:03<07:06,  5.27s/it][A[A
+
+Predicting validation.other...:  11% 10/90 [02:06<06:11,  4.64s/it][A[A
+
+Predicting validation.other...:  12% 11/90 [02:09<05:40,  4.31s/it][A[A
+
+Predicting validation.other...:  13% 12/90 [02:14<05:33,  4.28s/it][A[A
+
+Predicting validation.other...:  14% 13/90 [02:18<05:28,  4.27s/it][A[A
+
+Predicting validation.other...:  16% 14/90 [02:22<05:16,  4.17s/it][A[A
+
+Predicting validation.other...:  17% 15/90 [02:26<05:11,  4.15s/it][A[A
+
+Predicting validation.other...:  18% 16/90 [02:30<04:57,  4.02s/it][A[A
+
+Predicting validation.other...:  19% 17/90 [02:34<04:52,  4.01s/it][A[A
+
+Predicting validation.other...:  20% 18/90 [02:39<05:17,  4.41s/it][A[A
+
+Predicting validation.other...:  21% 19/90 [02:45<05:42,  4.83s/it][A[A
+
+Predicting validation.other...:  22% 20/90 [02:50<05:48,  4.98s/it][A[A
+
+Predicting validation.other...:  23% 21/90 [02:57<06:30,  5.66s/it][A[A
+
+Predicting validation.other...:  24% 22/90 [03:07<07:45,  6.85s/it][A[A
+
+Predicting validation.other...:  26% 23/90 [03:15<08:08,  7.29s/it][A[A
+
+Predicting validation.other...:  27% 24/90 [03:21<07:31,  6.85s/it][A[A
+
+Predicting validation.other...:  28% 25/90 [03:26<06:48,  6.28s/it][A[A
+
+Predicting validation.other...:  29% 26/90 [03:30<06:06,  5.72s/it][A[A
+
+Predicting validation.other...:  30% 27/90 [03:34<05:24,  5.16s/it][A[A
+
+Predicting validation.other...:  31% 28/90 [03:38<04:59,  4.83s/it][A[A
+
+Predicting validation.other...:  32% 29/90 [03:42<04:36,  4.53s/it][A[A
+
+Predicting validation.other...:  33% 30/90 [03:46<04:21,  4.37s/it][A[A
+
+Predicting validation.other...:  34% 31/90 [03:50<03:59,  4.05s/it][A[A
+
+Predicting validation.other...:  36% 32/90 [03:53<03:46,  3.91s/it][A[A
+
+Predicting validation.other...:  37% 33/90 [03:56<03:32,  3.74s/it][A[A
+
+Predicting validation.other...:  38% 34/90 [03:59<03:17,  3.53s/it][A[A
+
+Predicting validation.other...:  39% 35/90 [04:03<03:11,  3.48s/it][A[A
+
+Predicting validation.other...:  40% 36/90 [04:07<03:15,  3.62s/it][A[A
+
+Predicting validation.other...:  41% 37/90 [04:11<03:16,  3.71s/it][A[A
+
+Predicting validation.other...:  42% 38/90 [04:14<03:10,  3.66s/it][A[A
+
+Predicting validation.other...:  43% 39/90 [04:19<03:25,  4.03s/it][A[A
+
+Predicting validation.other...:  44% 40/90 [04:23<03:21,  4.03s/it][A[A
+
+Predicting validation.other...:  46% 41/90 [04:27<03:14,  3.98s/it][A[A
+
+Predicting validation.other...:  47% 42/90 [04:33<03:36,  4.52s/it][A[A
+
+Predicting validation.other...:  48% 43/90 [04:39<03:49,  4.88s/it][A[A
+
+Predicting validation.other...:  49% 44/90 [04:48<04:48,  6.28s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  loss = jax.tree_map(lambda l: l / total_samples, loss)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Predicting validation.other...:  50% 45/90 [06:26<25:18, 33.75s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Predicting validation.other...:  51% 46/90 [06:32<18:33, 25.30s/it][A[A
+
+Predicting validation.other...:  52% 47/90 [06:36<13:39, 19.07s/it][A[A
+
+Predicting validation.other...:  53% 48/90 [06:40<10:12, 14.58s/it][A[A
+
+Predicting validation.other...:  54% 49/90 [06:44<07:44, 11.32s/it][A[A
+
+Predicting validation.other...:  56% 50/90 [06:47<05:58,  8.96s/it][A[A
+
+Predicting validation.other...:  57% 51/90 [06:52<04:57,  7.63s/it][A[A
+
+Predicting validation.other...:  58% 52/90 [06:56<04:09,  6.56s/it][A[A
+
+Predicting validation.other...:  59% 53/90 [07:00<03:31,  5.73s/it][A[A
+
+Predicting validation.other...:  60% 54/90 [07:03<03:03,  5.08s/it][A[A
+
+Predicting validation.other...:  61% 55/90 [07:07<02:48,  4.81s/it][A[A
+
+Predicting validation.other...:  62% 56/90 [07:12<02:38,  4.67s/it][A[A
+
+Predicting validation.other...:  63% 57/90 [07:15<02:24,  4.37s/it][A[A
+
+Predicting validation.other...:  64% 58/90 [07:19<02:10,  4.09s/it][A[A
+
+Predicting validation.other...:  66% 59/90 [07:23<02:06,  4.07s/it][A[A
+
+Predicting validation.other...:  67% 60/90 [07:27<02:05,  4.19s/it][A[A
+
+Predicting validation.other...:  68% 61/90 [07:33<02:10,  4.49s/it][A[A
+
+Predicting validation.other...:  69% 62/90 [07:39<02:20,  5.03s/it][A[A
+
+Predicting validation.other...:  70% 63/90 [07:45<02:21,  5.25s/it][A[A
+
+Predicting validation.other...:  71% 64/90 [07:50<02:14,  5.16s/it][A[A
+
+Predicting validation.other...:  72% 65/90 [07:56<02:20,  5.64s/it][A[A
+
+Predicting validation.other...:  73% 66/90 [08:06<02:45,  6.89s/it][A[A
+
+Predicting validation.other...:  74% 67/90 [08:14<02:45,  7.20s/it][A[A
+
+Predicting validation.other...:  76% 68/90 [08:20<02:27,  6.69s/it][A[A
+
+Predicting validation.other...:  77% 69/90 [08:25<02:09,  6.17s/it][A[A
+
+Predicting validation.other...:  78% 70/90 [08:29<01:52,  5.61s/it][A[A
+
+Predicting validation.other...:  79% 71/90 [08:33<01:35,  5.03s/it][A[A
+
+Predicting validation.other...:  80% 72/90 [08:36<01:22,  4.57s/it][A[A
+
+Predicting validation.other...:  81% 73/90 [08:40<01:13,  4.33s/it][A[A
+
+Predicting validation.other...:  82% 74/90 [08:43<01:04,  4.02s/it][A[A
+
+Predicting validation.other...:  83% 75/90 [08:46<00:56,  3.77s/it][A[A
+
+Predicting validation.other...:  84% 76/90 [08:50<00:52,  3.73s/it][A[A
+
+Predicting validation.other...:  86% 77/90 [08:54<00:48,  3.69s/it][A[A
+
+Predicting validation.other...:  87% 78/90 [08:57<00:43,  3.59s/it][A[A
+
+Predicting validation.other...:  88% 79/90 [09:00<00:38,  3.52s/it][A[A
+
+Predicting validation.other...:  89% 80/90 [09:05<00:39,  3.93s/it][A[A
+
+Predicting validation.other...:  90% 81/90 [09:09<00:34,  3.83s/it][A[A
+
+Predicting validation.other...:  91% 82/90 [09:13<00:31,  3.90s/it][A[A
+
+Predicting validation.other...:  92% 83/90 [09:16<00:26,  3.77s/it][A[A
+
+Predicting validation.other...:  93% 84/90 [09:23<00:27,  4.59s/it][A[A
+
+Predicting validation.other...:  94% 85/90 [09:26<00:21,  4.30s/it][A[A
+
+Predicting validation.other...:  96% 86/90 [09:32<00:18,  4.57s/it][A[A
+
+Predicting validation.other...:  97% 87/90 [09:37<00:14,  4.84s/it][A[A
+
+Predicting validation.other...:  98% 88/90 [09:42<00:09,  4.95s/it][A[A
+
+Predicting validation.other...:  99% 89/90 [09:51<00:06,  6.09s/it][A[A
+
+Predicting validation.other...: 100% 90/90 [09:56<00:00,  5.88s/it][A[APredicting validation.other...: 100% 90/90 [09:56<00:00,  6.63s/it]
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(stack_args, *forest)
+run_flax_speech_recognition_seq2seq.py:1541: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  pred_metrics = jax.tree_map(jnp.mean, pred_metrics)
+run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+
+
+Predicting test.clean...:   0% 0/82 [00:00<?, ?it/s][A[AStep... (50000/50000 | validation.other Loss: 1.3155505657196045 | validation.other wer: 0.07554761717829944 | validation.other cer: 0.04917447198920102 |)
+
+
+Predicting test.clean...:   1% 1/82 [00:09<12:32,  9.29s/it][A[A
+
+Predicting test.clean...:   2% 2/82 [00:16<10:49,  8.11s/it][A[A
+
+Predicting test.clean...:   4% 3/82 [00:22<09:29,  7.21s/it][A[A
+
+Predicting test.clean...:   5% 4/82 [00:28<08:32,  6.57s/it][A[A
+
+Predicting test.clean...:   6% 5/82 [00:33<07:53,  6.16s/it][A[A
+
+Predicting test.clean...:   7% 6/82 [00:38<07:15,  5.73s/it][A[A
+
+Predicting test.clean...:   9% 7/82 [00:43<06:48,  5.45s/it][A[A
+
+Predicting test.clean...:  10% 8/82 [00:47<06:17,  5.10s/it][A[A
+
+Predicting test.clean...:  11% 9/82 [00:52<05:54,  4.86s/it][A[A
+
+Predicting test.clean...:  12% 10/82 [00:56<05:37,  4.69s/it][A[A
+
+Predicting test.clean...:  13% 11/82 [01:00<05:25,  4.59s/it][A[A
+
+Predicting test.clean...:  15% 12/82 [01:05<05:15,  4.50s/it][A[A
+
+Predicting test.clean...:  16% 13/82 [01:08<04:45,  4.14s/it][A[A
+
+Predicting test.clean...:  17% 14/82 [01:13<04:51,  4.28s/it][A[A
+
+Predicting test.clean...:  18% 15/82 [01:16<04:38,  4.16s/it][A[A
+
+Predicting test.clean...:  20% 16/82 [01:22<05:03,  4.60s/it][A[A
+
+Predicting test.clean...:  21% 17/82 [01:29<05:35,  5.16s/it][A[A
+
+Predicting test.clean...:  22% 18/82 [01:36<06:05,  5.71s/it][A[A
+
+Predicting test.clean...:  23% 19/82 [01:43<06:41,  6.37s/it][A[A
+
+Predicting test.clean...:  24% 20/82 [01:51<07:01,  6.80s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  loss = jax.tree_map(lambda l: l / total_samples, loss)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Predicting test.clean...:  26% 21/82 [03:20<31:47, 31.27s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Predicting test.clean...:  27% 22/82 [03:25<23:39, 23.67s/it][A[A
+
+Predicting test.clean...:  28% 23/82 [03:31<17:46, 18.08s/it][A[A
+
+Predicting test.clean...:  29% 24/82 [03:35<13:28, 13.94s/it][A[A
+
+Predicting test.clean...:  30% 25/82 [03:39<10:27, 11.02s/it][A[A
+
+Predicting test.clean...:  32% 26/82 [03:43<08:23,  8.98s/it][A[A
+
+Predicting test.clean...:  33% 27/82 [03:47<06:46,  7.39s/it][A[A
+
+Predicting test.clean...:  34% 28/82 [03:51<05:43,  6.37s/it][A[A
+
+Predicting test.clean...:  35% 29/82 [03:55<04:55,  5.58s/it][A[A
+
+Predicting test.clean...:  37% 30/82 [03:58<04:21,  5.02s/it][A[A
+
+Predicting test.clean...:  38% 31/82 [04:02<03:58,  4.67s/it][A[A
+
+Predicting test.clean...:  39% 32/82 [04:06<03:38,  4.38s/it][A[A
+
+Predicting test.clean...:  40% 33/82 [04:10<03:27,  4.24s/it][A[A
+
+Predicting test.clean...:  41% 34/82 [04:14<03:23,  4.23s/it][A[A
+
+Predicting test.clean...:  43% 35/82 [04:18<03:13,  4.12s/it][A[A
+
+Predicting test.clean...:  44% 36/82 [04:22<03:13,  4.20s/it][A[A
+
+Predicting test.clean...:  45% 37/82 [04:29<03:40,  4.89s/it][A[A
+
+Predicting test.clean...:  46% 38/82 [04:35<03:48,  5.20s/it][A[A
+
+Predicting test.clean...:  48% 39/82 [04:42<04:04,  5.68s/it][A[A
+
+Predicting test.clean...:  49% 40/82 [04:51<04:40,  6.69s/it][A[A
+
+Predicting test.clean...:  50% 41/82 [04:59<04:56,  7.22s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  loss = jax.tree_map(lambda l: l / total_samples, loss)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Predicting test.clean...:  51% 42/82 [06:21<19:50, 29.75s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Predicting test.clean...:  52% 43/82 [06:27<14:41, 22.61s/it][A[A
+
+Predicting test.clean...:  54% 44/82 [06:33<11:01, 17.41s/it][A[A
+
+Predicting test.clean...:  55% 45/82 [06:37<08:23, 13.60s/it][A[A
+
+Predicting test.clean...:  56% 46/82 [06:42<06:28, 10.80s/it][A[A
+
+Predicting test.clean...:  57% 47/82 [06:46<05:11,  8.89s/it][A[A
+
+Predicting test.clean...:  59% 48/82 [06:50<04:14,  7.49s/it][A[A
+
+Predicting test.clean...:  60% 49/82 [06:54<03:30,  6.37s/it][A[A
+
+Predicting test.clean...:  61% 50/82 [06:58<03:00,  5.64s/it][A[A
+
+Predicting test.clean...:  62% 51/82 [07:02<02:37,  5.07s/it][A[A
+
+Predicting test.clean...:  63% 52/82 [07:05<02:16,  4.55s/it][A[A
+
+Predicting test.clean...:  65% 53/82 [07:09<02:04,  4.29s/it][A[A
+
+Predicting test.clean...:  66% 54/82 [07:13<01:57,  4.21s/it][A[A
+
+Predicting test.clean...:  67% 55/82 [07:17<01:54,  4.23s/it][A[A
+
+Predicting test.clean...:  68% 56/82 [07:22<01:55,  4.46s/it][A[A
+
+Predicting test.clean...:  70% 57/82 [07:28<02:04,  4.96s/it][A[A
+
+Predicting test.clean...:  71% 58/82 [07:33<01:58,  4.94s/it][A[A
+
+Predicting test.clean...:  72% 59/82 [07:40<02:07,  5.56s/it][A[A
+
+Predicting test.clean...:  73% 60/82 [07:50<02:32,  6.94s/it][A[A
+
+Predicting test.clean...:  74% 61/82 [07:58<02:33,  7.32s/it][A[A
+
+Predicting test.clean...:  76% 62/82 [08:04<02:14,  6.75s/it][A[A
+
+Predicting test.clean...:  77% 63/82 [08:08<01:55,  6.09s/it][A[A
+
+Predicting test.clean...:  78% 64/82 [08:13<01:39,  5.55s/it][A[A
+
+Predicting test.clean...:  79% 65/82 [08:17<01:26,  5.12s/it][A[A
+
+Predicting test.clean...:  80% 66/82 [08:21<01:15,  4.72s/it][A[A
+
+Predicting test.clean...:  82% 67/82 [08:25<01:08,  4.54s/it][A[A
+
+Predicting test.clean...:  83% 68/82 [08:29<01:00,  4.34s/it][A[A
+
+Predicting test.clean...:  84% 69/82 [08:33<00:56,  4.31s/it][A[A
+
+Predicting test.clean...:  85% 70/82 [08:37<00:50,  4.17s/it][A[A
+
+Predicting test.clean...:  87% 71/82 [08:41<00:46,  4.20s/it][A[A
+
+Predicting test.clean...:  88% 72/82 [08:45<00:42,  4.24s/it][A[A
+
+Predicting test.clean...:  89% 73/82 [08:49<00:36,  4.08s/it][A[A
+
+Predicting test.clean...:  90% 74/82 [08:53<00:33,  4.16s/it][A[A
+
+Predicting test.clean...:  91% 75/82 [08:58<00:31,  4.45s/it][A[A
+
+Predicting test.clean...:  93% 76/82 [09:04<00:29,  4.84s/it][A[A
+
+Predicting test.clean...:  94% 77/82 [09:10<00:25,  5.08s/it][A[A
+
+Predicting test.clean...:  95% 78/82 [09:15<00:20,  5.22s/it][A[A
+
+Predicting test.clean...:  96% 79/82 [09:23<00:17,  5.90s/it][A[A
+
+Predicting test.clean...:  98% 80/82 [09:29<00:12,  6.07s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  loss = jax.tree_map(lambda l: l / total_samples, loss)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Predicting test.clean...:  99% 81/82 [11:14<00:35, 35.54s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Predicting test.clean...: 100% 82/82 [11:23<00:00, 27.78s/it][A[APredicting test.clean...: 100% 82/82 [11:23<00:00,  8.34s/it]
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(stack_args, *forest)
+run_flax_speech_recognition_seq2seq.py:1541: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  pred_metrics = jax.tree_map(jnp.mean, pred_metrics)
+run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+
+
+Predicting test.other...:   0% 0/92 [00:00<?, ?it/s][A[AStep... (50000/50000 | test.clean Loss: 0.4645487070083618 | test.clean wer: 0.04589546561168594 | test.clean cer: 0.032518736901928746 |)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  loss = jax.tree_map(lambda l: l / total_samples, loss)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  scopes, treedef = jax.tree_flatten(scope_tree)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  lengths = set(jax.tree_leaves(lengths))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
+  in_avals, in_tree = jax.tree_flatten(input_avals)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  jax.tree_leaves(tree)))
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
+  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  cache = jax.tree_map(
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(gather_fn, nested)
+/home/sanchitgandhi/flax-wav2vec2-2-bart-large-ls-960h-black-box/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return out if static_return else jax.tree_map(unpad, out)
+
+
+Predicting test.other...:   1% 1/92 [01:24<2:08:36, 84.80s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
+  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(pad, tree)
+
+
+Predicting test.other...:   2% 2/92 [01:30<57:17, 38.20s/it]  [A[A
+
+Predicting test.other...:   3% 3/92 [01:35<34:09, 23.02s/it][A[A
+
+Predicting test.other...:   4% 4/92 [01:39<22:51, 15.58s/it][A[A
+
+Predicting test.other...:   5% 5/92 [01:43<16:33, 11.42s/it][A[A
+
+Predicting test.other...:   7% 6/92 [01:47<12:38,  8.81s/it][A[A
+
+Predicting test.other...:   8% 7/92 [01:51<10:07,  7.15s/it][A[A
+
+Predicting test.other...:   9% 8/92 [01:54<08:27,  6.04s/it][A[A
+
+Predicting test.other...:  10% 9/92 [01:58<07:16,  5.26s/it][A[A
+
+Predicting test.other...:  11% 10/92 [02:02<06:45,  4.94s/it][A[A
+
+Predicting test.other...:  12% 11/92 [02:06<06:08,  4.55s/it][A[A
+
+Predicting test.other...:  13% 12/92 [02:10<05:51,  4.40s/it][A[A
+
+Predicting test.other...:  14% 13/92 [02:13<05:28,  4.16s/it][A[A
+
+Predicting test.other...:  15% 14/92 [02:18<05:29,  4.22s/it][A[A
+
+Predicting test.other...:  16% 15/92 [02:22<05:35,  4.36s/it][A[A
+
+Predicting test.other...:  17% 16/92 [02:27<05:36,  4.43s/it][A[A
+
+Predicting test.other...:  18% 17/92 [02:31<05:13,  4.18s/it][A[A
+
+Predicting test.other...:  20% 18/92 [02:36<05:30,  4.46s/it][A[A
+
+Predicting test.other...:  21% 19/92 [02:41<05:43,  4.70s/it][A[A
+
+Predicting test.other...:  22% 20/92 [02:47<06:10,  5.15s/it][A[A
+
+Predicting test.other...:  23% 21/92 [02:54<06:36,  5.59s/it][A[A
+
+Predicting test.other...:  24% 22/92 [03:04<08:07,  6.96s/it][A[A
+
+Predicting test.other...:  25% 23/92 [03:12<08:15,  7.18s/it][A[A
+
+Predicting test.other...:  26% 24/92 [03:17<07:23,  6.53s/it][A[A
+
+Predicting test.other...:  27% 25/92 [03:21<06:33,  5.87s/it][A[A
+
+Predicting test.other...:  28% 26/92 [03:25<05:48,  5.29s/it][A[A
+
+Predicting test.other...:  29% 27/92 [03:29<05:14,  4.83s/it][A[A
+
+Predicting test.other...:  30% 28/92 [03:32<04:40,  4.39s/it][A[A
+
+Predicting test.other...:  32% 29/92 [03:36<04:29,  4.28s/it][A[A
+
+Predicting test.other...:  33% 30/92 [03:40<04:20,  4.20s/it][A[A
+
+Predicting test.other...:  34% 31/92 [03:44<04:13,  4.15s/it][A[A
+
+Predicting test.other...:  35% 32/92 [03:48<04:03,  4.06s/it][A[A
+
+Predicting test.other...:  36% 33/92 [03:52<04:00,  4.07s/it][A[A
+
+Predicting test.other...:  37% 34/92 [03:55<03:39,  3.79s/it][A[A
+
+Predicting test.other...:  38% 35/92 [03:58<03:27,  3.64s/it][A[A
+
+Predicting test.other...:  39% 36/92 [04:03<03:33,  3.81s/it][A[A
+
+Predicting test.other...:  40% 37/92 [04:07<03:33,  3.88s/it][A[A
+
+Predicting test.other...:  41% 38/92 [04:11<03:38,  4.05s/it][A[A
+
+Predicting test.other...:  42% 39/92 [04:15<03:31,  3.99s/it][A[A
+
+Predicting test.other...:  43% 40/92 [04:21<03:56,  4.54s/it][A[A
+
+Predicting test.other...:  45% 41/92 [04:27<04:21,  5.12s/it][A[A
+
+Predicting test.other...:  46% 42/92 [04:34<04:37,  5.55s/it][A[A
+
+Predicting test.other...:  47% 43/92 [04:39<04:27,  5.46s/it][A[A
+
+Predicting test.other...:  48% 44/92 [04:48<05:07,  6.40s/it][A[A
+
+Predicting test.other...:  49% 45/92 [04:56<05:33,  7.11s/it][A[A
+
+Predicting test.other...:  50% 46/92 [05:03<05:17,  6.91s/it][A[A
+
+Predicting test.other...:  51% 47/92 [05:08<04:50,  6.46s/it][A[A
+
+Predicting test.other...:  52% 48/92 [05:13<04:25,  6.05s/it][A[A
+
+Predicting test.other...:  53% 49/92 [05:18<04:02,  5.64s/it][A[A
+
+Predicting test.other...:  54% 50/92 [05:22<03:38,  5.21s/it][A[A
+
+Predicting test.other...:  55% 51/92 [05:26<03:19,  4.86s/it][A[A
+
+Predicting test.other...:  57% 52/92 [05:30<03:03,  4.59s/it][A[A
+
+Predicting test.other...:  58% 53/92 [05:35<02:54,  4.49s/it][A[A
+
+Predicting test.other...:  59% 54/92 [05:39<02:46,  4.39s/it][A[A
+
+Predicting test.other...:  60% 55/92 [05:42<02:35,  4.19s/it][A[A
+
+Predicting test.other...:  61% 56/92 [05:47<02:33,  4.25s/it][A[A
+
+Predicting test.other...:  62% 57/92 [05:50<02:21,  4.05s/it][A[A
+
+Predicting test.other...:  63% 58/92 [05:54<02:11,  3.85s/it][A[A
+
+Predicting test.other...:  64% 59/92 [05:57<02:00,  3.66s/it][A[A
+
+Predicting test.other...:  65% 60/92 [06:01<02:00,  3.75s/it][A[A
+
+Predicting test.other...:  66% 61/92 [06:07<02:13,  4.30s/it][A[A
+
+Predicting test.other...:  67% 62/92 [06:10<02:05,  4.18s/it][A[A
+
+Predicting test.other...:  68% 63/92 [06:17<02:20,  4.86s/it][A[A
+
+Predicting test.other...:  70% 64/92 [06:21<02:11,  4.70s/it][A[A
+
+Predicting test.other...:  71% 65/92 [06:27<02:14,  4.99s/it][A[A
+
+Predicting test.other...:  72% 66/92 [06:34<02:24,  5.55s/it][A[A
+
+Predicting test.other...:  73% 67/92 [06:42<02:36,  6.26s/it][A[A
+
+Predicting test.other...:  74% 68/92 [06:47<02:21,  5.89s/it][A[A
+
+Predicting test.other...:  75% 69/92 [06:51<02:06,  5.52s/it][A[A
+
+Predicting test.other...:  76% 70/92 [06:56<01:56,  5.27s/it][A[A
+
+Predicting test.other...:  77% 71/92 [07:00<01:42,  4.87s/it][A[A
+
+Predicting test.other...:  78% 72/92 [07:04<01:29,  4.49s/it][A[A
+
+Predicting test.other...:  79% 73/92 [07:07<01:20,  4.26s/it][A[A
+
+Predicting test.other...:  80% 74/92 [07:11<01:14,  4.13s/it][A[A
+
+Predicting test.other...:  82% 75/92 [07:14<01:05,  3.85s/it][A[A
+
+Predicting test.other...:  83% 76/92 [07:18<01:02,  3.92s/it][A[A
+
+Predicting test.other...:  84% 77/92 [07:21<00:53,  3.57s/it][A[A
+
+Predicting test.other...:  85% 78/92 [07:25<00:49,  3.56s/it][A[A
+
+Predicting test.other...:  86% 79/92 [07:28<00:46,  3.61s/it][A[A
+
+Predicting test.other...:  87% 80/92 [07:33<00:45,  3.78s/it][A[A
+
+Predicting test.other...:  88% 81/92 [07:36<00:41,  3.73s/it][A[A
+
+Predicting test.other...:  89% 82/92 [07:39<00:35,  3.51s/it][A[A
+
+Predicting test.other...:  90% 83/92 [07:44<00:35,  3.94s/it][A[A
+
+Predicting test.other...:  91% 84/92 [07:49<00:33,  4.22s/it][A[A
+
+Predicting test.other...:  92% 85/92 [07:53<00:28,  4.07s/it][A[A
+
+Predicting test.other...:  93% 86/92 [07:58<00:26,  4.50s/it][A[A
+
+Predicting test.other...:  95% 87/92 [08:05<00:26,  5.28s/it][A[A
+
+Predicting test.other...:  96% 88/92 [08:13<00:23,  5.86s/it][A[A
+
+Predicting test.other...:  97% 89/92 [08:17<00:16,  5.46s/it][A[A
+
+Predicting test.other...:  98% 90/92 [08:21<00:10,  5.02s/it][A[A
+
+Predicting test.other...:  99% 91/92 [08:26<00:04,  4.91s/it][A[A
+
+Predicting test.other...: 100% 92/92 [08:31<00:00,  5.04s/it][A[APredicting test.other...: 100% 92/92 [08:31<00:00,  5.56s/it]
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
+/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(stack_args, *forest)
+run_flax_speech_recognition_seq2seq.py:1541: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  pred_metrics = jax.tree_map(jnp.mean, pred_metrics)
+run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
+  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
+run_flax_speech_recognition_seq2seq.py:1062: VisibleDeprecationWarning: Creating an ndarray from ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or ndarrays with different lengths or shapes) is deprecated. If you meant to do this, you must specify 'dtype=object' when creating the ndarray.
+  padded_ids = np.where(np.asarray(label_ids) == -100, tokenizer.pad_token_id, np.asarray(label_ids))
+run_flax_speech_recognition_seq2seq.py:1062: DeprecationWarning: elementwise comparison failed; this will raise an error in the future.
+  padded_ids = np.where(np.asarray(label_ids) == -100, tokenizer.pad_token_id, np.asarray(label_ids))
+Traceback (most recent call last):
+  File "run_flax_speech_recognition_seq2seq.py", line 1572, in <module>
+    main()
+  File "run_flax_speech_recognition_seq2seq.py", line 1549, in main
+    error_rate_metric, pred_str, label_str = compute_metrics(pred_generations, pred_labels)
+  File "run_flax_speech_recognition_seq2seq.py", line 1064, in compute_metrics
+    label_str = tokenizer.batch_decode(padded_ids, skip_special_tokens=True)
+  File "/home/sanchitgandhi/transformers/src/transformers/tokenization_utils_base.py", line 3328, in batch_decode
+    return [
+  File "/home/sanchitgandhi/transformers/src/transformers/tokenization_utils_base.py", line 3329, in <listcomp>
+    self.decode(
+  File "/home/sanchitgandhi/transformers/src/transformers/tokenization_utils_base.py", line 3367, in decode
+    return self._decode(
+  File "/home/sanchitgandhi/transformers/src/transformers/tokenization_utils_fast.py", line 548, in _decode
+    text = self._tokenizer.decode(token_ids, skip_special_tokens=skip_special_tokens)
+OverflowError: out of range integral type conversion attempted
+wandb: Waiting for W&B process to finish... (failed 1). Press Control-C to abort syncing.
+wandb: - 15.011 MB of 15.011 MB uploaded (0.000 MB deduped)wandb: \ 15.011 MB of 15.011 MB uploaded (0.000 MB deduped)wandb: | 15.011 MB of 15.011 MB uploaded (0.000 MB deduped)wandb: / 15.011 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: - 15.011 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: \ 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: | 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: / 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: - 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: \ 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: | 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: / 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: - 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: \ 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb: | 15.534 MB of 15.534 MB uploaded (0.000 MB deduped)wandb:                                                                                
+wandb: 
+wandb: Run history:
+wandb:                 eval/cer █▆▅▁▃
+wandb:                eval/loss ▁▇▇▆█
+wandb:                 eval/wer █▅▄▁▂
+wandb:           test.clean/cer ▁
+wandb:          test.clean/loss ▁
+wandb:           test.clean/wer ▁
+wandb:  train/decoder_grad_norm █▅▄▄▂▂▂▂▁▁▁▂▂▁▂▇▁▁▁▁▁▁▁▂▁▂▁▂▁▁▁▁▁▁▁▁▁▁▁▁
+wandb: train/decoder_param_norm ▂▃▁▁▁▂▂▃▃▃▄▄▅▅▅▆▆▆▆▇▇▇▇▇▇███████████████
+wandb:  train/encoder_grad_norm ▃█▄▄▂▁▂▂▁▁▂▂▁▁▂▆▁▁▁▁▁▁▁▃▁▂▂▂▁▁▁▁▁▂▁▁▁▁▁▁
+wandb: train/encoder_param_norm ▁▂▂▃▃▄▄▄▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇▇████████████████
+wandb:          train/grad_norm █▇▅▄▂▂▂▂▂▁▁▂▂▁▂█▁▁▁▁▁▁▁▂▁▂▂▂▁▁▁▁▁▁▁▁▁▁▁▁
+wandb:      train/learning_rate ▇███▇▇▇▇▇▇▆▆▆▆▆▅▅▅▅▅▄▄▄▄▄▄▃▃▃▃▃▂▂▂▂▂▂▁▁▁
+wandb:               train/loss █▂▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
+wandb:         train/param_norm ▁▂▂▂▃▃▃▄▄▄▅▅▅▆▆▆▆▇▇▇▇▇▇▇████████████████
+wandb:     validation.other/cer ▁
+wandb:    validation.other/loss ▁
+wandb:     validation.other/wer ▁
+wandb: 
+wandb: Run summary:
+wandb:                 eval/cer 0.03118
+wandb:                eval/loss 1.06093
+wandb:                 eval/wer 0.04351
+wandb:           test.clean/cer 0.03252
+wandb:          test.clean/loss 0.46455
+wandb:           test.clean/wer 0.0459
+wandb:  train/decoder_grad_norm 0.13864
+wandb: train/decoder_param_norm 1063.15796
+wandb:  train/encoder_grad_norm 0.12768
+wandb: train/encoder_param_norm 2323.48657
+wandb:          train/grad_norm 0.18847
+wandb:      train/learning_rate 0.0
+wandb:               train/loss 0.00471
+wandb:         train/param_norm 2555.17017
+wandb:     validation.other/cer 0.04917
+wandb:    validation.other/loss 1.31555
+wandb:     validation.other/wer 0.07555
+wandb: 
+wandb: Synced flax-wav2vec2-2-bart-large-ls-960h-black-box: https://wandb.ai/sanchit-gandhi/librispeech_960h/runs/2hx8pk65
+wandb: Synced 5 W&B file(s), 13 media file(s), 13 artifact file(s) and 0 other file(s)
+wandb: Find logs at: ./wandb/run-20220828_085247-2hx8pk65/logs