Upload 8 files

Browse files

Files changed (8) hide show

asr.ckpt +3 -0
asr_hyperparams.yaml +303 -0
lm.ckpt +3 -0
lm_hyperparams.yaml +117 -0
normalizer.ckpt +3 -0
tokenizer.model +3 -0
tokenizer.vocab +1000 -0
tokenizer_hyperparams.yaml +43 -0

asr.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ad7818baa2fdae3e171d17f13a3dab3dcc2279a111d779c6c07b1756995bb83
+size 479556617

asr_hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,303 @@

+# Generated 2022-10-03 from:
+# /netscratch/sagar/thesis/speechbrain/recipes/CommonVoice_de/ASR-Libri/seq2seq/hparams/train.yaml
+# yamllint disable
+# ############################################################################
+# Model: E2E ASR with attention-based ASR
+# Encoder: CRDNN model
+# Decoder: GRU + beamsearch + RNNLM
+# Tokens: BPE with unigram
+# losses: CTC+ NLL
+# Training: Librispeech 960h
+# Authors:  Ju-Chieh Chou, Mirco Ravanelli, Abdel Heba, Peter Plantinga,
+# Samuele Cornell 2020
+# ############################################################################
+# Seed needs to be set at top of yaml, before objects with parameters
+seed: 1200
+__set_seed: !apply:torch.manual_seed [1200]
+output_folder: results/CRDNN_BPE_960h_LM/1200
+wer_file: results/CRDNN_BPE_960h_LM/1200/wer.txt
+save_folder: results/CRDNN_BPE_960h_LM/1200/save
+train_log: results/CRDNN_BPE_960h_LM/1200/train_log.txt
+# Language model (LM) pretraining
+# NB: To avoid mismatch, the speech recognizer must be trained with the same
+# tokenizer used for LM training. Here, we download everything from the
+# speechbrain HuggingFace repository. However, a local path pointing to a
+# directory containing the lm.ckpt and tokenizer.ckpt may also be specified
+# instead. E.g if you want to use your own LM / tokenizer.
+# We have bos/eos id 0/0 so we use the same tokenizer and LM that uses bos id and eos id as 0/0.
+pretrained_tokenizer_path: ../../Tokenizer/results/unigram/
+pretrained_lm_path: ../../LM/results/RNN/2995/save/CKPT+2022-08-18+18-22-18+00
+# Data files
+data_folder: ../../CommonVoice      # !PLACEHOLDER
+  # e,g./path/to/LibriSpeech
+  # noise/ris dataset will automatically be downloaded
+# Data files
+train_tsv_file: ../../CommonVoice/train.tsv   # Standard CommonVoice .tsv files
+dev_tsv_file: ../../CommonVoice/dev.tsv   # Standard CommonVoice .tsv files
+test_tsv_file: ../../CommonVoice/test.tsv   # Standard CommonVoice .tsv files
+accented_letters: true
+language: de
+ckpt_interval_minutes: 15 # save checkpoint every N min
+csv_dir: ../../cv_de_acc
+data_folder_rirs: ../../cv_de_acc # where to store noisy data for augment (change it if needed)
+train_csv: ../../cv_de_acc/train.csv
+valid_csv: ../../cv_de_acc/dev.csv
+test_csv: ../../cv_de_acc/test.csv
+skip_prep: false
+# Training parameters
+number_of_epochs: 25
+number_of_ctc_epochs: 5
+batch_size: 8
+valid_batch_size: 8
+test_batch_size: 8
+lr: 1.0
+ctc_weight: 0.5
+sorting: ascending
+dynamic_batching: false
+# dynamic batching parameters, if used
+dynamic_batch_sampler:
+  feats_hop_size: 0.01
+  max_batch_len: 20000 # in terms of frames
+  shuffle_ex: true
+  batch_ordering: random
+  num_buckets: 20
+# Feature parameters
+sample_rate: 16000
+n_fft: 400
+n_mels: 40
+opt_class: !name:torch.optim.Adadelta
+  lr: 1.0
+  rho: 0.95
+  eps: 1.e-8
+# Dataloader options
+train_dataloader_opts:
+  batch_size: 8
+valid_dataloader_opts:
+  batch_size: 8
+test_dataloader_opts:
+  batch_size: 8
+# Model parameters
+activation: &id001 !name:torch.nn.LeakyReLU
+dropout: 0.15
+cnn_blocks: 2
+cnn_channels: (128, 256)
+inter_layer_pooling_size: (2, 2)
+cnn_kernelsize: (3, 3)
+time_pooling_size: 4
+rnn_class: &id002 !name:speechbrain.nnet.RNN.LSTM
+rnn_layers: 4
+rnn_neurons: 1024
+rnn_bidirectional: true
+dnn_blocks: 2
+dnn_neurons: 512
+emb_size: 128
+dec_neurons: 1024
+output_neurons: 1000 # Number of tokens (same as LM)
+blank_index: 0
+bos_index: 0
+eos_index: 0
+# Decoding parameters
+min_decode_ratio: 0.0
+max_decode_ratio: 1.0
+valid_beam_size: 80
+test_beam_size: 80
+eos_threshold: 1.5
+using_max_attn_shift: true
+max_attn_shift: 240
+lm_weight: 0.50
+ctc_weight_decode: 0.0
+coverage_penalty: 1.5
+temperature: 1.25
+temperature_lm: 1.25
+epoch_counter: &id013 !new:speechbrain.utils.epoch_loop.EpochCounter
+  limit: 25
+normalize: &id008 !new:speechbrain.processing.features.InputNormalization
+  norm_type: global
+compute_features: !new:speechbrain.lobes.features.Fbank
+  sample_rate: 16000
+  n_fft: 400
+  n_mels: 40
+env_corrupt: &id009 !new:speechbrain.lobes.augment.EnvCorrupt
+  openrir_folder: ../../cv_de_acc
+  babble_prob: 0.0
+  reverb_prob: 0.0
+  noise_prob: 1.0
+  noise_snr_low: 0
+  noise_snr_high: 15
+augmentation: !new:speechbrain.lobes.augment.TimeDomainSpecAugment
+  sample_rate: 16000
+  speeds: [95, 100, 105]
+enc: &id003 !new:speechbrain.lobes.models.CRDNN.CRDNN
+  input_shape: [null, null, 40]
+  activation: *id001
+  dropout: 0.15
+  cnn_blocks: 2
+  cnn_channels: (128, 256)
+  cnn_kernelsize: (3, 3)
+  inter_layer_pooling_size: (2, 2)
+  time_pooling: true
+  using_2d_pooling: false
+  time_pooling_size: 4
+  rnn_class: *id002
+  rnn_layers: 4
+  rnn_neurons: 1024
+  rnn_bidirectional: true
+  rnn_re_init: true
+  dnn_blocks: 2
+  dnn_neurons: 512
+  use_rnnp: false
+emb: &id004 !new:speechbrain.nnet.embedding.Embedding
+  num_embeddings: 1000
+  embedding_dim: 128
+dec: &id005 !new:speechbrain.nnet.RNN.AttentionalRNNDecoder
+  enc_dim: 512
+  input_size: 128
+  rnn_type: gru
+  attn_type: location
+  hidden_size: 1024
+  attn_dim: 1024
+  num_layers: 1
+  scaling: 1.0
+  channels: 10
+  kernel_size: 100
+  re_init: true
+  dropout: 0.15
+ctc_lin: &id006 !new:speechbrain.nnet.linear.Linear
+  input_size: 512
+  n_neurons: 1000
+seq_lin: &id007 !new:speechbrain.nnet.linear.Linear
+  input_size: 1024
+  n_neurons: 1000
+log_softmax: !new:speechbrain.nnet.activations.Softmax
+  apply_log: true
+ctc_cost: !name:speechbrain.nnet.losses.ctc_loss
+  blank_index: 0
+seq_cost: !name:speechbrain.nnet.losses.nll_loss
+  label_smoothing: 0.1
+# This is the RNNLM that is used according to the Huggingface repository
+# NB: It has to match the pre-trained RNNLM!!
+lm_model: &id010 !new:speechbrain.lobes.models.RNNLM.RNNLM
+  output_neurons: 1000
+  embedding_dim: 128
+  activation: !name:torch.nn.LeakyReLU
+  dropout: 0.0
+  rnn_layers: 2
+  rnn_neurons: 2048
+  dnn_blocks: 1
+  dnn_neurons: 512
+  return_hidden: true # For inference
+tokenizer: &id014 !new:sentencepiece.SentencePieceProcessor
+                                                     # Models
+modules:
+  enc: *id003
+  emb: *id004
+  dec: *id005
+  ctc_lin: *id006
+  seq_lin: *id007
+  normalize: *id008
+  env_corrupt: *id009
+  lm_model: *id010
+model: &id011 !new:torch.nn.ModuleList
+- [*id003, *id004, *id005, *id006, *id007]
+valid_search: !new:speechbrain.decoders.S2SRNNBeamSearcher
+  embedding: *id004
+  decoder: *id005
+  linear: *id007
+  ctc_linear: *id006
+  bos_index: 0
+  eos_index: 0
+  blank_index: 0
+  min_decode_ratio: 0.0
+  max_decode_ratio: 1.0
+  beam_size: 80
+  eos_threshold: 1.5
+  using_max_attn_shift: true
+  max_attn_shift: 240
+  coverage_penalty: 1.5
+  temperature: 1.25
+test_search: !new:speechbrain.decoders.S2SRNNBeamSearchLM
+  embedding: *id004
+  decoder: *id005
+  linear: *id007
+  ctc_linear: *id006
+  language_model: *id010
+  bos_index: 0
+  eos_index: 0
+  blank_index: 0
+  min_decode_ratio: 0.0
+  max_decode_ratio: 1.0
+  beam_size: 80
+  eos_threshold: 1.5
+  using_max_attn_shift: true
+  max_attn_shift: 240
+  coverage_penalty: 1.5
+  lm_weight: 0.50
+  ctc_weight: 0.0
+  temperature: 1.25
+  temperature_lm: 1.25
+lr_annealing: &id012 !new:speechbrain.nnet.schedulers.NewBobScheduler
+  initial_value: 1.0
+  improvement_threshold: 0.0025
+  annealing_factor: 0.8
+  patient: 0
+checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
+  checkpoints_dir: results/CRDNN_BPE_960h_LM/1200/save
+  recoverables:
+    model: *id011
+    scheduler: *id012
+    normalizer: *id008
+    counter: *id013
+train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
+  save_file: results/CRDNN_BPE_960h_LM/1200/train_log.txt
+error_rate_computer: !name:speechbrain.utils.metric_stats.ErrorRateStats
+cer_computer: !name:speechbrain.utils.metric_stats.ErrorRateStats
+  split_tokens: true
+# The pretrainer allows a mapping between pretrained files and instances that
+# are declared in the yaml. E.g here, we will download the file lm.ckpt
+# and it will be loaded into "lm" which is pointing to the <lm_model> defined
+# before.
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+  collect_in: results/CRDNN_BPE_960h_LM/1200/save
+  loadables:
+    lm: *id010
+    tokenizer: *id014
+  paths:
+    lm: ../../LM/results/RNN/2995/save/CKPT+2022-08-18+18-22-18+00/model.ckpt
+    tokenizer: ../../Tokenizer/results/unigram//1000_unigram.model

lm.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6afb5f689c30562cbe78046a641c5ff2c0184f30de5124e29cbf7ba4ecc34e4
+size 212419663

lm_hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,117 @@

+# Generated 2022-08-17 from:
+# /netscratch/sagar/thesis/speechbrain/recipes/CommonVoice_de/LM/hparams/RNNLM.yaml
+# yamllint disable
+# ############################################################################
+# Model: RNNLM of E2E ASR
+# Tokens: unigram/char
+# losses: NLL
+# Training: Librispeech 960h transcript + LM corpus
+# Authors:  Ju-Chieh Chou 2020, Jianyuan Zhong 2021
+# ############################################################################
+# Seed needs to be set at top of yaml, before objects with parameters are made
+seed: 2995
+__set_seed: !apply:torch.manual_seed [2995]
+output_folder: results/RNN/2995
+save_folder: results/RNN/2995/save
+train_log: results/RNN/2995/train_log.txt
+# Data files
+# The data_folder is needed because we train the LM on the training
+# transcriptions of LibriSpeech as well.
+data_folder: ../cv_de_acc/
+# path to the lm_corpus
+# if set to null, it will automatically download from the internet
+# in the case when there is no internet access, set this to your local file
+lm_corpus_path: lm_corpus/orignal_data/de_lm_normalized.txt         # 17M sentences
+# Tokenizer model
+tokenizer_file: ../Tokenizer/results/unigram/1000_unigram.model
+# Training parameters
+number_of_epochs: 20
+batch_size: 128
+lr: 0.001
+accu_steps: 1 # Gradient accumulation to simulate large batch training
+ckpt_interval_minutes: 15 # save checkpoint every N min
+# Dataloader options
+train_dataloader_opts:
+  batch_size: 128
+  shuffle: true
+valid_dataloader_opts:
+  batch_size: 1
+test_dataloader_opts:
+  batch_size: 1
+# Model parameters
+emb_size: 128
+activation: &id001 !name:torch.nn.LeakyReLU
+dropout: 0.0
+rnn_layers: 2
+rnn_neurons: 2048
+dnn_blocks: 1
+dnn_neurons: 512
+# Outputs
+output_neurons: 1000 # index(blank/eos/bos) = 0 | char: 32 | unigram: 1000
+# blank_index: 0
+bos_index: 0
+eos_index: 0
+# Functions
+model: &id002 !new:speechbrain.lobes.models.RNNLM.RNNLM
+  output_neurons: 1000
+  embedding_dim: 128
+  activation: *id001
+  dropout: 0.0
+  rnn_layers: 2
+  rnn_neurons: 2048
+  dnn_blocks: 1
+  dnn_neurons: 512
+modules:
+  model: *id002
+checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
+  checkpoints_dir: results/RNN/2995/save
+  recoverables:
+    model: *id002
+    scheduler: &id003 !new:speechbrain.nnet.schedulers.NewBobScheduler
+      initial_value: 0.001
+      improvement_threshold: 0.0025
+      annealing_factor: 0.8
+      patient: 0
+    counter: &id004 !new:speechbrain.utils.epoch_loop.EpochCounter
+      limit: 20
+log_softmax: !new:speechbrain.nnet.activations.Softmax
+  apply_log: true
+optimizer: !name:torch.optim.Adam
+  lr: 0.001
+  betas: (0.9, 0.98)
+  eps: 0.000000001
+lr_annealing: *id003
+epoch_counter: *id004
+compute_cost: !name:speechbrain.nnet.losses.nll_loss
+train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
+  save_file: results/RNN/2995/train_log.txt
+tokenizer: &id005 !new:sentencepiece.SentencePieceProcessor
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+  collect_in: results/RNN/2995/save
+  loadables:
+    tokenizer: *id005
+  paths:
+    tokenizer: ../Tokenizer/results/unigram/1000_unigram.model

normalizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35014b7ce8241efd24fbd436fcd0a7b6e4d9171ca6951434cdd8efa8f6251c83
+size 1383

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc01708d6ac2887c7e7675c3270fe98b9cec1ca88ebb65466d0cbb1958deabfc
+size 252732

tokenizer.vocab ADDED Viewed

	@@ -0,0 +1,1000 @@

+<unk>	0
+▁	-2.81402
+S	-3.37348
+EN	-3.44471
+E	-3.49663
+T	-3.60219
+N	-3.84741
+▁DIE	-4.1672
+▁DER	-4.17853
+ER	-4.2868
+▁IN	-4.57964
+▁UND	-4.69616
+R	-4.7671
+▁ER	-4.76892
+TE	-4.89633
+K	-4.93723
+M	-4.94178
+L	-4.96751
+▁BE	-4.99692
+D	-5.00431
+B	-5.01898
+▁IST	-5.12069
+▁GE	-5.14687
+F	-5.16096
+Ä	-5.16295
+▁EIN	-5.19843
+▁VER	-5.20406
+▁DAS	-5.21437
+O	-5.24075
+UNG	-5.28346
+G	-5.33294
+▁ZU	-5.34273
+AL	-5.3635
+▁AN	-5.36695
+▁DEN	-5.41953
+▁AUF	-5.43824
+U	-5.44031
+ST	-5.44458
+▁VON	-5.44697
+IN	-5.45211
+▁SIE	-5.50361
+GE	-5.50758
+W	-5.53946
+SCH	-5.56713
+H	-5.56933
+▁IM	-5.59393
+▁MIT	-5.61329
+▁EINE	-5.63154
+▁DES	-5.66006
+I	-5.66181
+Y	-5.673
+▁SICH	-5.69423
+▁ALS	-5.73836
+AN	-5.74213
+A	-5.74582
+▁F	-5.76099
+P	-5.76137
+TEN	-5.76531
+▁AUS	-5.76682
+Z	-5.79106
+Ö	-5.796
+▁ES	-5.79856
+▁K	-5.8167
+▁AUCH	-5.81808
+▁WURDE	-5.82156
+▁WAR	-5.83504
+▁FÜR	-5.84409
+EL	-5.85849
+ES	-5.87952
+LICH	-5.91966
+▁NICHT	-5.93235
+▁NACH	-5.96093
+IG	-5.9643
+Ü	-5.97467
+OR	-5.97496
+RE	-5.97651
+▁DEM	-5.99682
+▁VOR	-6.0298
+UR	-6.04022
+CH	-6.06919
+IS	-6.08781
+IE	-6.09834
+RI	-6.10255
+▁SIND	-6.10721
+DER	-6.11684
+AR	-6.12099
+TER	-6.14111
+▁WERDEN	-6.14338
+LE	-6.15162
+▁P	-6.16635
+▁ÜBER	-6.17611
+ISCHEN	-6.19578
+IL	-6.2379
+▁WIR	-6.24367
+▁W	-6.25076
+DE	-6.25081
+RA	-6.26037
+▁UNTER	-6.28653
+▁WIRD	-6.29143
+EI	-6.29901
+▁BEI	-6.32482
+▁ICH	-6.33527
+▁SO	-6.3367
+▁B	-6.34118
+HR	-6.3465
+▁RE	-6.35408
+▁ST	-6.3552
+BE	-6.36674
+C	-6.38773
+CK	-6.38963
+ION	-6.43716
+IT	-6.43929
+ISCHE	-6.45091
+ON	-6.45107
+▁G	-6.45134
+GEN	-6.46007
+▁H	-6.47123
+LL	-6.47317
+▁SEINE	-6.47692
+UT	-6.48694
+▁SCH	-6.49251
+▁DIESE	-6.49312
+▁UM	-6.50123
+DEN	-6.50978
+IERT	-6.52487
+LI	-6.52622
+▁AB	-6.53963
+▁UN	-6.55606
+LA	-6.57196
+▁SEIN	-6.58748
+▁DURCH	-6.58814
+ACH	-6.60234
+ERN	-6.60945
+NA	-6.62245
+AT	-6.62414
+LO	-6.62723
+AM	-6.63566
+UM	-6.64409
+OL	-6.64575
+▁A	-6.67413
+UNGEN	-6.68644
+ET	-6.69927
+UCH	-6.6994
+▁ZWEI	-6.70317
+RO	-6.70527
+VER	-6.71721
+▁MA	-6.72036
+▁HAT	-6.73186
+CHT	-6.73278
+MAL	-6.76197
+IK	-6.77496
+UN	-6.78486
+ND	-6.79079
+US	-6.79295
+▁AM	-6.79516
+▁ENT	-6.79677
+AU	-6.79885
+▁ZUM	-6.80198
+▁DIESER	-6.80819
+MA	-6.80944
+AND	-6.8142
+▁KA	-6.82327
+▁EINER	-6.82733
+UND	-6.84771
+▁BR	-6.84908
+▁MO	-6.86697
+EIN	-6.86893
+ATION	-6.88934
+ß	-6.89136
+BEN	-6.90162
+ZU	-6.90235
+▁SP	-6.90605
+▁M	-6.90876
+LEI	-6.91162
+SCHAFT	-6.91755
+▁NOCH	-6.91836
+IEN	-6.91892
+DI	-6.92121
+ME	-6.94112
+▁SA	-6.95271
+REICH	-6.95333
+V	-6.95497
+▁MAN	-6.9585
+▁DA	-6.96086
+ZI	-6.9616
+▁WIE	-6.96301
+▁ZUR	-6.97449
+▁ZEIT	-6.97511
+ÄR	-6.97734
+TEIL	-6.98472
+▁RO	-6.98922
+LAND	-6.98933
+IR	-6.99018
+CHEN	-7.00101
+STAND	-7.00236
+▁IHRE	-7.00298
+GEL	-7.00307
+▁WURDEN	-7.00349
+AG	-7.00577
+▁ALLE	-7.01897
+▁NUR	-7.02115
+▁EINEM	-7.03701
+▁NEU	-7.03998
+▁DASS	-7.04635
+J	-7.05312
+HL	-7.05618
+▁BA	-7.05819
+UL	-7.06278
+STE	-7.06497
+ART	-7.06645
+▁KON	-7.06717
+▁BI	-7.07281
+LICHE	-7.07988
+FF	-7.08488
+▁EINEN	-7.08624
+KT	-7.0886
+▁ABER	-7.09055
+TI	-7.09289
+ISCH	-7.09315
+ING	-7.09452
+GER	-7.09554
+▁LE	-7.09917
+IGEN	-7.10199
+▁HABEN	-7.10295
+ZE	-7.10316
+▁HIER	-7.10443
+BER	-7.1052
+NG	-7.10687
+ENDE	-7.1094
+RECHT	-7.11372
+▁BIS	-7.119
+ZEIT	-7.12397
+STELL	-7.12862
+BAR	-7.12928
+▁SE	-7.13299
+IST	-7.13807
+PF	-7.14193
+TR	-7.14455
+▁SPIEL	-7.14827
+AS	-7.15021
+▁Z	-7.15028
+▁DI	-7.15058
+▁HA	-7.16676
+WA	-7.16939
+HE	-7.1791
+▁KANN	-7.18713
+▁ME	-7.19814
+PP	-7.20307
+ÜR	-7.20844
+LICHEN	-7.21561
+▁TEIL	-7.21618
+HEIT	-7.21814
+TH	-7.21886
+UNGS	-7.22126
+▁REG	-7.22254
+▁LAND	-7.22934
+SP	-7.23104
+ID	-7.23488
+BAU	-7.24018
+RICH	-7.2516
+WEI	-7.25587
+▁ODER	-7.2581
+EM	-7.26025
+IM	-7.2615
+HA	-7.26185
+▁RA	-7.26553
+NER	-7.27564
+▁JEDOCH	-7.2774
+▁LI	-7.28151
+▁GROß	-7.28315
+▁DREI	-7.28402
+▁KEINE	-7.2867
+▁HEUTE	-7.28772
+▁PA	-7.28956
+GA	-7.29075
+▁SEINER	-7.29267
+BURG	-7.29466
+▁DEUTSCH	-7.29772
+LER	-7.29927
+OP	-7.30063
+HN	-7.302
+END	-7.30438
+IEREN	-7.30703
+▁LA	-7.31811
+NO	-7.32135
+STEN	-7.32578
+▁JAHR	-7.32794
+▁MEHR	-7.3285
+▁CO	-7.3293
+X	-7.33521
+▁DAR	-7.34229
+▁ANGE	-7.34387
+HER	-7.34596
+SITZ	-7.34601
+IV	-7.34659
+▁WAS	-7.35353
+▁STADT	-7.3575
+WEISE	-7.36142
+WEG	-7.36167
+▁SPÄTER	-7.36766
+IERUNG	-7.36795
+FR	-7.37058
+ELL	-7.37301
+VO	-7.38029
+TZ	-7.38052
+▁C	-7.38179
+PO	-7.38837
+IA	-7.39019
+▁WIEDER	-7.3902
+AD	-7.40354
+AB	-7.40796
+▁PRO	-7.41394
+QU	-7.41554
+▁GIBT	-7.41601
+PR	-7.41911
+AKT	-7.42145
+TRAG	-7.42275
+▁MUSS	-7.42339
+▁HER	-7.4242
+BERG	-7.42709
+▁HIN	-7.43672
+▁IHR	-7.43731
+▁GEGEN	-7.44031
+KA	-7.44132
+WERK	-7.44367
+ALL	-7.44462
+TA	-7.4466
+KEIT	-7.45142
+FORM	-7.4518
+ORT	-7.45871
+IGE	-7.45919
+MITTEL	-7.45978
+FT	-7.46196
+TOR	-7.46484
+▁WEI	-7.46769
+HAUS	-7.47285
+▁FA	-7.47737
+AUS	-7.47749
+ELT	-7.48205
+HALTEN	-7.48288
+ELLE	-7.48359
+▁SEHR	-7.48396
+▁AR	-7.4854
+FA	-7.48871
+WI	-7.48904
+▁SCHW	-7.49133
+GAB	-7.49192
+▁BO	-7.49256
+▁ARBEIT	-7.49355
+▁KO	-7.4967
+PAR	-7.50197
+ICH	-7.50466
+▁TA	-7.50827
+PH	-7.50979
+FE	-7.52086
+KO	-7.52163
+UB	-7.52553
+▁DIESEM	-7.52667
+▁DORT	-7.52837
+DEM	-7.52981
+▁GR	-7.53465
+TO	-7.53722
+▁FOR	-7.54382
+▁WO	-7.54408
+IERTE	-7.54478
+▁HATTE	-7.5461
+NATIONAL	-7.54619
+▁KÖNNEN	-7.55423
+▁HERR	-7.55438
+▁RU	-7.55716
+▁DE	-7.56026
+▁THE	-7.5604
+▁LIEGT	-7.56441
+LAGE	-7.56464
+FER	-7.57119
+RAT	-7.57626
+KEN	-7.57875
+▁SEIT	-7.58297
+▁HE	-7.59162
+▁ORT	-7.59262
+▁MAR	-7.59434
+▁IHN	-7.59492
+DA	-7.60036
+AUF	-7.60419
+▁EINIGE	-7.60845
+HI	-7.61432
+STAAT	-7.61558
+▁TRA	-7.61597
+▁HAUPT	-7.62225
+NEHMEN	-7.62347
+BAHN	-7.62394
+▁JA	-7.63351
+▁VIER	-7.63533
+OM	-7.63665
+▁ANDERE	-7.63861
+▁KOM	-7.63867
+▁DABEI	-7.63896
+HOF	-7.64177
+ORD	-7.64558
+FOLGE	-7.64755
+VA	-7.64778
+GEBIET	-7.6479
+STATT	-7.65414
+MI	-7.65582
+MIN	-7.66195
+VOR	-7.66467
+▁AUSGE	-7.67159
+▁SÜD	-7.67427
+VI	-7.67691
+▁MÜSSEN	-7.68092
+TRA	-7.68135
+CHE	-7.683
+▁WAREN	-7.68308
+KOMMEN	-7.68576
+KLA	-7.68759
+GI	-7.69088
+STER	-7.6941
+WIRTSCHAFT	-7.69573
+PUNKT	-7.69708
+HO	-7.69943
+LIN	-7.7022
+SON	-7.70399
+RÜCK	-7.70401
+IGT	-7.7077
+▁LEBEN	-7.70944
+ARBEIT	-7.71015
+▁BEKANNT	-7.71126
+BO	-7.7196
+▁JAHRE	-7.72565
+IZ	-7.73218
+▁WEITERE	-7.73956
+LÜ	-7.74306
+ITÄT	-7.7448
+HOL	-7.74498
+KIRCHE	-7.7458
+▁EX	-7.74857
+FALL	-7.74922
+▁JE	-7.75625
+▁GRUND	-7.76621
+▁UNS	-7.76659
+HANDEL	-7.76694
+▁GLEICH	-7.76852
+GANG	-7.77181
+IC	-7.77261
+▁VIELE	-7.77522
+SICHT	-7.77755
+▁DO	-7.77987
+PLA	-7.78437
+▁OF	-7.78497
+ZEN	-7.78531
+▁VIEL	-7.78562
+▁WEITER	-7.79012
+▁SOLLTE	-7.79054
+▁KLEIN	-7.79286
+▁VOM	-7.7929
+▁BAU	-7.79403
+▁EUROPÄ	-7.79828
+LIEß	-7.79978
+▁DIESES	-7.80108
+▁STA	-7.80235
+▁GEHÖRT	-7.80323
+TAG	-7.80752
+MENT	-7.80813
+▁WICHTIG	-7.8113
+ÄU	-7.8152
+▁MITGLIED	-7.817
+WISSEN	-7.81753
+▁FREI	-7.81889
+MO	-7.82537
+▁ALT	-7.82845
+GEBEN	-7.83064
+VE	-7.83656
+▁DAMIT	-7.83863
+▁BERICHT	-7.83966
+▁ZUSAMMEN	-7.83989
+PORT	-7.84006
+STEHEN	-7.84319
+TRIEB	-7.84597
+HM	-7.84982
+ANZ	-7.85732
+SCHIED	-7.86109
+▁ERSTEN	-7.86173
+RING	-7.8654
+▁HO	-7.86636
+▁ERFOLG	-7.8685
+▁NORD	-7.87121
+▁LANG	-7.87144
+LANG	-7.87439
+▁GUT	-7.87609
+ISCHER	-7.87625
+▁FRAU	-7.87847
+ILL	-7.88034
+▁GEMEINDE	-7.88084
+FL	-7.88109
+▁KONNTE	-7.88394
+TON	-7.88449
+▁ZURÜCK	-7.88586
+▁DU	-7.88609
+▁NE	-7.88775
+▁DANN	-7.89183
+NDE	-7.89775
+MANN	-7.899
+▁KAM	-7.89958
+SPIEL	-7.90103
+▁SELBST	-7.90247
+TION	-7.90404
+GO	-7.90693
+HEIM	-7.91029
+SEHEN	-7.92173
+▁MEIST	-7.92587
+MAN	-7.92657
+▁IHM	-7.93021
+▁EIGEN	-7.93178
+▁CA	-7.936
+▁INTER	-7.93662
+▁WELT	-7.93698
+LOS	-7.93826
+SETZT	-7.93888
+▁ZWISCHEN	-7.93916
+▁BEFINDET	-7.94185
+TRO	-7.94356
+▁MÖCHTE	-7.94566
+▁VI	-7.94676
+MER	-7.95046
+▁VEREIN	-7.95058
+GESETZ	-7.95101
+▁MEHRERE	-7.9517
+▁EUROPA	-7.95194
+SATZ	-7.95368
+▁CH	-7.95536
+BL	-7.9557
+STEIN	-7.95874
+ANT	-7.95884
+GEHEN	-7.96025
+LASSEN	-7.96237
+ARD	-7.96695
+▁OBER	-7.96906
+▁WEST	-7.97181
+MEISTER	-7.97712
+▁MÜ	-7.97964
+▁FILM	-7.97967
+LAUF	-7.98074
+▁ERSTE	-7.98541
+ÖFFENTLICH	-7.99078
+WOHN	-7.9908
+▁ETWA	-7.99223
+WERT	-7.99335
+▁AUßERDEM	-7.99613
+LEGEN	-7.99776
+LEGT	-7.9978
+▁WÄHREND	-7.99851
+GAR	-8.00001
+FRIED	-8.00175
+▁DR	-8.00301
+▁WENIG	-8.01057
+PLATZ	-8.01775
+▁KINDER	-8.02039
+IGKEIT	-8.02349
+▁IMMER	-8.02645
+▁ABGE	-8.02746
+▁JU	-8.03748
+▁LU	-8.03773
+▁MEINE	-8.04964
+STELLUNG	-8.05194
+GESTELLT	-8.05238
+WIN	-8.05399
+▁NEBEN	-8.05628
+KOMMISSION	-8.05643
+▁UNSERE	-8.05667
+WAND	-8.05891
+ZOG	-8.06013
+SCHRIFT	-8.06202
+DORF	-8.0627
+ANNT	-8.06374
+CHER	-8.06735
+▁FRAGE	-8.06828
+▁KURZ	-8.07666
+SCHLAG	-8.07677
+DIG	-8.08106
+▁MÖGLICH	-8.08288
+MMER	-8.08451
+GRUPPE	-8.09052
+BÜ	-8.09201
+▁SOLL	-8.09996
+▁BEREITS	-8.10018
+▁GANZ	-8.10036
+▁LETZTE	-8.10408
+SCHULE	-8.10637
+ZAHL	-8.10733
+FIN	-8.11003
+NET	-8.1108
+▁JEDE	-8.11236
+▁MUSIK	-8.11283
+ENDEN	-8.11472
+▁IHRER	-8.11983
+UG	-8.124
+SCHIEDENE	-8.12615
+▁DIESEN	-8.12705
+▁NAMEN	-8.12836
+STRAßE	-8.13374
+▁WENN	-8.14025
+PI	-8.14585
+▁FEST	-8.14747
+▁FÜNF	-8.15182
+▁BEIDEN	-8.16002
+▁GRA	-8.16017
+RÜ	-8.1607
+▁KRIEG	-8.16227
+ALLERDINGS	-8.16802
+▁FÜHRT	-8.17075
+▁FRÜH	-8.17119
+ITZ	-8.1756
+ATIV	-8.17607
+▁MICH	-8.17774
+▁DANACH	-8.17805
+▁OB	-8.17873
+WAR	-8.17929
+STÄNDIG	-8.18037
+▁ZAHLREICH	-8.18109
+▁SCHON	-8.18512
+▁JO	-8.18569
+ICK	-8.19839
+STADT	-8.19853
+▁DAZU	-8.20098
+GRA	-8.2017
+KREIS	-8.20389
+▁DAHER	-8.20727
+▁FAMILIE	-8.20828
+▁BU	-8.21396
+▁PRE	-8.21537
+GRIFF	-8.22442
+FANG	-8.22499
+NAHME	-8.22629
+▁PARLAMENT	-8.22867
+LIEB	-8.23413
+▁SCHUL	-8.24247
+▁ZWEITEN	-8.24284
+▁LEBT	-8.24982
+WOHL	-8.2526
+▁SCHL	-8.25446
+▁ANDEREN	-8.25551
+▁SU	-8.25556
+ZEUG	-8.25863
+▁AUTO	-8.25883
+HALB	-8.26216
+FAHREN	-8.26339
+▁ZUNÄCHST	-8.26474
+DEL	-8.27115
+IVERSITÄT	-8.27264
+▁PROBLEM	-8.27302
+▁NUN	-8.27386
+PRÄSIDENT	-8.27567
+TRITT	-8.279
+▁MENSCHEN	-8.28217
+▁STAMM	-8.28233
+FELD	-8.28456
+MUS	-8.28535
+GESCHICHTE	-8.29057
+▁BUNDES	-8.29138
+TRU	-8.29341
+ISMUS	-8.29436
+GERICHT	-8.29663
+BACH	-8.29811
+▁EBENFALLS	-8.30216
+POLITIK	-8.30449
+RAUM	-8.30671
+▁TÄTIG	-8.30934
+▁HABE	-8.3123
+SCHLIEßEND	-8.31707
+OTT	-8.32467
+▁HOCH	-8.32589
+ÄNDER	-8.32642
+▁GILT	-8.32821
+SYSTEM	-8.3362
+▁SOHN	-8.34141
+▁DOCH	-8.35176
+ISSE	-8.35177
+▁SOWIE	-8.35713
+▁BERLIN	-8.35892
+STRE	-8.36039
+GEFÜHRT	-8.36228
+▁ALLEM	-8.36301
+▁STUDIERTE	-8.36311
+RICHTUNG	-8.36844
+GRUND	-8.37068
+ESSEN	-8.37495
+▁NIEDER	-8.37832
+LING	-8.37933
+FLUG	-8.38005
+RUF	-8.38257
+GEBÄUDE	-8.38274
+▁BEIDE	-8.38492
+▁STEHT	-8.38744
+HEIRATET	-8.38993
+MANNSCHAFT	-8.39635
+ZER	-8.3974
+LÄNDER	-8.39883
+▁POLITISCH	-8.39932
+▁NIE	-8.40128
+GRÜNDE	-8.40313
+▁WELTKRIEG	-8.41749
+PRODUKT	-8.41793
+▁GEHT	-8.42562
+▁OST	-8.42583
+WECHSEL	-8.43023
+SCHLUSS	-8.43445
+DECK	-8.4401
+SCHUTZ	-8.4428
+IUM	-8.44375
+SORG	-8.44416
+▁EINZEL	-8.44628
+UNTERSTÜTZ	-8.44664
+GENOMMEN	-8.44808
+VERKEHR	-8.44996
+▁WILL	-8.45368
+BRU	-8.45446
+DIENST	-8.46257
+▁ERHIELT	-8.46306
+ISTISCH	-8.46409
+▁WEIß	-8.47386
+▁BLIEB	-8.47629
+SCHIFF	-8.47817
+GLEICH	-8.47818
+▁GRÜN	-8.4847
+▁BESTEHT	-8.48803
+STIMMT	-8.48992
+▁MACHT	-8.49128
+▁DESHALB	-8.49527
+CHLIEßLICH	-8.4959
+▁BEISPIEL	-8.49979
+▁OHNE	-8.50317
+SCHLOSSEN	-8.50325
+SCHREI	-8.5088
+▁JETZT	-8.51321
+▁DARAUF	-8.51383
+▁BÜRGER	-8.51414
+▁STARK	-8.51643
+▁VATER	-8.51982
+▁EHE	-8.52122
+▁DANK	-8.52502
+OLOGIE	-8.52772
+▁LÖ	-8.52823
+TRETEN	-8.53061
+▁ARBEITETE	-8.53788
+▁GING	-8.53852
+▁ZIEL	-8.53991
+SETZUNG	-8.54149
+▁HINTER	-8.54754
+WALD	-8.54883
+EINANDER	-8.55555
+VERWALTUNG	-8.55687
+▁SECHS	-8.55844
+SELLSCHAFT	-8.5585
+FÜHREN	-8.56097
+▁VERWENDET	-8.56595
+▁SOLCHE	-8.57387
+DRUCK	-8.57518
+▁GEMEINSAM	-8.5792
+▁DAFÜR	-8.58025
+XI	-8.58701
+GRÖßE	-8.59013
+▁MIR	-8.59534
+ÜSSE	-8.59568
+FÜHRUNG	-8.59785
+▁DARÜBER	-8.60362
+REIF	-8.60523
+HAFT	-8.60563
+▁BEGANN	-8.60733
+▁HÄUFIG	-8.61685
+PASS	-8.61936
+HÄLT	-8.62361
+GRAF	-8.62744
+▁KÖNIG	-8.62919
+▁DRITT	-8.62968
+STIMME	-8.64956
+MARKT	-8.65707
+▁KOMMT	-8.65929
+▁ENTWICKL	-8.66153
+▁SOZIAL	-8.66158
+ZEICHNET	-8.66178
+▁GESAMT	-8.66233
+LIEF	-8.67002
+▁ENTSCHEID	-8.67443
+AMERIKA	-8.68308
+▁BENANNT	-8.68688
+▁FINDEN	-8.68785
+▁HOHE	-8.68853
+VERSUCH	-8.68987
+▁HERAUS	-8.69624
+STRECKE	-8.69636
+HÖHE	-8.69644
+▁WORDEN	-8.69757
+▁NAHM	-8.69919
+▁AKTIV	-8.70379
+▁TOD	-8.70455
+WACHS	-8.70743
+▁EINFACH	-8.71404
+HILF	-8.71418
+▁JUNG	-8.71822
+▁URSPRÜNG	-8.72123
+▁OFFEN	-8.72833
+▁WÜRDE	-8.7286
+SPRACHE	-8.72907
+KRANK	-8.73279
+▁BEDEUTUNG	-8.73493
+PROGRAMM	-8.73854
+▁BESONDERS	-8.74397
+STOFF	-8.74454
+WESEN	-8.74733
+▁KUNST	-8.75386
+▁TITEL	-8.75748
+SÄCHLICH	-8.76046
+GEORDNET	-8.76369
+ZEICHNUNG	-8.766
+▁DIREKT	-8.76726
+▁PRÄ	-8.77056
+▁SPRACH	-8.77061
+▁GENAU	-8.77257
+▁CHRIST	-8.77527
+▁ERREICHT	-8.78452
+▁WAHR	-8.78661
+STÜCK	-8.79091
+▁ENTWICKEL	-8.79169
+GESCHÄFT	-8.79615
+▁NATUR	-8.80003
+▁INTERESS	-8.8026
+HANDLUNG	-8.80319
+SCHAUSPIEL	-8.80647
+▁PERSON	-8.8065
+▁WELCHE	-8.81135
+SCHRITT	-8.81299
+MINISTER	-8.81553
+POSITION	-8.81936
+▁KULTUR	-8.82132
+OLOGISCH	-8.82531
+▁SCHWARZ	-8.82539
+▁WAHL	-8.82952
+▁ORGANIS	-8.8325
+▁NATÜRLICH	-8.83382
+▁HISTOR	-8.83586
+ORDNUNG	-8.83719
+SELBEN	-8.84154
+BEZIRK	-8.8425
+▁SCHLOSS	-8.84718
+▁GRENZ	-8.8519
+▁FEHL	-8.8521
+▁GEWANN	-8.85458
+▁FOLGTE	-8.85525
+▁FINDET	-8.85863
+▁KÜNSTLER	-8.86816
+▁WÄRE	-8.86875
+▁WEITERHIN	-8.87099
+▁DADURCH	-8.87435
+ÖSTERREICH	-8.87505
+▁FRANZÖSI	-8.87988
+INDUSTRIE	-8.87988
+BEZEICHNET	-8.88374
+▁SCHNELL	-8.88464
+STIEG	-8.89184
+▁EMP	-8.89543
+▁JUGEND	-8.89671
+▁FUNKTION	-8.89807
+JAHR	-8.89987
+▁GENANNT	-8.90228
+DAUER	-8.90797
+▁TOUR	-8.91162
+LEISTUNG	-8.91433
+SETZEN	-8.91569
+▁ITALIEN	-8.9166
+ZENTRUM	-8.92166
+▁EINZIGE	-8.92192
+▁NUTZ	-8.9247
+▁NÄCHST	-8.92527
+▁PRIVAT	-8.92599
+SPRECHEN	-8.9265
+▁ÄNDERUNG	-8.92661
+KARRIERE	-8.93401
+▁BEFINDEN	-8.94138
+▁ZEHN	-8.94476
+KREUZ	-8.9458
+AUSBILDUNG	-8.94726
+▁BEGINN	-8.94804
+SBESONDERE	-8.94875
+FLÄCHE	-8.95005
+▁DAVON	-8.95035
+SCHNITT	-8.95261
+ZIEHUNG	-8.95399
+▁VOLKS	-8.9562
+STEUER	-8.96814
+▁LEICHT	-8.97455
+LÄNGE	-8.9791
+▁AUßER	-8.98527
+▁GENUTZT	-8.99123
+BEREIT	-8.99142
+DEMOKRAT	-8.99278
+▁ZEIGT	-8.99554
+SICHERHEIT	-8.99856
+▁TEXT	-8.99928
+▁SAISON	-9.00689
+▁TOCHTER	-9.01159
+▁FINANZ	-9.01357
+GEBRACHT	-9.01476
+▁MUTTER	-9.01639
+VERBINDUNG	-9.01793
+WIEGEND	-9.02199
+KRAFT	-9.02392
+KOLLEG	-9.02829
+HAUPT	-9.02987
+▁FOLGENDEN	-9.03723
+KÖRPER	-9.03802
+FAHRT	-9.03902
+▁CHA	-9.03907
+▁DEUTLICH	-9.04133
+FASSUNG	-9.04566
+▁ENTSPRECH	-9.04747
+PROZESS	-9.04959
+▁ELEKTR	-9.0503
+▁MILITÄR	-9.0511
+▁GLAUBE	-9.05772
+LEHRER	-9.05834
+▁DANEBEN	-9.06103
+▁WIRKLICH	-9.06168
+▁GEBOREN	-9.06189
+TREFF	-9.06493
+WESENTLICH	-9.06581
+MAßNAHMEN	-9.06602
+STRUKTUR	-9.06853
+▁TROTZ	-9.06868
+▁KÖNNTE	-9.06937
+▁THEATER	-9.07286
+▁EHEMALIG	-9.07361
+SCHÜTZ	-9.07386
+▁ENGLISCH	-9.07527
+▁FERNSEH	-9.07545
+▁LIEGEN	-9.077
+ANSTALT	-9.07788
+SIEDLUNG	-9.07895
+▁GOLD	-9.0809
+FÄLLE	-9.08139
+▁HEUTIGE	-9.08566
+▁ÄUßER	-9.08627
+▁WOLLEN	-9.09681
+STUDIUM	-9.09913
+WETTBEWERB	-9.09999
+MÖGLICH	-9.10454
+▁ZENTRAL	-9.10869
+ABHÄNGIG	-9.11216
+▁DARAUFHIN	-9.11309
+VERANTWORT	-9.11742
+▁NÄHE	-9.11744
+SCHRIEBEN	-9.12182
+SCHAFFEN	-9.12184
+BESCHÄFTIG	-9.12448
+▁JOHANN	-9.13606
+FOLGREICH	-9.13908
+▁REIHE	-9.14795
+▁BEVÖLKER	-9.15505
+MEINSCHAFT	-9.15517
+BRAUN	-9.15594
+▁NÖRDLICH	-9.15687
+▁FLUSS	-9.15781
+STÄNDE	-9.15975
+AUSSCHUSS	-9.17259
+GEMEINDE	-9.17429
+▁GEGENÜBER	-9.17535
+KAMPF	-9.1796
+GESPROCHEN	-9.18094
+SAMMLUNG	-9.18375
+PRÜF	-9.18913
+ZUSÄTZLICH	-9.19509
+BLÄTTER	-9.19604
+GRENZE	-9.20184
+▁SCHWEIZ	-9.2088
+▁ÄHNLICH	-9.21819
+▁ALLGEMEIN	-9.2201
+▁KOMMISSAR	-9.22108
+▁INSGESAMT	-9.22499
+▁ÜBERNAHM	-9.22545
+▁ALBUM	-9.22893
+WIRKUNG	-9.23026
+FAHRZEUG	-9.23091
+▁ANTWORT	-9.23681
+▁BEDEUTET	-9.24376
+▁BEDEUTEND	-9.25178
+HUNDERT	-9.25302
+▁INNERHALB	-9.25482
+▁FUßBALL	-9.2558
+▁ENERGIE	-9.26292
+▁AUßEN	-9.26394
+HÄUSER	-9.26502
+▁KLOSTER	-9.2701
+▁GEHÖREN	-9.2762
+▁NOTWENDIG	-9.2762
+REGELMÄßIG	-9.27728
+UNTERRICHT	-9.27824
+▁PROVINZ	-9.28033
+ZIEHEN	-9.28043
+▁EBENSO	-9.28137
+▁TRADITION	-9.28864
+Q	-10.642

tokenizer_hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,43 @@

+# Generated 2022-08-16 from:
+# /netscratch/sagar/thesis/speechbrain/recipes/CommonVoice_de/Tokenizer/hparams/1K_unigram_subword_bpe.yaml
+# yamllint disable
+# ############################################################################
+# Tokenizer: subword BPE with unigram 1K
+# Training: German CommonVoice 1,211 hrs
+# Authors:  Abdel Heba 2021
+# ############################################################################
+token_type: unigram       # ["unigram", "bpe", "char"]
+output_folder: results/unigram
+train_log: results/unigram/train_log.txt
+# Data files
+data_folder: ../CommonVoice/
+csv_dir: ../cv_de_acc
+train_tsv_file: ../CommonVoice//train.tsv
+dev_tsv_file: ../CommonVoice//dev.tsv
+test_tsv_file: ../CommonVoice//test.tsv
+accented_letters: true
+language: de
+skip_prep: false
+# train_splits: ["train-clean-100", "train-clean-360", "train-other-500"]
+# dev_splits: ["dev-clean"]
+# test_splits: ["test-clean", "test-other"]
+train_csv: ../cv_de_acc/train.csv
+valid_csv: ../cv_de_acc/dev.csv
+# Training parameters
+token_output: 5000  # index(blank/eos/bos/unk) = 0
+character_coverage: 1.0
+csv_read: wrd
+tokenizer: !name:speechbrain.tokenizers.SentencePiece.SentencePiece
+  model_dir: results/unigram
+  vocab_size: 5000
+  annotation_train: ../cv_de_acc/train.csv
+  annotation_read: wrd
+  model_type: unigram            # ["unigram", "bpe", "char"]
+  character_coverage: 1.0
+  annotation_list_to_check: [../cv_de_acc/train.csv, ../cv_de_acc/dev.csv]