Spaces:

Liusuthu
/

SpeechDepression

Runtime error

App Files Files Community

Liusuthu commited on Feb 23

Commit

c0fd774

•

1 Parent(s): 0a6d3ed

Delete pretrained_models/facebook

Browse files

Files changed (6) hide show

pretrained_models/facebook/wav2vecChinese/README.md +0 -61
pretrained_models/facebook/wav2vecChinese/config.json +0 -115
pretrained_models/facebook/wav2vecChinese/gitattributes.txt +0 -27
pretrained_models/facebook/wav2vecChinese/hyperparams.yaml +0 -59
pretrained_models/facebook/wav2vecChinese/preprocessor_config.json +0 -9
pretrained_models/facebook/wav2vecChinese/pytorch_model.bin +0 -3

pretrained_models/facebook/wav2vecChinese/README.md DELETED Viewed

@@ -1,61 +0,0 @@
----
-license: mit
----
-Pretrained on 10k hours WenetSpeech L subset. More details in  [TencentGameMate/chinese_speech_pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain)
-This model does not have a tokenizer as it was pretrained on audio alone.
-In order to use this model speech recognition, a tokenizer should be created and the model should be fine-tuned on labeled text data.
-python package:
-transformers==4.16.2
-```python
-import torch
-import torch.nn.functional as F
-import soundfile as sf
-from fairseq import checkpoint_utils
-from transformers import (
-    Wav2Vec2FeatureExtractor,
-    Wav2Vec2ForPreTraining,
-    Wav2Vec2Model,
-)
-from transformers.models.wav2vec2.modeling_wav2vec2 import _compute_mask_indices
-model_path=""
-wav_path=""
-mask_prob=0.0
-mask_length=10
-feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_path)
-model = Wav2Vec2Model.from_pretrained(model_path)
-# for pretrain: Wav2Vec2ForPreTraining
-# model = Wav2Vec2ForPreTraining.from_pretrained(model_path)
-model = model.to(device)
-model = model.half()
-model.eval()
-wav, sr = sf.read(wav_path)
-input_values = feature_extractor(wav, return_tensors="pt").input_values
-input_values = input_values.half()
-input_values = input_values.to(device)
-# for Wav2Vec2ForPreTraining
-# batch_size, raw_sequence_length = input_values.shape
-# sequence_length = model._get_feat_extract_output_lengths(raw_sequence_length)
-# mask_time_indices = _compute_mask_indices((batch_size, sequence_length), mask_prob=0.0, mask_length=2)
-# mask_time_indices = torch.tensor(mask_time_indices, device=input_values.device, dtype=torch.long)
-with torch.no_grad():
-    outputs = model(input_values)
-    last_hidden_state = outputs.last_hidden_state
-    # for Wav2Vec2ForPreTraining
-    # outputs = model(input_values, mask_time_indices=mask_time_indices, output_hidden_states=True)
-    # last_hidden_state = outputs.hidden_states[-1]
-```

pretrained_models/facebook/wav2vecChinese/config.json DELETED Viewed

@@ -1,115 +0,0 @@
-{
-  "activation_dropout": 0.0,
-  "adapter_kernel_size": 3,
-  "adapter_stride": 2,
-  "add_adapter": false,
-  "apply_spec_augment": true,
-  "architectures": [
-    "Wav2Vec2ForPreTraining"
-  ],
-  "attention_dropout": 0.1,
-  "bos_token_id": 1,
-  "classifier_proj_size": 256,
-  "codevector_dim": 768,
-  "contrastive_logits_temperature": 0.1,
-  "conv_bias": true,
-  "conv_dim": [
-    512,
-    512,
-    512,
-    512,
-    512,
-    512,
-    512
-  ],
-  "conv_kernel": [
-    10,
-    3,
-    3,
-    3,
-    3,
-    2,
-    2
-  ],
-  "conv_stride": [
-    5,
-    2,
-    2,
-    2,
-    2,
-    2,
-    2
-  ],
-  "ctc_loss_reduction": "sum",
-  "ctc_zero_infinity": false,
-  "diversity_loss_weight": 0.1,
-  "do_stable_layer_norm": true,
-  "eos_token_id": 2,
-  "feat_extract_activation": "gelu",
-  "feat_extract_dropout": 0.0,
-  "feat_extract_norm": "layer",
-  "feat_proj_dropout": 0.1,
-  "feat_quantizer_dropout": 0.0,
-  "final_dropout": 0.0,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout": 0.1,
-  "hidden_size": 1024,
-  "initializer_range": 0.02,
-  "intermediate_size": 4096,
-  "layer_norm_eps": 1e-05,
-  "layerdrop": 0.1,
-  "mask_channel_length": 10,
-  "mask_channel_min_space": 1,
-  "mask_channel_other": 0.0,
-  "mask_channel_prob": 0.0,
-  "mask_channel_selection": "static",
-  "mask_feature_length": 10,
-  "mask_feature_min_masks": 0,
-  "mask_feature_prob": 0.0,
-  "mask_time_length": 10,
-  "mask_time_min_masks": 2,
-  "mask_time_min_space": 1,
-  "mask_time_other": 0.0,
-  "mask_time_prob": 0.075,
-  "mask_time_selection": "static",
-  "model_type": "wav2vec2",
-  "num_adapter_layers": 3,
-  "num_attention_heads": 16,
-  "num_codevector_groups": 2,
-  "num_codevectors_per_group": 320,
-  "num_conv_pos_embedding_groups": 16,
-  "num_conv_pos_embeddings": 128,
-  "num_feat_extract_layers": 7,
-  "num_hidden_layers": 24,
-  "num_negatives": 100,
-  "output_hidden_size": 1024,
-  "pad_token_id": 0,
-  "proj_codevector_dim": 768,
-  "tdnn_dilation": [
-    1,
-    2,
-    3,
-    1,
-    1
-  ],
-  "tdnn_dim": [
-    512,
-    512,
-    512,
-    512,
-    1500
-  ],
-  "tdnn_kernel": [
-    5,
-    3,
-    3,
-    1,
-    1
-  ],
-  "torch_dtype": "float32",
-  "transformers_version": "4.16.2",
-  "use_weighted_layer_sum": false,
-  "vocab_size": 32,
-  "xvector_output_dim": 512
-}

pretrained_models/facebook/wav2vecChinese/gitattributes.txt DELETED Viewed

@@ -1,27 +0,0 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zstandard filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

pretrained_models/facebook/wav2vecChinese/hyperparams.yaml DELETED Viewed

@@ -1,59 +0,0 @@
-# ############################################################################
-# Model: WAV2VEC base for Emotion Recognition
-# ############################################################################
-# Hparams NEEDED
-HPARAMS_NEEDED: ["encoder_dim", "out_n_neurons", "label_encoder", "softmax"]
-# Modules Needed
-MODULES_NEEDED: ["wav2vec2", "avg_pool", "output_mlp"]
-# Feature parameters
-wav2vec2_hub: wav2vecChinese
-# Pretrain folder (HuggingFace)
-pretrained_path: emotion-recognition-wav2vec2-IEMOCAP
-# parameters
-encoder_dim: 768
-out_n_neurons: 4
-wav2vec2: !new:speechbrain.lobes.models.huggingface_wav2vec.HuggingFaceWav2Vec2
-    source: D:/pycharm2020/code/yuyin_ChineseWav2vec/pretrained_models/facebook/wav2vec2-base
-    output_norm: True
-    freeze: True
-    save_path: wav2vec2_checkpoints
-avg_pool: !new:speechbrain.nnet.pooling.StatisticsPooling
-    return_std: False
-output_mlp: !new:speechbrain.nnet.linear.Linear
-    input_size: !ref <encoder_dim>
-    n_neurons: !ref <out_n_neurons>
-    bias: False
-model: !new:torch.nn.ModuleList
-    - [!ref <output_mlp>]
-modules:
-    wav2vec2: !ref <wav2vec2>
-    output_mlp: !ref <output_mlp>
-    avg_pool: !ref <avg_pool>
-softmax: !new:speechbrain.nnet.activations.Softmax
-label_encoder: !new:speechbrain.dataio.encoder.CategoricalEncoder
-pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
-    loadables:
-        wav2vec2: !ref <wav2vec2>
-        model: !ref <model>
-        label_encoder: !ref <label_encoder>
-    paths:
-        wav2vec2: !ref <pretrained_path>/wav2vec2.ckpt
-        model: !ref <pretrained_path>/model.ckpt
-        label_encoder: !ref <pretrained_path>/label_encoder.txt

pretrained_models/facebook/wav2vecChinese/preprocessor_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "do_normalize": true,
-  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
-  "feature_size": 1,
-  "padding_side": "right",
-  "padding_value": 0,
-  "return_attention_mask": true,
-  "sampling_rate": 16000
-}

pretrained_models/facebook/wav2vecChinese/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c8a5554a79c3bbbe76f2e43d3d4b4369c8c2abd5515e623192e0381d7e5e7b3f
-size 1269726951