confit
/

wav2vec2-base-spkreg

yangwang825 commited on Nov 21, 2024

Commit

6a1d27a

•

1 Parent(s): d4e8ed4

Upload config

Files changed (2) hide show

config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_name_or_path": "facebook/wav2vec2-base",
   "activation_dropout": 0.0,
   "adapter_attn_dim": null,
   "adapter_kernel_size": 3,
@@ -7,14 +6,11 @@
   "add_adapter": false,
   "apply_spec_augment": true,
   "architectures": [
-    "Wav2Vec2SpkRegModel"
   ],
   "attention_dropout": 0.1,
   "auto_map": {
-    "AutoConfig": "configuration_wav2vec2_spkreg.Wav2Vec2SpkRegConfig",
-    "AutoFeatureExtractor": "feature_extractor_wav2vec2_spkreg.Wav2Vec2SpkRegFeatureExtractor",
-    "AutoModel": "modeling_wav2vec2_spkreg.Wav2Vec2SpkRegModel",
-    "AutoModelForAudioClassification": "modeling_wav2vec2_spkreg.Wav2Vec2SpkRegForSequenceClassification"
   },
   "bos_token_id": 1,
   "classifier_proj_size": 256,
@@ -60,6 +56,7 @@
   "feat_quantizer_dropout": 0.0,
   "final_dropout": 0.0,
   "freeze_feat_extract_train": true,
   "hidden_act": "gelu",
   "hidden_dropout": 0.1,
   "hidden_size": 768,
@@ -101,6 +98,7 @@
   "proj_codevector_dim": 256,
   "reduction": "mean",
   "scale": 30.0,
   "tdnn_dilation": [
     1,
     2,
@@ -122,7 +120,6 @@
     1,
     1
   ],
-  "torch_dtype": "float32",
   "transformers_version": "4.46.2",
   "use_weighted_layer_sum": false,
   "vocab_size": 32,

 {
   "activation_dropout": 0.0,
   "adapter_attn_dim": null,
   "adapter_kernel_size": 3,
   "add_adapter": false,
   "apply_spec_augment": true,
   "architectures": [
+    "Wav2Vec2ForPreTraining"
   ],
   "attention_dropout": 0.1,
   "auto_map": {
+    "AutoConfig": "configuration_wav2vec2_spkreg.Wav2Vec2SpkRegConfig"
   },
   "bos_token_id": 1,
   "classifier_proj_size": 256,
   "feat_quantizer_dropout": 0.0,
   "final_dropout": 0.0,
   "freeze_feat_extract_train": true,
+  "gradient_checkpointing": true,
   "hidden_act": "gelu",
   "hidden_dropout": 0.1,
   "hidden_size": 768,
   "proj_codevector_dim": 256,
   "reduction": "mean",
   "scale": 30.0,
+  "statistic_pooling": false,
   "tdnn_dilation": [
     1,
     2,
     1,
     1
   ],
   "transformers_version": "4.46.2",
   "use_weighted_layer_sum": false,
   "vocab_size": 32,

configuration_wav2vec2_spkreg.py CHANGED Viewed

@@ -244,6 +244,7 @@ class Wav2Vec2SpkRegConfig(PretrainedConfig):
         num_adapter_layers=3,
         output_hidden_size=None,
         adapter_attn_dim=None,
         loss_fct: str = 'cross_entropy', # cross_entropy, additive_margin, additive_angular_margin
         label_smoothing: float = 0.0,
         scale: float = 30.0,
@@ -332,6 +333,7 @@ class Wav2Vec2SpkRegConfig(PretrainedConfig):
         self.xvector_output_dim = xvector_output_dim
         # Loss function parameters. Feel free to ignore for other classes.
         self.loss_fct = loss_fct
         self.label_smoothing = label_smoothing
         self.scale = scale

         num_adapter_layers=3,
         output_hidden_size=None,
         adapter_attn_dim=None,
+        statistic_pooling: bool = False,
         loss_fct: str = 'cross_entropy', # cross_entropy, additive_margin, additive_angular_margin
         label_smoothing: float = 0.0,
         scale: float = 30.0,
         self.xvector_output_dim = xvector_output_dim
         # Loss function parameters. Feel free to ignore for other classes.
+        self.statistic_pooling = statistic_pooling
         self.loss_fct = loss_fct
         self.label_smoothing = label_smoothing
         self.scale = scale