Spaces:

distil-whisper
/

hallucination-analysis

Running

App Files Files Community

sanchit-gandhi HF staff commited on Oct 9, 2023

Commit

3e3e17d

•

1 Parent(s): 3843f4e

add overall statistics

Browse files

Files changed (1) hide show

app.py +52 -0

app.py CHANGED Viewed

@@ -64,6 +64,46 @@ target_dtype = np.int16
 max_range = np.iinfo(target_dtype).max
 def get_visualisation(idx, model="large-v2", round_dp=2, ngram_degree=5):
     idx -= 1
     audio = dataset[idx]["audio"]
@@ -141,6 +181,18 @@ if __name__ == "__main__":
             "relative to the target transcriptions. Insertions are displayed in <span style='background-color:Lightgreen'>green</span>, and "
             "deletions in <span style='background-color:#FFCCCB'><s>red</s></span>."
         )
         slider = gr.Slider(
             minimum=1, maximum=len(norm_target), step=1, label="Dataset sample"
         )

 max_range = np.iinfo(target_dtype).max
+def get_statistics(model="large-v2", round_dp=2, ngram_degree=5):
+    text1 = norm_target
+    if model == "large-v2":
+        text2 = norm_pred_v2
+    elif model == "large-32-2":
+        text2 = norm_pred_32_2
+    else:
+        raise ValueError(
+            f"Got unknown model {model}, should be one of `'large-v2'` or `'large-32-2'`."
+        )
+    wer_output = process_words(text1, text2, wer_default, wer_default)
+    wer_percentage = round(100 * wer_output.wer, round_dp)
+    ier_percentage = round(
+        100 * wer_output.insertions / sum([len(ref) for ref in wer_output.references]), round_dp
+    )
+    all_ngrams = list(ngrams(" ".join(text2).split(), ngram_degree))
+    unique_ngrams = []
+    for ngram in all_ngrams:
+        if ngram not in unique_ngrams:
+            unique_ngrams.append(ngram)
+    repeated_ngrams = len(all_ngrams) - len(unique_ngrams)
+    return wer_percentage, ier_percentage, repeated_ngrams
+def get_overall_table():
+    large_v2 = get_statistics(model="large-v2")
+    large_32_2 = get_statistics(model="large-32-2")
+    # format the rows
+    table = [large_v2, large_32_2]
+    # format the model names
+    table[0] = ["large-v2", *table[0]]
+    table[1] = ["large-32-2", *table[1]]
+    return table
 def get_visualisation(idx, model="large-v2", round_dp=2, ngram_degree=5):
     idx -= 1
     audio = dataset[idx]["audio"]
             "relative to the target transcriptions. Insertions are displayed in <span style='background-color:Lightgreen'>green</span>, and "
             "deletions in <span style='background-color:#FFCCCB'><s>red</s></span>."
         )
+        gr.Markdown("**Overall statistics:**")
+        table = gr.Dataframe(
+            value=get_overall_table(),
+            headers=[
+                "Model",
+                "Word Error Rate (WER)",
+                "Insertion Error Rate (IER)",
+                "Repeated 5-grams",
+            ],
+            row_count=2,
+        )
+        gr.Markdown("**Per-sample statistics:**")
         slider = gr.Slider(
             minimum=1, maximum=len(norm_target), step=1, label="Dataset sample"
         )