Spaces:

RugNlpFlashcards
/

Speech_Language_Processing_Jurafsky_Martin

Build error

GGroenendaal commited on Apr 7, 2022

Commit

350ba75

1 Parent(s): 64df40b

add plots for reading times

Files changed (6) hide show

plots.py ADDED Viewed

+# %%
+import pandas as pd
+import matplotlib.pyplot as plt
+import scipy.stats as stats
+data = pd.read_csv("results/timings.csv", index_col="Unnamed: 0")
+data
+# %%
+data.columns
+# %%
+data_retrieve = data[["faiss_dpr.retrieve", "faiss_longformer.retrieve",
+                      "es_dpr.retrieve", "es_longformer.retrieve"]]
+# %%
+plt.title("Retrieval time")
+plt.ylabel("Time (s)")
+plt.xlabel("Model")
+plt.boxplot(data_retrieve, labels=[
+            "A1", "A2", "B1", "B2"])
+plt.savefig("results/retrieval_time.png")
+# %%
+print(data_retrieve.describe())
+with open("results/retrieval_time.tex", "w") as f:
+    f.write(data_retrieve.describe().to_latex())
+# %%
+# now the same for the reader
+data_read = data[["faiss_dpr.read", "faiss_longformer.read",
+                  "es_dpr.read", "es_longformer.read"]]
+plt.title("Reading time")
+plt.ylabel("Time (s)")
+plt.xlabel("Model")
+plt.boxplot(data_read, labels=["A1", "A2", "B1", "B2"])
+plt.savefig("results/read_time.png")
+# %%
+print(data_read.describe())
+with open("results/read_time.tex", "w") as f:
+    f.write(data_read.describe().to_latex())
+# Statistical tests for reading time
+# %%
+stats.probplot(data_retrieve["es_longformer.retrieve"], dist="norm", plot=plt)
+# %%
+# %%
+anova_retrieve = stats.f_oneway(*data_retrieve.T.values)
+anova_read = stats.f_oneway(*data_read.T.values)
+print(f"retrieve\n {anova_retrieve} \n\nread\n {anova_read}")
+# %%

results/read_time.png ADDED Viewed

results/read_time.tex ADDED Viewed

+\begin{tabular}{lrrrr}
+\toprule
+{} &  faiss\_dpr.read &  faiss\_longformer.read &  es\_dpr.read &  es\_longformer.read \\
+\midrule
+count &       59.000000 &              59.000000 &    59.000000 &           59.000000 \\
+mean  &        1.222466 &               5.486930 &     1.866525 &            5.191112 \\
+std   &        0.923501 &               0.966157 &     1.005673 &            0.465743 \\
+min   &        0.341175 &               4.487846 &     0.314589 &            4.463429 \\
+25\%   &        0.695762 &               4.767350 &     1.141979 &            4.858446 \\
+50\%   &        0.919248 &               5.454382 &     1.650235 &            5.202449 \\
+75\%   &        1.394425 &               5.699257 &     2.516944 &            5.362522 \\
+max   &        5.365102 &              10.146074 &     4.782422 &            6.431236 \\
+\bottomrule
+\end{tabular}

results/retrieval_time.png ADDED Viewed

results/retrieval_time.tex ADDED Viewed

+\begin{tabular}{lrrrr}
+\toprule
+{} &  faiss\_dpr.retrieve &  faiss\_longformer.retrieve &  es\_dpr.retrieve &  es\_longformer.retrieve \\
+\midrule
+count &           59.000000 &                  59.000000 &        59.000000 &               59.000000 \\
+mean  &            0.056994 &                   0.854546 &         0.013451 &                0.013016 \\
+std   &            0.038737 &                   0.165768 &         0.003771 &                0.002781 \\
+min   &            0.035896 &                   0.729217 &         0.008990 &                0.009167 \\
+25\%   &            0.043558 &                   0.775807 &         0.010590 &                0.011279 \\
+50\%   &            0.046970 &                   0.795175 &         0.011699 &                0.012060 \\
+75\%   &            0.056887 &                   0.838984 &         0.016232 &                0.013151 \\
+max   &            0.303843 &                   1.465686 &         0.026489 &                0.020290 \\
+\bottomrule
+\end{tabular}

test.py DELETED Viewed

@@ -1,20 +0,0 @@
-# %%
-from datasets import load_dataset
-from src.retrievers.faiss_retriever import FaissRetriever
-data = load_dataset("GroNLP/ik-nlp-22_slp", "paragraphs")
-# # %%
-# x = data["test"][:3]
-# # %%
-# for y in x:
-#     print(y)
-# # %%
-# x.num_rows
-# # %%
-retriever = FaissRetriever(data)
-scores, result = retriever.retrieve("hello world")