trtd56
/

compe_test_v1

Model card Files Files and versions Community

trtd56 commited on Feb 5, 2024

Commit

77bdb05

·

verified ·

1 Parent(s): 2c6594f

Update script.py

Files changed (1) hide show

script.py +17 -5

script.py CHANGED Viewed

@@ -1,10 +1,22 @@
 import pandas as pd
-print("################################")
-import os
-os.listdir("/tmp/data")
 test_df = pd.read_csv("/tmp/data/test.csv")
-print("################################")
-df = pd.DataFrame([(f"testid{i:04}", 0) for i in range(837)], columns=["id", "pred"])
 df.to_csv("submission.csv", index=None)

+import pickle
+import numpy as np
 import pandas as pd
+from sklearn.metrics.pairwise import cosine_similarity
 test_df = pd.read_csv("/tmp/data/test.csv")
+with open("model.pkl", "rb") as f:
+    model = pickle.load(f)
+scores = []
+for _, row in test_df.iterrows():
+    X_query = model["tokenizer"].transform([row["Query"]])
+    is_cand = sum([(model["faq_ids"] == row[f"FAQ{i+1}"]).astype(int) for i in range(3)]) > 0
+    sim = cosine_similarity(X_query, model["X_faq"][is_cand])[0]
+    score = sim.max()
+    scores.append(score)
+predict = (np.array(scores) > model["thr"]).astype(int)
+df = pd.DataFrame([(f"testid{i:04}", v) for i, v in enumerate(predict)], columns=["id", "pred"])
 df.to_csv("submission.csv", index=None)