Cleaning-ImageNet-Hard2

Paused

taesiri commited on May 2, 2023

Commit

106ce32

1 Parent(s): 262ca90

update

Files changed (2) hide show

README.md CHANGED Viewed

@@ -1,8 +1,8 @@
 ---
-title: Cleaning ImageNet Hard
-emoji: 📊
-colorFrom: purple
-colorTo: indigo
 sdk: gradio
 sdk_version: 3.28.0
 app_file: app.py

 ---
+title: Cleaning ImageNet Hard - Group 2
+emoji: 😋
+colorFrom: red
+colorTo: blue
 sdk: gradio
 sdk_version: 3.28.0
 app_file: app.py

app.py CHANGED Viewed

@@ -18,6 +18,8 @@ import torch
 import torchvision
 from huggingface_hub import HfApi, login, snapshot_download
 from PIL import Image
 session_token = os.environ.get("SessionToken")
 login(token=session_token)
@@ -64,11 +66,13 @@ if not os.path.exists("./imagenet_samples") or not os.path.exists(
 imagenet_hard = datasets.load_dataset("taesiri/imagenet-hard", split="validation")
 def update_snapshot(username):
     output_dir = snapshot_download(
         repo_id="taesiri/imagenet_hard_review_data_r2",
-        allow_patterns="*.json",
         repo_type="dataset",
     )
     files = glob(f"{output_dir}/*.json")
@@ -83,8 +87,23 @@ def update_snapshot(username):
             rows.append(tdf)
     df = pd.DataFrame(rows, columns=columns)
-    df = df[df["user_id"] == username]
     return df

 import torchvision
 from huggingface_hub import HfApi, login, snapshot_download
 from PIL import Image
+import re
+from fnmatch import translate
 session_token = os.environ.get("SessionToken")
 login(token=session_token)
 imagenet_hard = datasets.load_dataset("taesiri/imagenet-hard", split="validation")
 def update_snapshot(username):
+    escaped_username = re.escape(username)
+    pattern = f"*{escaped_username}*.json"
     output_dir = snapshot_download(
         repo_id="taesiri/imagenet_hard_review_data_r2",
+        allow_patterns=translate(pattern),
         repo_type="dataset",
     )
     files = glob(f"{output_dir}/*.json")
             rows.append(tdf)
     df = pd.DataFrame(rows, columns=columns)
+    # download and append all CSV files
+    output_dir = snapshot_download(
+        repo_id="taesiri/imagenet_hard_review_data_r3",
+        allow_patterns="*.csv",
+        repo_type="dataset",
+    )
+    files = glob(f"{output_dir}/*.csv")
+    if len(files) > 0:
+        csv_dataframes = [pd.read_csv(file) for file in files]
+        csv_dataframes = pd.concat(csv_dataframes, ignore_index=True)
+        df = pd.concat([df, csv_dataframes], ignore_index=True)
+    # remove duplicate rows
+    df = df.drop_duplicates(subset=["id", "user_id"], keep="last")
+    df = df[df["user_id"] == username]
     return df