navigate-data-issues

Runtime error

App Files Files Community

MarkusStoll commited on Jul 19, 2023

Commit

c6a85a5

•

0 Parent(s):

Duplicate from renumics/cifar10-cleanlab

Browse files

Files changed (9) hide show

.gitattributes +34 -0
.gitignore +2 -0
Dockerfile +18 -0
README.md +20 -0
layout.json +137 -0
prepare.py +47 -0
requirements.txt +2 -0
run.py +51 -0
spotlight-layout.json +1 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+
2	+ .venv/

Dockerfile ADDED Viewed

	@@ -0,0 +1,18 @@

+FROM python:3.9
+WORKDIR /code
+ENV HOME=/code
+RUN apt install curl
+RUN pip install pip -U
+RUN pip install renumics-spotlight==1.3.0rc3
+RUN pip install datasets
+COPY prepare.py .
+RUN python prepare.py
+COPY . .
+RUN mkdir -p /code/.cache
+RUN chmod -R 777 /code
+CMD ["python", "run.py"]

README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+title: Cleanlab CIFAR-100 with Spotlight
+emoji: 🧐
+colorFrom: gray
+colorTo: blue
+sdk: docker
+pinned: false
+license: gpl-3.0
+app_file: run.py
+datasets:
+- renumics/cifar100-enriched
+- cifar100
+tags:
+- renumics
+- spotlight
+- EDA
+duplicated_from: renumics/cifar10-cleanlab
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

layout.json ADDED Viewed

	@@ -0,0 +1,137 @@

+{
+    "orientation": "horizontal",
+    "children": [
+        {
+            "kind": "split",
+            "weight": 24.37657642133775,
+            "orientation": "vertical",
+            "children": [
+                {
+                    "kind": "tab",
+                    "weight": 23.652554002465973,
+                    "children": [
+                        {
+                            "kind": "widget",
+                            "name": "Table",
+                            "type": "table",
+                            "config": {
+                                "tableView": "full",
+                                "visibleColumns": [
+                                    "fine_label_prediction_str",
+                                    "fine_label_str",
+                                    "label_score",
+                                    "near_duplicate_score",
+                                    "outlier_score"
+                                ],
+                                "sorting": null,
+                                "orderByRelevance": false
+                            }
+                        }
+                    ]
+                },
+                {
+                    "kind": "tab",
+                    "weight": 11.033364782611708,
+                    "children": [
+                        {
+                            "kind": "widget",
+                            "name": "Issues",
+                            "type": "IssuesWidget",
+                            "config": null
+                        }
+                    ]
+                },
+                {
+                    "kind": "tab",
+                    "weight": 38.67424218071708,
+                    "children": [
+                        {
+                            "kind": "widget",
+                            "name": "Inspector",
+                            "type": "inspector",
+                            "config": {
+                                "views": [
+                                    {
+                                        "view": "ImageView",
+                                        "columns": [
+                                            "image"
+                                        ],
+                                        "name": "image",
+                                        "key": "iW3ihwygEHg4QZv5YzJ8ww"
+                                    },
+                                    {
+                                        "view": "TextLens",
+                                        "columns": [
+                                            "fine_label_str"
+                                        ],
+                                        "name": "view",
+                                        "key": "346d7554-5395-44d6-b358-a351901cb02e"
+                                    },
+                                    {
+                                        "view": "TextLens",
+                                        "columns": [
+                                            "fine_label_prediction_str"
+                                        ],
+                                        "name": "view",
+                                        "key": "99761cf8-350a-469d-8dbc-0df7b0db4d48"
+                                    },
+                                    {
+                                        "view": "ScalarView",
+                                        "columns": [
+                                            "label_score"
+                                        ],
+                                        "name": "view",
+                                        "key": "4ae33ae9-919a-4b10-9216-cd7c9448f9ac"
+                                    },
+                                    {
+                                        "view": "ScalarView",
+                                        "columns": [
+                                            "outlier_score"
+                                        ],
+                                        "name": "view",
+                                        "key": "13fb6430-3ffc-422c-92be-243b174b9a15"
+                                    },
+                                    {
+                                        "view": "ScalarView",
+                                        "columns": [
+                                            "near_duplicate_score"
+                                        ],
+                                        "name": "view",
+                                        "key": "daf7c0b7-2185-4e50-9eb0-ffab8d1ff906"
+                                    }
+                                ],
+                                "visibleColumns": 8
+                            }
+                        }
+                    ]
+                }
+            ]
+        },
+        {
+            "kind": "tab",
+            "weight": 51.915353562320064,
+            "children": [
+                {
+                    "kind": "widget",
+                    "name": "Similarity Map",
+                    "type": "similaritymap",
+                    "config": {
+                        "placeBy": [
+                            "embedding_reduced"
+                        ],
+                        "reductionMethod": null,
+                        "colorBy": "fine_label_str",
+                        "sizeBy": "is_label_issue",
+                        "filter": true,
+                        "umapNNeighbors": 20,
+                        "umapMetric": "cosine",
+                        "umapMinDist": 0.15,
+                        "pcaNormalization": null,
+                        "umapMenuLocalGlobalBalance": 0.5,
+                        "umapMenuIsAdvanced": false
+                    }
+                }
+            ]
+        }
+    ]
+}

prepare.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import pickle
+import datasets
+import os
+import umap
+if __name__ == "__main__":
+    cache_file = "dataset_cache.pkl"
+    if os.path.exists(cache_file):
+        # Load dataset from cache
+        with open(cache_file, "rb") as file:
+            dataset = pickle.load(file)
+        print("Dataset loaded from cache.")
+    else:
+        # Load dataset using datasets.load_dataset()
+        ds = datasets.load_dataset("renumics/cifar100-enriched", split="test")
+        print("Dataset loaded using datasets.load_dataset().")
+        df = ds.to_pandas()
+        df = ds.rename_columns({"fine_label": "labels"}).to_pandas()
+        from tabulate import tabulate
+        from cleanlab import Datalab
+        import pandas as pd
+        import numpy as np
+        lab = Datalab(data=ds, label_name="fine_label")
+        features=np.array([x.tolist() for x in df["embedding"]])
+        pred_probs= np.array([x.tolist() for x in df["probabilities"]])
+        lab.find_issues(features=features,pred_probs=pred_probs)
+        print(tabulate(lab.get_issues().iloc[[0,1,2,3,-3,-2,-1]], headers='keys', tablefmt='psql'))
+        df_with_score = pd.concat([df, lab.get_issues()], axis=1)
+        df = df_with_score
+        # Save dataset to cache
+        with open(cache_file, "wb") as file:
+            pickle.dump(df, file)
+        print("Dataset saved to cache.")

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ renumics-spotlight
2	+ datasets

run.py ADDED Viewed

	@@ -0,0 +1,51 @@

+import pickle
+from renumics import spotlight
+import os
+import requests
+import pandas as pd
+from renumics import spotlight
+from renumics.spotlight.analysis import DataIssue
+if __name__ == "__main__":
+    cache_file = "dataset_cache.pkl"
+    if os.path.exists(cache_file):
+        # Load dataset from cache
+        with open(cache_file, "rb") as file:
+            df = pickle.load(file)
+        print("Dataset loaded from cache.")
+        label_issue_rows = df[df["is_label_issue"]].sort_values("label_score").index.tolist()
+        label_issue = DataIssue(severity="medium", title="label-issue", rows=label_issue_rows, description="Label issue found by cleanlab")
+        outlier_issue_row = df[df["outlier_score"]<0.6].sort_values("outlier_score").index.tolist()
+        outlier_issue = DataIssue(severity="medium", title="outlier-issue", rows=outlier_issue_row, description="Outlier score < 0.6")
+        near_duplicate_issue_row = df[df["is_near_duplicate_issue"]].sort_values("near_duplicate_score").index.tolist()
+        near_duplicate_issue = DataIssue(severity="medium", title="near-duplicate-issue", rows=near_duplicate_issue_row, description="Near duplicate issue found by cleanlab")
+        df = df.drop(["full_image"], axis=1)
+        while True:
+            dtypes = {
+                "image": spotlight.Image,
+                "embedding": spotlight.Embedding,
+                "embedding_reduced": spotlight.Embedding,
+                "probabilities": spotlight.Embedding,
+            }
+            view = spotlight.show(
+                df,
+                dtype=dtypes,
+                issues=[label_issue,outlier_issue,near_duplicate_issue],
+                layout="layout.json",
+                port=7860,
+                host="0.0.0.0",
+                allow_filebrowsing=False,
+            )
+            view.close()
+    else:
+        print(f"Dataset {cache_file} not found. Please run prepare.py first.")

spotlight-layout.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"orientation":"vertical","children":[{"kind":"split","weight":55.52608311229001,"orientation":"horizontal","children":[{"kind":"tab","weight":41.16700201207244,"children":[{"kind":"widget","name":"Table","type":"table","config":{"tableView":"full","visibleColumns":["coarse_label_str","fine_label_prediction_str","fine_label_str","image","__idx__"],"sorting":[["__idx__","DESC"]],"orderByRelevance":false,"columnWidths":{"coarse_label":92,"coarse_label_str":165,"embedding_reduced":128,"fine_label":92,"fine_label_prediction":92,"fine_label_prediction_error":92,"fine_label_prediction_str":244,"fine_label_str":194,"full_image":256,"image":200,"split":256,"__idx__":92,"__last_edited_at__":192,"__last_edited_by__":256}}}]},{"kind":"tab","weight":33.66487769877306,"children":[{"kind":"widget","name":"Similarity Map","type":"similaritymap","config":{"placeBy":null,"reductionMethod":null,"colorBy":"fine_label_str","sizeBy":null,"filter":false,"umapNNeighbors":20,"umapMetric":null,"umapMinDist":0.15,"pcaNormalization":null,"umapMenuLocalGlobalBalance":null,"umapMenuIsAdvanced":false}},{"kind":"widget","name":"Scatter Plot","type":"scatterplot","config":{"xAxisColumn":null,"yAxisColumn":null,"colorBy":null,"sizeBy":null,"filter":false}}]},{"kind":"tab","weight":25.168120289154498,"children":[{"kind":"widget","name":"Histogram","type":"histogram","config":{"columnKey":"fine_label_str","stackByColumnKey":"fine_label_prediction_error","filter":false}}]}]},{"kind":"tab","weight":44.47391688770999,"children":[{"kind":"widget","name":"Inspector","type":"inspector","config":{"views":[{"view":"ImageView","key":"es3NP2fbYeG5TzTQqCzZKL","name":"image","columns":["image"]},{"view":"TextLens","columns":["fine_label_str"],"name":"view","key":"7262001a-1270-467c-bfe8-6b6883adbc7d"},{"view":"TextLens","columns":["fine_label_prediction_str"],"name":"view","key":"f72a8ae9-17c4-4097-b454-79a6f60865db"},{"view":"ScalarView","columns":["fine_label_prediction_error"],"name":"view","key":"be4d6afe-9093-4581-b363-df11d3c6d34a"}],"visibleColumns":4}}]}]}