Spaces:

JetBrains-Research
/

commit-message-editing-visualization

Runtime error

Petr Tsvetkov commited on Apr 4, 2024

Commit

aab3281

1 Parent(s): 305e536

WIP on annotated diffs generation

Files changed (4) hide show

.gitignore CHANGED Viewed

@@ -277,4 +277,5 @@ pip-selfcheck.json
 .idea
-cache

 .idea
+cache
+output

config.py CHANGED Viewed

@@ -1,6 +1,14 @@
 import os
 HF_TOKEN = os.environ.get('HF_TOKEN')
 HF_RAW_DATASET_NAME = "petrtsv-jb/commit-msg-rewriting"
 HF_RAW_DATASET_SPLIT = 'train'
-CACHE_DIR = "cache"

 import os
+from pathlib import Path
 HF_TOKEN = os.environ.get('HF_TOKEN')
 HF_RAW_DATASET_NAME = "petrtsv-jb/commit-msg-rewriting"
 HF_RAW_DATASET_SPLIT = 'train'
+CACHE_DIR = Path("cache")
+CACHE_DIR.mkdir(exist_ok=True)
+OUTPUT_DIR = Path("output")
+OUTPUT_DIR.mkdir(exist_ok=True)
+ANNOTATED_DIFFS_ARTIFACT = OUTPUT_DIR / "annotated_diffs.csv"

generate_annotated_diffs.py ADDED Viewed

+from datetime import datetime
+import hf_data_loader
+def group_changes(changes):
+    groups = {}
+    for change in changes:
+        group = datetime.fromisoformat(change.ts)
+        if group not in groups:
+            groups[group] = []
+        groups[group].append(change)
+    grouped_changes = []
+    for group in sorted(groups.keys()):
+        grouped_changes.sort(key=lambda x: x.p)
+        grouped_changes.append(groups[group])
+    return grouped_changes
+def get_annotated_diff(initial_text, changes):
+    grouped_changes = group_changes(changes)
+    text = [((c, " ") for c in initial_text)]
+    for change_group in grouped_changes:
+        text_pointer = 0
+        change_pointer = 0
+        while text_pointer < len(text):
+            pass
+df = hf_data_loader.load_raw_dataset_as_pandas()

hf_data_loader.py CHANGED Viewed

@@ -8,3 +8,6 @@ def load_raw_dataset_as_pandas():
                         split=config.HF_RAW_DATASET_SPLIT,
                         token=config.HF_TOKEN,
                         cache_dir=config.CACHE_DIR).to_pandas()

                         split=config.HF_RAW_DATASET_SPLIT,
                         token=config.HF_TOKEN,
                         cache_dir=config.CACHE_DIR).to_pandas()
+load_raw_dataset_as_pandas()