Spaces:

kevineen
/

tanuki_annotation_phase2

Running

App Files Files Community

kevineen commited on 15 days ago

Commit

37be2c9

•

1 Parent(s): 77920ff

ボタン初期無効化

Browse files

Files changed (4) hide show

.gitignore +3 -1
README.md +2 -4
run.py +138 -176
script/custom.js +1 -10

.gitignore CHANGED Viewed

@@ -167,4 +167,6 @@ run_2.py
 run_3.py
 run_4.py
 backup.py
-idea.txt

 run_3.py
 run_4.py
 backup.py
+idea.txt
+dataclass.py

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 💬
 colorFrom: yellow
 colorTo: purple
 sdk: gradio
-app_file: run.py
 pinned: false
 license: apache-2.0
@@ -17,6 +17,4 @@ hf_oauth_scopes:
  - write-repos
  - manage-repos
  - inference-api
----
-An example chatbot using [Gradio](https://gradio.app), [`huggingface_hub`](https://huggingface.co/docs/huggingface_hub/v0.22.2/en/index), and the [Hugging Face Inference API](https://huggingface.co/docs/api-inference/index).

 colorFrom: yellow
 colorTo: purple
 sdk: gradio
+app_file: run.py # HotReloadデバッグのため、app.pyから変更中 gradio run.pyで開発中は変更の監視が可能
 pinned: false
 license: apache-2.0
  - write-repos
  - manage-repos
  - inference-api
+---

run.py CHANGED Viewed

@@ -1,60 +1,61 @@
 import os
-from huggingface_hub import HfFolder
-# HF_Spaceでプライベート関連にアクセスするための環境変数
-HF_TOKEN = os.getenv("HF_TOKEN")
-if HF_TOKEN:
-    HfFolder.save_token(HF_TOKEN)
-else:
-    print("Warning: HF_TOKEN not found. Please set it in your Space secrets.")
 import json
 import datetime
 from pathlib import Path
 import uuid
 from typing import Tuple
-from datasets import load_dataset, Dataset, concatenate_datasets
 import pandas as pd
 import gradio as gr
 from huggingface_hub import CommitScheduler
-# HF保存先
 output_dataset = [
     "kevineen/test_phase2", # 出力テスト
-    # "kanhatakeyama/ftdata", # 出力読込テスト
 ]
-# アノテーションするデータセット
 annotation_dataset_list = [
-    # "hatakeyama-llm-team/WikiBookJa", # 良・悪のみ
     "hatakeyama-llm-team/AutoGeneratedJapaneseQA",
     "hatakeyama-llm-team/AutoGeneratedJapaneseQA-other",
     "kanhatakeyama/AutoWikiQA",
     "kanhatakeyama/ChatbotArenaJaMixtral8x22b",
     "kanhatakeyama/OrcaJaMixtral8x22b",
-    # "kanhatakeyama/AutoMultiTurnByMixtral8x22b", # マルチターン
     "kanhatakeyama/LogicalDatasetsByMixtral8x22b",
-    "susumuota/SyntheticTextWikiTranslate-askllm-v1", # Ask-LLM
     ]
 annotation_file = Path("user_annotation/") / f"data_{uuid.uuid4()}.json"
 annotated_folder = annotation_file.parent
-# 要テスト　保存先はどこか、作業再開後などのデータの保存がどうなるか
-# ~/.cache/huggingfaceに(ローカル)
-# loginはどうなる？
 scheduler = CommitScheduler(
-                repo_id="kevineen/test_phase2",
                 repo_type="dataset",
                 folder_path=annotated_folder,
-                path_in_repo="data",
                 private=True,
-                every=5, # 5分毎にアップロード HF_Docの最低推奨値
                 )
-# CommitScheduler用 (HFへのデータアップロード
 def save_annotation(
         dataset_name: str,
         dataset_id : int,
@@ -82,13 +83,11 @@ def save_annotation(
             'answer_text_2': [answer_text_2]
         })], ignore_index=True).reset_index(drop=True)
-    print(annotated_dataset.value)
     # 書き込み
     # with scheduler.lock:
     with annotation_file.open("a") as f:
         data_to_write = {
-            "id": target_id.value,
             "datetime": str(datetime.datetime.now().isoformat()),
             "dataset_name": dataset_name,
             "dataset_id": dataset_id,
@@ -101,12 +100,10 @@ def save_annotation(
             "is_proofreading_2": is_proofreading_2,
             "answer_text_2": answer_text_2,
         }
-        # print(data_to_write)
         f.write(json.dumps(data_to_write))
         f.write("\n")
-# Session State (ブラウザ単位の変数管理)
 # UIのEnable/Disable用State
 is_selected_dataset = gr.State(False)
@@ -118,12 +115,9 @@ dropdown_dataset_list = gr.State(value = annotation_dataset_list)
 select_dropdown_dataset = gr.State(dropdown_dataset_list.value[0])
 select_dataset = gr.State(None) # 現在のデータセット
 select_dataset_total_len = gr.State(0) # 現在のデータセットの長さ
-select_idx = gr.State(0) # 現在のインデックス
 random_mode = gr.State(False)
-target_dataset_name = gr.State(output_dataset[0]) # 出力先データセット名
-target_dataset = gr.State(None) # 出力先データセット
 # 回答者がアノテーションしたデータセット
 annotated_dataset = gr.State(
     pd.DataFrame({
@@ -143,6 +137,8 @@ annotated_dataset = gr.State(
 initial_answer_text_1 = gr.State("") # 回答1を整形したかチェック用
 initial_answer_text_2 = gr.State("") # 回答2を整形したかチェック用
 you_dataset_id = gr.State(0) # 回答者がアノテーションしているデータのID
 target_id = gr.State(0) # 出力先のデータセットをチェックし、末尾IDを追加
 dataset_name = gr.State("") # 編集に使用したデータセット名
@@ -156,17 +152,6 @@ answer_text_1 = gr.State("") # answer_1 回答
 is_proofreading_2 = gr.State(False) # 回答2を整形したか_2
 answer_text_2 = gr.State("") # answer_2 回答
-labeled_output_dataset = gr.State(None) # 出力用
-# テーマの状態
-theme_ = gr.themes.Default()
-# 後のCSSデザイン変更用
-def load_css():
-    with open("style.css", "r") as file:
-        css_content = file.read()
-    return css_content
 # ユーザー名表示
 def hello(profile: gr.OAuthProfile | None) -> Tuple[str, str]:
     if profile is None:
@@ -174,43 +159,22 @@ def hello(profile: gr.OAuthProfile | None) -> Tuple[str, str]:
     who.value = profile.username
     return f'{profile.username} さん、よろしくお願いいたします。', who.value
 # データ読み込み
 # データの保存処理
 # アノテーションの追加処理
-# UI処理
-# HFにアップロードするためのデータセットに変換する
-def upload_to_huggingFace(pd_dataset: pd.DataFrame):
-    # 出力先のデータセットを読み込む
-    target_dataset = load_dataset(target_dataset_name.value)["train"]
-    target_dataset = target_dataset.to_pandas().drop('Unnamed: 0', axis=1)
-    # TODO 取得したデータセットとアノテーションしたデータを比較し
-    # 重複しているデータがなければ追加する
-    # 重複のチェックは、dataset と dataset_id と who が全て一致するものを探す
-    # 重複していたら、その行を更新する
-    # TODO 前処理
-    # initial_answer_text_1とanswer_text_1を比較し、異なる場合はis_proofreading_1をTrueにする
-    # initial_answer_text_2とanswer_text_2を比較し、異なる場合はis_proofreading_2をTrueにする
-    # is_proofreading_1, is_proofreading_2 が False の場合、answer_text_1, answer_text_2 は空文字列にする
-    preprocessed_pd_dataset = pd_dataset
-    # Datasetに変換
-    from_update_dataset = Dataset.from_pandas(preprocessed_pd_dataset)
-    # 結合する
-    updated_dataset = concatenate_datasets([from_update_dataset, dataset_name])
-    # TODO アップロード
-    updated_dataset.save_to_disk(target_dataset_name.value)
 with gr.Blocks(theme = theme_, css = load_css()) as demo:
@@ -246,123 +210,121 @@ with gr.Blocks(theme = theme_, css = load_css()) as demo:
             gr_data_load_btn = gr.Button("② データセットを読み込む")
             # データセットロード
-            def dataset_load_fn() -> Tuple[str, str, str, str]:
-                print("-----Loading Dataset-----")
                 select_dataset.value = load_dataset(select_dropdown_dataset.value)
                 select_idx.value = 0
                 select_dataset_total_len.value = select_dataset.value["train"].num_rows
-                return "現在のidx" + str(select_idx.value) + " / " + str(select_dataset_total_len.value), \
                         select_dataset.value["train"][select_idx.value]["question"], \
                         select_dataset.value["train"][select_idx.value]["answer"], \
                         select_dataset.value["train"][select_idx.value]["question"], \
                         select_dataset.value["train"][select_idx.value]["answer"]
-        with gr.Tab("③ シンプルモード(良い・悪いのみ選択)"):
-            with gr.Column():
-                with gr.Row(equal_height=True):
-                    good_btn = gr.Button("良い")
-                    bad_btn = gr.Button("悪い")
-                with gr.Row():
-                    gr_current_idx = gr.Markdown("現在のインデックス")
-                    gr_total_length = gr.Markdown("データセットのトータル")
-                    gr.Checkbox(False, label="ランダム取得モード")
-            gr_question_text_1 = gr.Textbox(label="質問: ",lines=5, interactive=False)
-            gr_answer_text_1 = gr.Textbox(label="回答: 訂正頂けると品質が上がります。", lines=20,  interactive=True)
-        with gr.Tab("③ 丁寧モード（5段階評価・文章校正）"):
-            gr_question_text_2 = gr.Textbox(label="質問: ",lines=5, interactive=False)
-            gr_score_slider = gr.Slider(1, 5, label="回答のスコア: 1-5　(1:大変悪い、2:悪い、3:普通、4:良い、5:大変良い)", step=1, value=score.value, interactive=True)
-            gr_score_slider.change(
-                print("change")
             )
-            gr_submit_btn = gr.Button("決定")
-            gr_answer_text_2 = gr.Textbox(label="回答: 訂正頂けると品質が上がります。", lines=20, interactive=True)
-        gr_data_load_btn.click(
-                dataset_load_fn,
-                inputs=None,
-                outputs=[gr_current_idx, gr_question_text_1, gr_answer_text_1, gr_question_text_2, gr_answer_text_2]
-                )
-        def good_click() -> Tuple[str, str, str, str]:
-            # 値更新
-            good.value = True
-            bad.value = False
-            # 表示更新
-            select_idx.value += 1
-            target_id.value += 1
-            gr_question_text_1.value = select_dataset.value["train"][select_idx.value]["question"]
-            # データセットに追加
-            save_annotation(
-                select_dropdown_dataset.value,
-                target_id.value,
-                who.value,
-                good.value,
-                bad.value,
-                score.value,
-                is_proofreading_1.value,
-                answer_text_1.value,
-                is_proofreading_2.value,
-                answer_text_2.value
             )
-            # target_id.value += target_id.value
-            print(annotated_dataset.value)
-            return "現在のidx" + str(select_idx.value) + " / " + str(select_dataset_total_len.value), \
-                    select_dataset.value["train"][select_idx.value]["question"], \
-                    select_dataset.value["train"][select_idx.value]["answer"], \
-                    select_dataset.value["train"][select_idx.value]["question"], \
-                    select_dataset.value["train"][select_idx.value]["answer"]
-        good_btn.click(
-            good_click,
-            inputs=[],
-            outputs=[gr_current_idx, gr_question_text_1, gr_answer_text_1, gr_question_text_2, gr_answer_text_2]
-        )
-        def bad_click() -> Tuple[str, str, str, str]:
-            good.value = False
-            bad.value = True
-            select_idx.value += 1
-            gr_question_text_1.value = select_dataset.value["train"][select_idx.value]["question"]
-            return "現在のidx" + str(select_idx.value) + " / " + str(select_dataset_total_len.value), \
-                    select_dataset.value["train"][select_idx.value]["question"], \
-                    select_dataset.value["train"][select_idx.value]["answer"], \
-                    select_dataset.value["train"][select_idx.value]["question"], \
-                    select_dataset.value["train"][select_idx.value]["answer"]
-        bad_btn.click(
-            bad_click,
-            inputs=[],
-            outputs=[gr_current_idx, gr_question_text_1, gr_answer_text_1, gr_question_text_2, gr_answer_text_2]
-        )
-    # tab.selectでのデータ更新がうまくいかず、、、
-    # TODO tab切り替えで、アノテ済みの一覧を表示する
-    # with gr.Tab("アノテ済みデータセット(管理画面)"):
-         # CommitSchedulerに変更したのでJsonファイルを読込
-         # gr.Textbox(target_dataset_name.value, label="出力先データセット名", interactive=False)
-    #     gr_annotation = gr.DataFrame(annotated_dataset.value)
-    #     gr.Button("データを送信する")
-        # タブを切り替えた時にデータ表示を更新する
 if __name__ == "__main__":
     demo.launch()

 import os
 import json
 import datetime
 from pathlib import Path
 import uuid
 from typing import Tuple
 import pandas as pd
 import gradio as gr
+from datasets import load_dataset
 from huggingface_hub import CommitScheduler
+from huggingface_hub import HfFolder
+# HF_Spaceでプライベート関連にアクセスするための環境変数
+# SecretKey をSpaceのSettingsに設定
+HF_TOKEN = os.getenv("HF_TOKEN")
+if HF_TOKEN:
+    HfFolder.save_token(HF_TOKEN)
+else:
+    print("Warning: HF_TOKEN not found. Please set it in your Space secrets.")
+# HFデータセット アップロード先
+# (切替てテストする用に配列)
 output_dataset = [
     "kevineen/test_phase2", # 出力テスト
 ]
+# アノテーション対象データセット
 annotation_dataset_list = [
     "hatakeyama-llm-team/AutoGeneratedJapaneseQA",
     "hatakeyama-llm-team/AutoGeneratedJapaneseQA-other",
     "kanhatakeyama/AutoWikiQA",
     "kanhatakeyama/ChatbotArenaJaMixtral8x22b",
     "kanhatakeyama/OrcaJaMixtral8x22b",
     "kanhatakeyama/LogicalDatasetsByMixtral8x22b",
+    # データ形式未対応（対応予定
+    # "susumuota/SyntheticTextWikiTranslate-askllm-v1", # Ask-LLM
+    # "hatakeyama-llm-team/WikiBookJa", # 良・悪のみ
+    # "kanhatakeyama/AutoMultiTurnByMixtral8x22b", # マルチターン
     ]
+# Spaceの場合の保存先はCommitSchedulerのpath_in_repoフォルダ
+# (ローカル開発の場合./user_annotationフォルダにjsonファイルが作成される)
 annotation_file = Path("user_annotation/") / f"data_{uuid.uuid4()}.json"
 annotated_folder = annotation_file.parent
 scheduler = CommitScheduler(
+                repo_id=output_dataset[0],
                 repo_type="dataset",
                 folder_path=annotated_folder,
+                path_in_repo="data", # Spaceの場合の保存先フォルダー
                 private=True,
+                every=5, # 5分毎にアップロード HuggingFAce_Documentの最低推奨値
                 )
+# CommitScheduler (HFへのデータアップロード
 def save_annotation(
         dataset_name: str,
         dataset_id : int,
             'answer_text_2': [answer_text_2]
         })], ignore_index=True).reset_index(drop=True)
     # 書き込み
     # with scheduler.lock:
     with annotation_file.open("a") as f:
         data_to_write = {
+            # "id": , CommitSchedulerだと取得して末尾idを付与することが無理？
             "datetime": str(datetime.datetime.now().isoformat()),
             "dataset_name": dataset_name,
             "dataset_id": dataset_id,
             "is_proofreading_2": is_proofreading_2,
             "answer_text_2": answer_text_2,
         }
         f.write(json.dumps(data_to_write))
         f.write("\n")
+# Session State : (ブラウザ単位の変数管理) ===========================
 # UIのEnable/Disable用State
 is_selected_dataset = gr.State(False)
 select_dropdown_dataset = gr.State(dropdown_dataset_list.value[0])
 select_dataset = gr.State(None) # 現在のデータセット
 select_dataset_total_len = gr.State(0) # 現在のデータセットの長さ
+select_idx = gr.State(0) # 現在のインデックス # ランダムモードにするなら不要？
 random_mode = gr.State(False)
 # 回答者がアノテーションしたデータセット
 annotated_dataset = gr.State(
     pd.DataFrame({
 initial_answer_text_1 = gr.State("") # 回答1を整形したかチェック用
 initial_answer_text_2 = gr.State("") # 回答2を整形したかチェック用
+is_dataset_loaded = gr.State(False)
 you_dataset_id = gr.State(0) # 回答者がアノテーションしているデータのID
 target_id = gr.State(0) # 出力先のデータセットをチェックし、末尾IDを追加
 dataset_name = gr.State("") # 編集に使用したデータセット名
 is_proofreading_2 = gr.State(False) # 回答2を整形したか_2
 answer_text_2 = gr.State("") # answer_2 回答
 # ユーザー名表示
 def hello(profile: gr.OAuthProfile | None) -> Tuple[str, str]:
     if profile is None:
     who.value = profile.username
     return f'{profile.username} さん、よろしくお願いいたします。', who.value
 # データ読み込み
 # データの保存処理
 # アノテーションの追加処理
+# UI処理 ========================================
+# テーマの状態
+theme_ = gr.themes.Default()
+# 後のCSSデザイン変更用
+def load_css():
+    with open("style.css", "r") as file:
+        css_content = file.read()
+    return css_content
 with gr.Blocks(theme = theme_, css = load_css()) as demo:
             gr_data_load_btn = gr.Button("② データセットを読み込む")
+        # 以下の部分を gr.Column で囲みます
+        with gr.Column() as content_column:
+            with gr.Tab("③ シンプル(良・悪)"):
+                with gr.Column():
+                    with gr.Row(equal_height=True):
+                        good_btn = gr.Button("良い", interactive=False)
+                        bad_btn = gr.Button("悪い", interactive=False)
+                gr_question_text_1 = gr.Textbox(label="質問: ",lines=5, interactive=False)
+                gr_answer_text_1 = gr.Textbox(label="回答: 訂正頂けると品質が上がります。", lines=20,  interactive=True)
+            with gr.Tab("③ ５段階評価"):
+                gr_question_text_2 = gr.Textbox(label="質問: ",lines=5, interactive=False)
+                gr_score_slider = gr.Slider(1, 5,
+                                            label="回答のスコア: 1-5　(1:大変悪い、2:悪い、3:普通、4:良い、5:大変良い)",
+                                            step=1,
+                                            value=score.value,
+                                            interactive=False)
+                gr_score_slider.change(
+                    print("change")
+                )
+                gr_submit_btn = gr.Button("決定", interactive=False)
+                gr_answer_text_2 = gr.Textbox(label="回答: 訂正して頂けると品質が上がります。", lines=20, interactive=True)
             # データセットロード
+            def dataset_load_fn() -> Tuple[str, str, str, str, gr.update, gr.update, gr.update]:
                 select_dataset.value = load_dataset(select_dropdown_dataset.value)
                 select_idx.value = 0
                 select_dataset_total_len.value = select_dataset.value["train"].num_rows
+                is_dataset_loaded.value = True
+                return select_dataset.value["train"][select_idx.value]["question"], \
+                        select_dataset.value["train"][select_idx.value]["answer"], \
                         select_dataset.value["train"][select_idx.value]["question"], \
+                        select_dataset.value["train"][select_idx.value]["answer"], \
+                        gr.update(interactive=True), \
+                        gr.update(interactive=True), \
+                        gr.update(interactive=True), \
+                        gr.update(interactive=True)
+            gr_data_load_btn.click(
+                    dataset_load_fn,
+                    inputs=None,
+                    outputs=[gr_question_text_1,
+                             gr_answer_text_1,
+                             gr_question_text_2,
+                             gr_answer_text_2,
+                             good_btn,
+                             bad_btn,
+                             gr_score_slider,
+                             gr_submit_btn]
+                    )
+            def good_click() -> Tuple[str, str, str, str]:
+                # 値更新
+                good.value = True
+                bad.value = False
+                # 表示更新
+                select_idx.value += 1
+                target_id.value += 1
+                gr_question_text_1.value = select_dataset.value["train"][select_idx.value]["question"]
+                # データセットに追加
+                save_annotation(
+                    select_dropdown_dataset.value,
+                    target_id.value,
+                    who.value,
+                    good.value,
+                    bad.value,
+                    score.value,
+                    is_proofreading_1.value,
+                    answer_text_1.value,
+                    is_proofreading_2.value,
+                    answer_text_2.value
+                )
+                return select_dataset.value["train"][select_idx.value]["question"], \
                         select_dataset.value["train"][select_idx.value]["answer"], \
                         select_dataset.value["train"][select_idx.value]["question"], \
                         select_dataset.value["train"][select_idx.value]["answer"]
+            good_btn.click(
+                good_click,
+                inputs=[],
+                outputs=[gr_question_text_1, gr_answer_text_1, gr_question_text_2, gr_answer_text_2]
             )
+            def bad_click() -> Tuple[str, str, str, str]:
+                good.value = False
+                bad.value = True
+                select_idx.value += 1
+                gr_question_text_1.value = select_dataset.value["train"][select_idx.value]["question"]
+                return select_dataset.value["train"][select_idx.value]["question"], \
+                        select_dataset.value["train"][select_idx.value]["answer"], \
+                        select_dataset.value["train"][select_idx.value]["question"], \
+                        select_dataset.value["train"][select_idx.value]["answer"]
+            bad_btn.click(
+                bad_click,
+                inputs=[],
+                outputs=[gr_question_text_1, gr_answer_text_1, gr_question_text_2, gr_answer_text_2]
             )
+            # TODO tab切り替えで、アノテ済みの一覧を表示する
+            # with gr.Tab("アノテ済みデータセット(管理画面)"):
+                # タブを切り替えた時にデータ表示を更新する
 if __name__ == "__main__":
     demo.launch()

script/custom.js CHANGED Viewed

@@ -1,10 +1 @@
-function blockEnter(event) {
-    document.addEventListener('DOMContentLoaded', (event) => {
-    const textbox = document.getElementById('answer');
-    textbox.addEventListener('keydown', (e) => {
-      if (e.key === 'Enter') {
-        e.preventDefault();
-      }
-    });
-  });
-  }


1	+ // TODO good.badボタンなどをショートカットキー対応させる