Spaces:

erikjm
/

interface_quantity

Sleeping

App Files Files Community

erikjm commited on Mar 31, 2024

Commit

ac913dc

verified ·

1 Parent(s): e709f31

Upload 2 files

Browse files

Files changed (2) hide show

app.py +36 -24
interface_utils.py +18 -11

app.py CHANGED Viewed

@@ -10,14 +10,16 @@ checkbox_choices = [
     ["Yes", "No", "NA"]
 ]
-conversation_data = load_from_jsonl('./unlabeled/conversations_unlabeled.jsonl')
-max_conversation_length = max([len(conversation['transcript']) for conversation in conversation_data])
-conversation = get_conversation(conversation_data)
-def save_labels(conv_id, skipped, submaxim_0=None, submaxim_1=None):
     data = {
         'conv_id': conv_id,
         'maxim': maxim,
         'skipped': skipped,
         'submaxim_0': submaxim_0,
@@ -25,19 +27,21 @@ def save_labels(conv_id, skipped, submaxim_0=None, submaxim_1=None):
     }
     os.makedirs("./labels", exist_ok=True)
-    with open(f"./labels/{maxim}_human_labels_{conv_id}.json", 'w') as f:
         json.dump(data, f, indent=4)
 def update_interface(new_conversation):
     new_conv_id = new_conversation['conv_id']
-    new_transcript = pad_transcript(new_conversation['transcript'], max_conversation_length)
     markdown_blocks = [None] * max_conversation_length
     for i in range(max_conversation_length):
-        if new_transcript[i]['speaker'] != '':
-            markdown_blocks[i] = gr.Markdown(f"""&nbsp;&nbsp;**{new_transcript[i]['speaker']}**: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;{new_transcript[i]['response']}""",
-                                             visible=True)
         else:
             markdown_blocks[i] = gr.Markdown("", visible=False)
@@ -58,33 +62,35 @@ def update_interface(new_conversation):
                                 visible=True)
     conv_len = gr.Number(value=len(new_transcript), visible=False)
-    return [new_conv_id] + list(markdown_blocks) + [new_last_response] + [new_radio_0_base] + [new_radio_1_base] + [conv_len]
 def submit(*args):
     conv_id = args[0]
     submaxim_0 = args[-3]
     submaxim_1 = args[-2]
-    save_labels(conv_id, skipped=False, submaxim_0=submaxim_0, submaxim_1=submaxim_1)
-    new_conversation = get_conversation(conversation_data)
     return update_interface(new_conversation)
 def skip(*args):
     conv_id = args[0]
-    save_labels(conv_id, skipped=True)
-    new_conversation = get_conversation(conversation_data)
-    return update_interface(new_conversation)
 with gr.Blocks(theme=gr.themes.Default()) as interface:
     conv_id = conversation['conv_id']
     transcript = conversation['transcript']
     conv_len = gr.Number(value=len(transcript), visible=False)
-    padded_transcript = pad_transcript(transcript, max_conversation_length)
     markdown_blocks = [None] * max_conversation_length
     with gr.Column(scale=1, min_width=600):
@@ -92,7 +98,11 @@ with gr.Blocks(theme=gr.themes.Default()) as interface:
             gr.Markdown("""<span style='font-size: 16px;'>&nbsp;&nbsp;&nbsp;&nbsp;**Conversational context** </span>""",
                         visible=True)
         for i in range(max_conversation_length):
-            markdown_blocks[i] = gr.Markdown(f"""&nbsp;&nbsp;**{padded_transcript[i]['speaker']}**: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;{padded_transcript[i]['response']}""")
             if i >= conv_len.value:
                 markdown_blocks[i].visible = False
@@ -121,7 +131,9 @@ with gr.Blocks(theme=gr.themes.Default()) as interface:
     skip_button = gr.Button("Skip")
     conv_id_element = gr.Text(value=conv_id, visible=False)
     input_list = [conv_id_element] + \
                  markdown_blocks + \
                  [last_response] + \
                  [radio_submaxim_0_base] + \
@@ -131,6 +143,7 @@ with gr.Blocks(theme=gr.themes.Default()) as interface:
         fn=submit,
         inputs=input_list,
         outputs=[conv_id_element,
                  *markdown_blocks,
                  last_response,
                  radio_submaxim_0_base,
@@ -141,6 +154,7 @@ with gr.Blocks(theme=gr.themes.Default()) as interface:
         fn=skip,
         inputs=input_list,
         outputs=[conv_id_element,
                  *markdown_blocks,
                  last_response,
                  radio_submaxim_0_base,
@@ -150,17 +164,15 @@ with gr.Blocks(theme=gr.themes.Default()) as interface:
 css = """
 #textbox_id textarea {
-    background-color: white;
 }
 .bottom-aligned-group {
-    display: flex;
-    flex-direction: column;
-    justify-content: flex-end;
-    height: 100%;
 }
 """
 interface.css = css
 interface.launch()

     ["Yes", "No", "NA"]
 ]
+conversation_data = load_from_jsonl('./data/conversations_unlabeled_sliced.jsonl')
+max_conversation_length = max([len(conversation['transcript']) for conversation in conversation_data_sliced])
+conversation = get_conversation(conversation_data_sliced)
+def save_labels(conv_id, slice_idx, skipped, submaxim_0=None, submaxim_1=None):
     data = {
         'conv_id': conv_id,
+        'slice_idx': int(slice_idx),
         'maxim': maxim,
         'skipped': skipped,
         'submaxim_0': submaxim_0,
     }
     os.makedirs("./labels", exist_ok=True)
+    with open(f"./labels/{maxim}_human_labels_{conv_id}_{slice_idx}.json", 'w') as f:
         json.dump(data, f, indent=4)
 def update_interface(new_conversation):
     new_conv_id = new_conversation['conv_id']
+    new_slice_idx = new_conversation['slice_idx']
+    new_transcript = new_conversation['transcript']
     markdown_blocks = [None] * max_conversation_length
     for i in range(max_conversation_length):
+        if i < len(new_transcript) and new_transcript[i]['speaker'] != '':
+            markdown_blocks[i] = gr.Markdown(
+                f"""&nbsp;&nbsp;**{new_transcript[i]['speaker']}**: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;{new_transcript[i]['response']}""",
+                visible=True)
         else:
             markdown_blocks[i] = gr.Markdown("", visible=False)
                                 visible=True)
     conv_len = gr.Number(value=len(new_transcript), visible=False)
+    return [new_conv_id] + [new_slice_idx] + list(markdown_blocks) + [new_last_response] + [new_radio_0_base] + [new_radio_1_base] + [conv_len]
 def submit(*args):
     conv_id = args[0]
+    slice_idx = args[1]
     submaxim_0 = args[-3]
     submaxim_1 = args[-2]
+    save_labels(conv_id, slice_idx, skipped=False, submaxim_0=submaxim_0, submaxim_1=submaxim_1)
+    new_conversation = get_conversation(conversation_data_sliced)
     return update_interface(new_conversation)
 def skip(*args):
     conv_id = args[0]
+    slice_idx = args[1]
+    save_labels(conv_id, slice_idx, skipped=True)
+    new_conversation = get_conversation(conversation_data_sliced)
+    return update_interface(new_conversation, slice_idx)
 with gr.Blocks(theme=gr.themes.Default()) as interface:
     conv_id = conversation['conv_id']
+    slice_idx = conversation['slice_idx']
     transcript = conversation['transcript']
     conv_len = gr.Number(value=len(transcript), visible=False)
     markdown_blocks = [None] * max_conversation_length
     with gr.Column(scale=1, min_width=600):
             gr.Markdown("""<span style='font-size: 16px;'>&nbsp;&nbsp;&nbsp;&nbsp;**Conversational context** </span>""",
                         visible=True)
         for i in range(max_conversation_length):
+            if i < len(transcript):
+                markdown_blocks[i] = gr.Markdown(
+                    f"""&nbsp;&nbsp;**{transcript[i]['speaker']}**: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;{transcript[i]['response']}""")
+            else:
+                markdown_blocks[i] = gr.Markdown("")
             if i >= conv_len.value:
                 markdown_blocks[i].visible = False
     skip_button = gr.Button("Skip")
     conv_id_element = gr.Text(value=conv_id, visible=False)
+    slice_idx_element = gr.Text(value=slice_idx, visible=False)
     input_list = [conv_id_element] + \
+                 [slice_idx_element] + \
                  markdown_blocks + \
                  [last_response] + \
                  [radio_submaxim_0_base] + \
         fn=submit,
         inputs=input_list,
         outputs=[conv_id_element,
+                 slice_idx_element,
                  *markdown_blocks,
                  last_response,
                  radio_submaxim_0_base,
         fn=skip,
         inputs=input_list,
         outputs=[conv_id_element,
+                 slice_idx_element,
                  *markdown_blocks,
                  last_response,
                  radio_submaxim_0_base,
 css = """
 #textbox_id textarea {
+   background-color: white;
 }
 .bottom-aligned-group {
+   display: flex;
+   flex-direction: column;
+   justify-content: flex-end;
+   height: 100%;
 }
 """
 interface.css = css
 interface.launch()

interface_utils.py CHANGED Viewed

@@ -31,17 +31,24 @@ def save_to_jsonl(data, filename):
             file.write(json_line + '\n')
-def get_conversation(conversation_data):
-    conv = random.choice(conversation_data)
-    return conv
-def pad_transcript(transcript, max_length):
-    padding_count = max_length - len(transcript)
-    if padding_count > 0:
-        for _ in range(padding_count):
-            transcript.append({'speaker': '', 'response': ''})
-    return transcript
 def get_last_response(transcript):

             file.write(json_line + '\n')
+def get_conversation(data, min_length=0):
+    conv = random.choice(data)
+    transcript = conv['transcript']
+    slice_index = random.randint(min_length, len(transcript) - 1)
+    conv_slice = transcript[slice_index]
+    return {
+        'conv_id': conv['conv_id'],
+        'slice_idx': slice_index,
+        'transcript': conv_slice
+    }
+# def pad_transcript(transcript, max_length):
+#     padding_count = max_length - len(transcript)
+#     if padding_count > 0:
+#         for _ in range(padding_count):
+#             transcript.append({'speaker': '', 'response': ''})
+#     return transcript
 def get_last_response(transcript):