target_to_attribution

Sleeping

App Files Files Community

abnerguzman commited on May 11

Commit

6584d90

•

1 Parent(s): d5bada5

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -13

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from datetime import datetime
 from io import StringIO
 import requests
@@ -9,10 +10,10 @@ import time
 import demo as du
-endpoint_url = "https://mldevattrib.poc.prorata.ai/"
-def output_credit_dist(msg, cur_idx, _out_credit, _out_claims):
     print(f'Start output_credit_dist at {datetime.now()}.')
     start_time = time.perf_counter()
     print(f'Target is ```{msg}```')
@@ -21,8 +22,8 @@ def output_credit_dist(msg, cur_idx, _out_credit, _out_claims):
     _out_claims.truncate(0)
     _out_claims.seek(0)
-    print(du.style_str, file=_out_credit)
-    print(du.style_str, file=_out_claims)
     atoms_l, atom_topkmatches_l, credit_l = [], [], []
@@ -37,7 +38,12 @@ def output_credit_dist(msg, cur_idx, _out_credit, _out_claims):
         credit_dist = response['credit_dist']
     if atoms_l:
-        url_to_supporting_cid_ctext_tuples = du.get_url_to_supporting_cid_ctext_tuples(atom_support_l)
         url_to_title = {}
         for atom_topkmatches in atom_topkmatches_l:
             for match in atom_topkmatches:
@@ -59,16 +65,30 @@ def output_credit_dist(msg, cur_idx, _out_credit, _out_claims):
         print(f"<div class=\"doc-title\">No sources were found that strongly support this target.</div>", file=_out_credit)
         print(f"</div>", file=_out_credit)
-    for url, w in credit_l:
-        # match_text = chunk_separator.join([x[1] for x in url_to_supporting_cid_ctext_tuples[url]])
-        match_text = du.format_chunk_texts_for_display(url_to_supporting_cid_ctext_tuples[url])
-        print(f"{url} cids: {[x[0] for x in url_to_supporting_cid_ctext_tuples[url]]}")
         print(f"<div>", file=_out_credit)
         favicon = f"<img src=\"https://www.google.com/s2/favicons?sz=128&amp;domain={urlparse(url).netloc}\"/>"
         print(f"<div class=\"doc-title\">{favicon}&nbsp&nbsp;{url_to_title[url]}<score>{100*w:.0f}%</score></div>", file=_out_credit)
         print(f"<div class=\"doc-url\"><a href=\"{url}\"  target=\"_blank\">{url}</a></div>", file=_out_credit)
-        print(f"<div class=\"doc-text\">{match_text}</div>", file=_out_credit)
         print(f"</div>", file=_out_credit)
     print(f"<div>", file=_out_claims)
@@ -88,7 +108,14 @@ def output_credit_dist(msg, cur_idx, _out_credit, _out_claims):
             print(f"<div class=\"claim-determination\"><strong>Determination:</strong> {'Supported' if aggmatch_determination['true'] else 'NOT supported'}.</div>", file=_out_claims)
             print(f"<div class=\"claim-text\"><strong>Rationale:</strong> {aggmatch_determination['rationale']}</div>", file=_out_claims)
-            for cid, ctext in zip(aggmatch_determination['id_l'], aggmatch_determination['chunk_text_l']):
                 print(f"<div class=\"claim-text\"><strong>Chunk {cid}:</strong> {ctext}</div>", file=_out_claims)
     print(f"</div>", file=_out_claims)
@@ -114,7 +141,7 @@ with gr.Blocks(theme=gr.themes.Default(text_size="lg")) as demo:
     results_box = gr.HTML(label='Matches')
     toggle = gr.Button("")
-    msg.submit(output_credit_dist, [msg, cur_idx_var, _out_credit_var, _out_claims_var], [toggle, results_box], queue=False)
     toggle.click(toggle_output, [cur_idx_var, _out_credit_var, _out_claims_var], [toggle, results_box], queue=False)
     results_box.change(None, scroll_to_output=True)

 import gradio as gr
 from datetime import datetime
+import concurrent.futures
 from io import StringIO
 import requests
 import demo as du
+endpoint_url = "https://d34hcsxnegbpcslxzqsmesvr7m0ljtuz.lambda-url.us-west-2.on.aws/"
+executor = concurrent.futures.ThreadPoolExecutor(max_workers=10)
+def output_credit_dist_nollm(msg, cur_idx, _out_credit, _out_claims):
     print(f'Start output_credit_dist at {datetime.now()}.')
     start_time = time.perf_counter()
     print(f'Target is ```{msg}```')
     _out_claims.truncate(0)
     _out_claims.seek(0)
+    print(du.style2_str, file=_out_credit)
+    print(du.style2_str, file=_out_claims)
     atoms_l, atom_topkmatches_l, credit_l = [], [], []
         credit_dist = response['credit_dist']
     if atoms_l:
+        (
+            url_to_cid_to_ctext_map,
+            url_to_cid_to_ctext_formatted_map,
+            url_to_cid_to_nquotes_map,
+        ) = du.create_url_to_cid_to_ctext_formatted_map(atom_support_l)
         url_to_title = {}
         for atom_topkmatches in atom_topkmatches_l:
             for match in atom_topkmatches:
         print(f"<div class=\"doc-title\">No sources were found that strongly support this target.</div>", file=_out_credit)
         print(f"</div>", file=_out_credit)
+    url_to_body_w_credit = {}
+    futures = []
+    for url, _ in credit_l:
+        futures.append(executor.submit(du.get_article_from_url, url))
+    for f in futures:
+        article = f.result()
+        url_to_body_w_credit[article['url']] = article['text']
+    du.print_w_time_elapsed(f'Got url bodies', start_time)
+    for url, w in credit_l:
+        match_text = du.format_chunk_texts_for_display3(
+            url,
+            url_to_cid_to_ctext_map[url],
+            url_to_cid_to_ctext_formatted_map[url],
+            url_to_cid_to_nquotes_map[url],
+        )
         print(f"<div>", file=_out_credit)
         favicon = f"<img src=\"https://www.google.com/s2/favicons?sz=128&amp;domain={urlparse(url).netloc}\"/>"
         print(f"<div class=\"doc-title\">{favicon}&nbsp&nbsp;{url_to_title[url]}<score>{100*w:.0f}%</score></div>", file=_out_credit)
         print(f"<div class=\"doc-url\"><a href=\"{url}\"  target=\"_blank\">{url}</a></div>", file=_out_credit)
+        print(f"<div class=\"doc-text-wrapper\">", file=_out_credit)
+        print(f"<div class=\"doc-text-left\">{url_to_body_w_credit[url]}</div>", file=_out_credit)
+        print(f"<div class=\"doc-text-right\">{match_text}</div>", file=_out_credit)
+        print(f"</div>", file=_out_credit)
         print(f"</div>", file=_out_credit)
     print(f"<div>", file=_out_claims)
             print(f"<div class=\"claim-determination\"><strong>Determination:</strong> {'Supported' if aggmatch_determination['true'] else 'NOT supported'}.</div>", file=_out_claims)
             print(f"<div class=\"claim-text\"><strong>Rationale:</strong> {aggmatch_determination['rationale']}</div>", file=_out_claims)
+            # if aggmatch_determination.get('quote_matches_l', None):
+            #     for qid, qtext in enumerate(aggmatch_determination['quote_matches_l']):
+            #         print(f"<div class=\"claim-text\"><strong>Quote {qid}:</strong> {qtext}</div>", file=_out_claims)
+            use_formatted = 'chunk_text_formatted_l' in aggmatch_determination and aggmatch_determination['chunk_text_formatted_l']
+            chunk_text_l_key = 'chunk_text_formatted_l' if use_formatted else 'chunk_text_l'
+            for cid, ctext in zip(aggmatch_determination['id_l'], aggmatch_determination[chunk_text_l_key]):
                 print(f"<div class=\"claim-text\"><strong>Chunk {cid}:</strong> {ctext}</div>", file=_out_claims)
     print(f"</div>", file=_out_claims)
     results_box = gr.HTML(label='Matches')
     toggle = gr.Button("")
+    msg.submit(output_credit_dist_nollm, [msg, cur_idx_var, _out_credit_var, _out_claims_var], [toggle, results_box], queue=False)
     toggle.click(toggle_output, [cur_idx_var, _out_credit_var, _out_claims_var], [toggle, results_box], queue=False)
     results_box.change(None, scroll_to_output=True)