Spaces:

ESG-TFM-UV
/

ESG_API_BATCH

Build error

App Files Files Community

rdose commited on Sep 12, 2022

Commit

52cbc64

•

1 Parent(s): 3994894

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -8

app.py CHANGED Viewed

@@ -110,13 +110,28 @@ def _inference_classifier(text):
     return sigmoid(ort_outs[0])
-def inference(input_batch,isurl,use_archive,limit_companies=10):
     input_batch_content = []
-    print("->Input size:",len(input_batch))
-    print("+",input_batch)
     if isurl:
-        for row_in in input_batch:
-            url = row_in[0]
             if use_archive:
                 archive = is_in_archive(url)
                 if archive['archived']:
@@ -125,8 +140,12 @@ def inference(input_batch,isurl,use_archive,limit_companies=10):
             extracted = Extractor().extract(requests.get(url).text)
             input_batch_content.append(extracted['content'])
     else:
-        for row_in in input_batch:
-            input_batch_content.append(row_in[0])
     print("->Batch size:",len(input_batch_content))
     print("+",input_batch_content)
@@ -162,7 +181,9 @@ examples = [[[['https://www.bbc.com/news/uk-62732447'],
             ['https://www.bbc.com/news/business-62728621'],
             ['https://www.bbc.com/news/science-environment-62680423']],'url',False,5]]
 demo = gr.Interface(fn=inference,
-                    inputs=[gr.Dataframe(label='input batch', col_count=1, datatype='str', type='array', wrap=True),
                             gr.Dropdown(label='data type', choices=['text','url'], type='index', value='url'),
                             gr.Checkbox(label='if url parse cached in archive.org'),
                             gr.Slider(minimum=1, maximum=10, step=1, label='Limit NER output', value=5)],

     return sigmoid(ort_outs[0])
+def inference(file_in,file_col_name,input_batch,isurl,use_archive,limit_companies=10):
     input_batch_content = []
+    if file_in is not None:
+        dft = pd.read_csv(
+                file_in,
+                compression=dict(method='zip')
+              )
+        assert file_col_name in dft.columns, "Indicated col_name not found in file"
+        input_batch_r = dft[file_col_name].values.tolist()
+    else:
+        assert len(input_batch) > 0, "input_batch array is empty"
+        input_batch_r = input_batch
+    print("->Input size:",len(input_batch_r))
+    print("+",input_batch_r)
     if isurl:
+        for row_in in input_batch_r:
+            if isinstance(row_in , list):
+                url = row_in[0]
+            else:
+                url = row_in
             if use_archive:
                 archive = is_in_archive(url)
                 if archive['archived']:
             extracted = Extractor().extract(requests.get(url).text)
             input_batch_content.append(extracted['content'])
     else:
+        if isinstance(input_batch_r[0], list):
+            for row_in in input_batch_r:
+                input_batch_content.append(row_in[0])
+        else:
+            input_batch_content = input_batch_r
     print("->Batch size:",len(input_batch_content))
     print("+",input_batch_content)
             ['https://www.bbc.com/news/business-62728621'],
             ['https://www.bbc.com/news/science-environment-62680423']],'url',False,5]]
 demo = gr.Interface(fn=inference,
+                    inputs=[gr.File(label='zipped csv file'),
+                            gr.Textbox(label='If csv, column header name that contains the relevant data:'),
+                            gr.Dataframe(label='input batch', col_count=1, datatype='str', type='array', wrap=True),
                             gr.Dropdown(label='data type', choices=['text','url'], type='index', value='url'),
                             gr.Checkbox(label='if url parse cached in archive.org'),
                             gr.Slider(minimum=1, maximum=10, step=1, label='Limit NER output', value=5)],