Spaces:

RamAnanth1
/

REaLTabFormer

Runtime error

App Files Files Community

RamAnanth1 commited on Feb 16, 2023

Commit

8eae5c4

•

1 Parent(s): 0401543

Update app.py

Browse files

Files changed (1) hide show

app.py +53 -57

app.py CHANGED Viewed

@@ -22,53 +22,53 @@ def generate_data(file, num_samples):
     return samples
-# def generate_relational_data(parent_file, child_file, join_on):
-#     parent_df = pd.read_csv(parent_file.name)
-#     child_df = pd.read_csv(child_file.name)
-#     #Make sure join_on column exists in both
-#     assert ((join_on in parent_df.columns) and
-#         (join_on in child_df.columns))
-#     rtf_model.fit(parent_df.drop(join_on, axis=1), num_bootstrap=100)
-#     pdir = Path("rtf_parent/")
-#     rtf_model.save(pdir)
-#     # # Get the most recently saved parent model,
-#     # # or a specify some other saved model.
-#     # parent_model_path = pdir / "idXXX"
-#     parent_model_path = sorted([
-#         p for p in pdir.glob("id*") if p.is_dir()],
-#         key=os.path.getmtime)[-1]
-#     child_model = REaLTabFormer(
-#     model_type="relational",
-#     parent_realtabformer_path=parent_model_path,
-#     epochs = 25,
-#     output_max_length=None,
-#     train_size=0.8)
-#     child_model.fit(
-#     df=child_df,
-#     in_df=parent_df,
-#     join_on=join_on,
-#     num_bootstrap=10)
-#     # Generate parent samples.
-#     parent_samples = rtf_model.sample(5)
-#     # Create the unique ids based on the index.
-#     parent_samples.index.name = join_on
-#     parent_samples = parent_samples.reset_index()
-#     # Generate the relational observations.
-#     child_samples = child_model.sample(
-#         input_unique_ids=parent_samples[join_on],
-#         input_df=parent_samples.drop(join_on, axis=1),
-#         gen_batch=5)
-#     return parent_samples, child_samples, gr.update(visible = True)
@@ -162,22 +162,18 @@ with gr.Blocks(css = css) as demo:
               ''')
     with gr.Column():
-            #gr.Markdown(""" ### Record audio """)
-        # with gr.Tab("Record Audio"):
-        #     audio_input_r = gr.Audio(label = 'Record Audio Input',source="microphone",type="filepath")
-        #     transcribe_audio_r = gr.Button('Transcribe')
         with gr.Tab("Upload Data as File: Tabular Data"):
             data_input_u = gr.File(label = 'Upload Data File (Currently supports CSV and ARFF)', file_types=[".csv", ".arff"])
             num_samples = gr.Slider(label="Number of Samples", minimum=5, maximum=100, value=5, step=10)
             generate_data_btn = gr.Button('Generate Synthetic Data')
-        # with gr.Tab("Upload Data as File: Relational Data"):
-        #     data_input_parent = gr.File(label = 'Upload Data File for Parent Dataset', file_types=[ ".csv"])
-        #     data_input_child = gr.File(label = 'Upload Data File for Child Dataset', file_types=[ ".csv"])
-        #     join_on = gr.Textbox(label = 'Column name to join on')
-        #     generate_data_btn_relational = gr.Button('Generate Synthetic Data')
         with gr.Row():
             #data_sample = gr.Dataframe(label = "Original Data")
@@ -187,7 +183,7 @@ with gr.Blocks(css = css) as demo:
     generate_data_btn.click(generate_data, inputs = [data_input_u,num_samples], outputs = [data_output])
-    #generate_data_btn_relational.click(generate_relational_data, inputs = [data_input_parent,data_input_child,join_on], outputs = [data_output, data_output_child])
     examples = gr.Examples(examples=[['diabetes.arff',5], ["titanic.csv", 15]],inputs = [data_input_u,num_samples], outputs = [data_output], cache_examples = True, fn = generate_data)

     return samples
+def generate_relational_data(parent_file, child_file, join_on):
+    parent_df = pd.read_csv(parent_file.name)
+    child_df = pd.read_csv(child_file.name)
+    #Make sure join_on column exists in both
+    assert ((join_on in parent_df.columns) and
+        (join_on in child_df.columns))
+    rtf_model.fit(parent_df.drop(join_on, axis=1), num_bootstrap=100)
+    pdir = Path("rtf_parent/")
+    rtf_model.save(pdir)
+    # # Get the most recently saved parent model,
+    # # or a specify some other saved model.
+    # parent_model_path = pdir / "idXXX"
+    parent_model_path = sorted([
+        p for p in pdir.glob("id*") if p.is_dir()],
+        key=os.path.getmtime)[-1]
+    child_model = REaLTabFormer(
+    model_type="relational",
+    parent_realtabformer_path=parent_model_path,
+    epochs = 25,
+    output_max_length=None,
+    train_size=0.8)
+    child_model.fit(
+    df=child_df,
+    in_df=parent_df,
+    join_on=join_on,
+    num_bootstrap=10)
+    # Generate parent samples.
+    parent_samples = rtf_model.sample(5)
+    # Create the unique ids based on the index.
+    parent_samples.index.name = join_on
+    parent_samples = parent_samples.reset_index()
+    # Generate the relational observations.
+    child_samples = child_model.sample(
+        input_unique_ids=parent_samples[join_on],
+        input_df=parent_samples.drop(join_on, axis=1),
+        gen_batch=5)
+    return parent_samples, child_samples, gr.update(visible = True)
               ''')
     with gr.Column():
         with gr.Tab("Upload Data as File: Tabular Data"):
             data_input_u = gr.File(label = 'Upload Data File (Currently supports CSV and ARFF)', file_types=[".csv", ".arff"])
             num_samples = gr.Slider(label="Number of Samples", minimum=5, maximum=100, value=5, step=10)
             generate_data_btn = gr.Button('Generate Synthetic Data')
+        with gr.Tab("Upload Data as File: Relational Data"):
+            data_input_parent = gr.File(label = 'Upload Data File for Parent Dataset', file_types=[ ".csv"])
+            data_input_child = gr.File(label = 'Upload Data File for Child Dataset', file_types=[ ".csv"])
+            join_on = gr.Textbox(label = 'Column name to join on')
+            generate_data_btn_relational = gr.Button('Generate Synthetic Data')
         with gr.Row():
             #data_sample = gr.Dataframe(label = "Original Data")
     generate_data_btn.click(generate_data, inputs = [data_input_u,num_samples], outputs = [data_output])
+    generate_data_btn_relational.click(generate_relational_data, inputs = [data_input_parent,data_input_child,join_on], outputs = [data_output, data_output_child])
     examples = gr.Examples(examples=[['diabetes.arff',5], ["titanic.csv", 15]],inputs = [data_input_u,num_samples], outputs = [data_output], cache_examples = True, fn = generate_data)