Spaces:

ImagingDataCommons
/

CloudSegmentatorResults

Sleeping

App Files Files Community

Vamsi Thiriveedhi commited on Jun 17

Commit

cfdbb51

•

1 Parent(s): caced37

enh: provide ohif links with series uids, download with seg uuids

Browse files

Files changed (2) hide show

Dockerfile +3 -0
filter_data_app.py +44 -5

Dockerfile CHANGED Viewed

@@ -23,6 +23,9 @@ COPY --chown=user . $HOME/app
 # Download the parquet file from github
 RUN wget https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/qual_checks_and_quantitative_measurements.parquet
 # Install any needed packages specified in requirements.txt
 RUN pip install --no-cache-dir -r requirements.txt

 # Download the parquet file from github
 RUN wget https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/qual_checks_and_quantitative_measurements.parquet
+# Download the mapping parquet file from github
+RUN wget https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/ct-seg-sr-map-with-series-uids-gcs-aws-ulrs.parquet
 # Install any needed packages specified in requirements.txt
 RUN pip install --no-cache-dir -r requirements.txt

filter_data_app.py CHANGED Viewed

@@ -15,11 +15,15 @@ st.set_page_config(layout="wide")
 # Local path to the Parquet file
 LOCAL_PARQUET_FILE = 'qual_checks_and_quantitative_measurements.parquet'
 @st.cache_data
 def load_data(radiomics_feature='Volume from Voxel Summation'):
     cols = [
         'PatientID',
         'StudyInstanceUID',
         'SeriesNumber',
         'bodyPart',
         'laterality',
@@ -36,8 +40,13 @@ def load_data(radiomics_feature='Volume from Voxel Summation'):
     #         pl.col('connected_volumes').cast(pl.Int32, strict=False)
     #     ).alias('connected_volumes')
     # ])
-    return df
 # Function to filter data based on user input
 def filter_data(df, filters,radiomics_feature):
@@ -190,7 +199,7 @@ def main():
                 on_change=lambda: apply_filter('radiomics_feature', st.session_state.radiomics_feature)
             )
             filters['radiomics_feature'] = radiomics_feature
-            df = load_data(radiomics_feature=radiomics_feature)
             # Body part filter
@@ -303,8 +312,15 @@ def main():
         end_idx = min(start_idx + page_size, len(filtered_df))  # Ensure end_idx does not go beyond the dataframe length
         paginated_df = filtered_df[start_idx:end_idx].to_pandas()  # Convert to Pandas DataFrame
         paginated_df = paginated_df.rename(columns={"connected_volumes": "connected_components"})
-        paginated_df['Viewer Url'] = 'https://viewer.imaging.datacommons.cancer.gov/v3/viewer/?StudyInstanceUIDs='+paginated_df['StudyInstanceUID']
         # Display the paginated dataframe
         st.header("Filtered Data")
         st.write("Number of Rows:", len(filtered_df))
@@ -313,7 +329,7 @@ def main():
             paginated_df,
             column_config={
                 "Viewer Url":st.column_config.LinkColumn("StudyInstanceUID",
-                              display_text=r"https:\/\/viewer\.imaging\.datacommons\.cancer\.gov\/v3\/viewer\/\?StudyInstanceUIDs=(.*)"
                               ),
             },
@@ -367,6 +383,29 @@ def main():
             create_upset_plot_passes(filtered_df)
         def convert_df(df):
                 return df.write_csv()
         csv= convert_df(filtered_df)

 # Local path to the Parquet file
 LOCAL_PARQUET_FILE = 'qual_checks_and_quantitative_measurements.parquet'
+CT_SEG_SR_MAPPING_FILE = 'ct-seg-sr-map-with-series-uids-gcs-aws-ulrs.parquet'
 @st.cache_data
 def load_data(radiomics_feature='Volume from Voxel Summation'):
     cols = [
         'PatientID',
         'StudyInstanceUID',
+        'CT_SeriesInstanceUID',
         'SeriesNumber',
         'bodyPart',
         'laterality',
     #         pl.col('connected_volumes').cast(pl.Int32, strict=False)
     #     ).alias('connected_volumes')
     # ])
+    map_cols = [
+        'seg_seriesInstanceUID',
+        'Referenced_CT_SeriesInstanceUID',
+    ]
+    map_df = pl.read_parquet(CT_SEG_SR_MAPPING_FILE, columns=map_cols)
+    return df, map_df
 # Function to filter data based on user input
 def filter_data(df, filters,radiomics_feature):
                 on_change=lambda: apply_filter('radiomics_feature', st.session_state.radiomics_feature)
             )
             filters['radiomics_feature'] = radiomics_feature
+            df,map_df = load_data(radiomics_feature=radiomics_feature)
             # Body part filter
         end_idx = min(start_idx + page_size, len(filtered_df))  # Ensure end_idx does not go beyond the dataframe length
         paginated_df = filtered_df[start_idx:end_idx].to_pandas()  # Convert to Pandas DataFrame
         paginated_df = paginated_df.rename(columns={"connected_volumes": "connected_components"})
+        sql='''
+            SELECT
+                DISTINCT *
+            FROM
+                paginated_df pdf
+            JOIN map_df mdf on pdf.CT_SeriesInstanceUID =  mdf.Referenced_CT_SeriesInstanceUID
+        '''
+        paginated_df = duckdb.sql(sql).df()
+        paginated_df['Viewer Url'] = 'https://viewer.imaging.datacommons.cancer.gov/v3/viewer/?StudyInstanceUIDs='+paginated_df['StudyInstanceUID']+'&SeriesInstanceUIDs='+paginated_df['CT_SeriesInstanceUID']+','+paginated_df['seg_seriesInstanceUID']
         # Display the paginated dataframe
         st.header("Filtered Data")
         st.write("Number of Rows:", len(filtered_df))
             paginated_df,
             column_config={
                 "Viewer Url":st.column_config.LinkColumn("StudyInstanceUID",
+                              display_text=r"https:\/\/viewer\.imaging\.datacommons\.cancer\.gov\/v3\/viewer\/\?\StudyInstanceUIDs=(.*)&"
                               ),
             },
             create_upset_plot_passes(filtered_df)
         def convert_df(df):
+                sql=f'''
+                SELECT
+                    DISTINCT
+                PatientID,
+                StudyInstanceUID,
+                CT_SeriesInstanceUID,
+                SEG_seriesInstanceUID,
+                SeriesNumber,
+                bodyPart,
+                laterality,
+                segmentation_completeness,
+                laterality_check,
+                volume_from_voxel_summation_check,
+                connected_volumes,
+                voxel_num,
+                "{radiomics_feature}"
+                FROM
+                    filtered_df
+                JOIN
+                    map_df on filtered_df.CT_SeriesInstanceUID= map_df.Referenced_CT_SeriesInstanceUId
+                '''
+                df= duckdb.sql(sql).pl()
                 return df.write_csv()
         csv= convert_df(filtered_df)