Spaces:

gagan3012
/

summarization

Runtime error

App Files Files Community

Dean commited on Aug 5, 2021

Commit

ec2a2c2

1 Parent(s): d5a6d18

fix visualization stage.

Browse files

HF upload not tested in current version

Files changed (12) hide show

Makefile +3 -3
data_params.yml +1 -1
dvc.lock +57 -46
dvc.yaml +0 -3
reports/evaluation_metrics.csv +36 -4
reports/training_metrics.csv +8 -10
src/__init__.py +0 -12
src/data/__init__.py +0 -0
src/models/__init__.py +0 -4
src/models/predict_model.py +1 -1
src/visualization/__init__.py +0 -0
src/visualization/visualize.py +1 -4

Makefile CHANGED Viewed

@@ -48,15 +48,15 @@ pull:
 ## run the DVC pipeline - recompute any modified outputs such as processed data or trained models
 run:
-	dvc repro dvc.yaml eval
 ## run the visualization using Streamlit
 visualize:
-	dvc repro dvc.yaml visualize
 ## push the trained model to HF model hub
 push_to_hf_hub:
-	dvc repro dvc.yaml push_to_hf_hub
 #################################################################################
 # PROJECT RULES                                                                 #

 ## run the DVC pipeline - recompute any modified outputs such as processed data or trained models
 run:
+	dvc repro eval
 ## run the visualization using Streamlit
 visualize:
+	dvc repro visualize
 ## push the trained model to HF model hub
 push_to_hf_hub:
+	dvc repro push_to_hf_hub
 #################################################################################
 # PROJECT RULES                                                                 #

data_params.yml CHANGED Viewed

	@@ -1,2 +1,2 @@
1	data: cnn_dailymail
2	- split: 0.01


1	data: cnn_dailymail
2	+ split: 0.001

dvc.lock CHANGED Viewed

@@ -4,48 +4,45 @@ stages:
     cmd: python src/models/train_model.py
     deps:
     - path: data/processed/train.csv
-      md5: 51edd724b75a8e99a78b9138f8f37c60
-      size: 25012573
     - path: data/processed/validation.csv
-      md5: 0900e2bb330df94cb045faddd0b945d1
-      size: 1138285
-    - path: params.yml
-      md5: 200ce3c4d9f2e8b9eb040ef93eb22757
-      size: 189
     - path: src/models/train_model.py
-      md5: d57b5ff84bc29a8ea75e191027d70148
-      size: 988
     outs:
     - path: models
-      md5: ff6de43e1d1f4d7c3d0bb3b551c1085f.dir
-      size: 486952666
-      nfiles: 10
     - path: reports/training_metrics.csv
-      md5: 62f71f6ba5390e07bc70e90ac3f1f0e8
-      size: 727
-    - path: reports/training_params.yml
-      md5: 075736962fab2a5e5b3ff189c13e101b
-      size: 16
   eval:
     cmd: python src/models/evaluate_model.py
     deps:
     - path: data/processed/test.csv
-      md5: 3cb7b63891f12d53b3ef3e81a2e93f8e
-      size: 986944
     - path: models
-      md5: ff6de43e1d1f4d7c3d0bb3b551c1085f.dir
-      size: 486952666
-      nfiles: 10
-    - path: params.yml
-      md5: 200ce3c4d9f2e8b9eb040ef93eb22757
-      size: 189
     - path: src/models/evaluate_model.py
-      md5: 55d3aac9c8f024f7d2eb8ad5e0ae87ae
-      size: 688
     outs:
-    - path: reports/metrics.csv
-      md5: e618e8c26e0def4e33abcad08ac35ac9
-      size: 1690
   process_data:
     cmd: python src/data/process_data.py
     deps:
@@ -53,33 +50,47 @@ stages:
       md5: 2ab20ac1b58df875a590b07d0e04eb5b.dir
       size: 1358833013
       nfiles: 3
-    - path: params.yml
-      md5: 160cbfd0ed8f87c9c5cb28fbeef1072d
-      size: 266
     - path: src/data/process_data.py
-      md5: 5b6aaadc5a628979956d502b4fb4ebf2
-      size: 516
     outs:
     - path: data/processed/test.csv
-      md5: 5f2bfb37d55a13ead3c81564dbee2fd5
-      size: 508508
     - path: data/processed/train.csv
-      md5: 707c5ed455a15ec48965daf92fed7df6
-      size: 12653913
     - path: data/processed/validation.csv
-      md5: 1e021dc163cc87a32cef74a98e4a0d51
-      size: 558403
   download_data:
     cmd: python src/data/make_dataset.py
     deps:
-    - path: params.yml
-      md5: 160cbfd0ed8f87c9c5cb28fbeef1072d
-      size: 266
     - path: src/data/make_dataset.py
-      md5: 075c6233f8732eedf7915732f9a8ebfd
-      size: 771
     outs:
     - path: data/raw
       md5: 2ab20ac1b58df875a590b07d0e04eb5b.dir
       size: 1358833013
       nfiles: 3

     cmd: python src/models/train_model.py
     deps:
     - path: data/processed/train.csv
+      md5: 5331b9c32b2d097d8d7aca01de5524bc
+      size: 1198262
     - path: data/processed/validation.csv
+      md5: 6069153a075b00dfb6d9e0843dd2da89
+      size: 52739
+    - path: model_params.yml
+      md5: 9fcf006ee30f2b751078598a3fba9bb5
+      size: 235
     - path: src/models/train_model.py
+      md5: f7d1121426c3d5530c2b9697cb7ac74a
+      size: 951
     outs:
     - path: models
+      md5: fc37870a93db61b94af9f0847577f09b.dir
+      size: 243476333
+      nfiles: 5
     - path: reports/training_metrics.csv
+      md5: 0b6c1518aed802bea976e883caac2a90
+      size: 320
   eval:
     cmd: python src/models/evaluate_model.py
     deps:
     - path: data/processed/test.csv
+      md5: 3eec94ac211c76363a3d968663b82d02
+      size: 39574
+    - path: model_params.yml
+      md5: 9fcf006ee30f2b751078598a3fba9bb5
+      size: 235
     - path: models
+      md5: fc37870a93db61b94af9f0847577f09b.dir
+      size: 243476333
+      nfiles: 5
     - path: src/models/evaluate_model.py
+      md5: 89edb77aaab3055605ae6db2e21eab82
+      size: 705
     outs:
+    - path: reports/evaluation_metrics.csv
+      md5: a5fa12e6df10884217614c007d146a26
+      size: 2122
   process_data:
     cmd: python src/data/process_data.py
     deps:
       md5: 2ab20ac1b58df875a590b07d0e04eb5b.dir
       size: 1358833013
       nfiles: 3
+    - path: data_params.yml
+      md5: a68eabf79c3b3e28afb05baa1944bbc7
+      size: 32
     - path: src/data/process_data.py
+      md5: 68db554a69a0c8ce807907afa2be5e9c
+      size: 521
     outs:
     - path: data/processed/test.csv
+      md5: 3eec94ac211c76363a3d968663b82d02
+      size: 39574
     - path: data/processed/train.csv
+      md5: 5331b9c32b2d097d8d7aca01de5524bc
+      size: 1198262
     - path: data/processed/validation.csv
+      md5: 6069153a075b00dfb6d9e0843dd2da89
+      size: 52739
   download_data:
     cmd: python src/data/make_dataset.py
     deps:
+    - path: data_params.yml
+      md5: a68eabf79c3b3e28afb05baa1944bbc7
+      size: 32
     - path: src/data/make_dataset.py
+      md5: a0667f4ad8c06551609bd0bf950167b7
+      size: 776
     outs:
     - path: data/raw
       md5: 2ab20ac1b58df875a590b07d0e04eb5b.dir
       size: 1358833013
       nfiles: 3
+  visualize:
+    cmd: streamlit run src/visualization/visualize.py
+    deps:
+    - path: models
+      md5: fc37870a93db61b94af9f0847577f09b.dir
+      size: 243476333
+      nfiles: 5
+    - path: src/visualization/visualize.py
+      md5: a71303fef593a9fd275fc4964623baf8
+      size: 814
+    outs:
+    - path: reports/visualization_metrics.txt
+      md5: fd7b6bb170dbaa9ef1076bc8be7e7593
+      size: 2144

dvc.yaml CHANGED Viewed

@@ -50,9 +50,6 @@ stages:
     deps:
       - models
       - src/visualization/visualize.py
-    metrics:
-      - reports/visualization_metrics.txt:
-          cache: false
   push_to_hf_hub:
     cmd: python src/models/hf_upload.py
     deps:

     deps:
       - models
       - src/visualization/visualize.py
   push_to_hf_hub:
     cmd: python src/models/hf_upload.py
     deps:

reports/evaluation_metrics.csv CHANGED Viewed

@@ -1,5 +1,37 @@
 Name,Value,Timestamp,Step
-"Rouge 1","{'Rouge_1 Low Precision': 0.34885388166790793, 'Rouge_1 Low recall': 0.28871556132198656, 'Rouge_1 Low F1': 0.31058637096822267, 'Rouge_1 Mid Precision': 0.412435004251884, 'Rouge_1 Mid recall': 0.3386352228897427, 'Rouge_1 Mid F1': 0.3517931748124066, 'Rouge_1 High Precision': 0.47625451117848977, 'Rouge_1 High recall': 0.39086727645312935, 'Rouge_1 High F1': 0.3959993953753958}",1627559683895,1
-"Rouge 2","{'Rouge_2 Low Precision': 0.1259156300716482, 'Rouge_2 Low recall': 0.10333119800163641, 'Rouge_2 Low F1': 0.10992592662502373, 'Rouge_2 Mid Precision': 0.16879303949162833, 'Rouge_2 Mid recall': 0.13805319188028575, 'Rouge_2 Mid F1': 0.14400796293585816, 'Rouge_2 High Precision': 0.21844214485938712, 'Rouge_2 High recall': 0.1777722350788, 'Rouge_2 High F1': 0.18342627795315522}",1627559683895,1
-"Rouge L","{'Rouge_L Low Precision': 0.2322041975032734, 'Rouge_L Low recall': 0.194000575085051, 'Rouge_L Low F1': 0.20468107864660212, 'Rouge_L Mid Precision': 0.2797360675037497, 'Rouge_L Mid recall': 0.22647774162854406, 'Rouge_L Mid F1': 0.2361293941929179, 'Rouge_L High Precision': 0.3357160682858357, 'Rouge_L High recall': 0.2622222798536235, 'Rouge_L High F1': 0.27267217209978356}",1627559683895,1
-"rougeLsum","{'rougeLsum Low Precision': 0.29651536760563263, 'rougeLsum Low recall': 0.2432094838451322, 'rougeLsum Low F1': 0.26048483356867896, 'rougeLsum Mid Precision': 0.35317671791338556, 'rougeLsum Mid recall': 0.286187817596869, 'rougeLsum Mid F1': 0.2985727815225495, 'rougeLsum High Precision': 0.4134539668577922, 'rougeLsum High recall': 0.3365998852405162, 'rougeLsum High F1': 0.3454898564714797}",1627559683895,1

 Name,Value,Timestamp,Step
+"Rouge_1 Low Precision",0.23786550570641482,1628194352980,1
+"Rouge_1 Low recall",0.23355396379384713,1628194352980,1
+"Rouge_1 Low F1",0.23602599457077003,1628194352980,1
+"Rouge_1 Mid Precision",0.3569471852499436,1628194352980,1
+"Rouge_1 Mid recall",0.31915939075819916,1628194352980,1
+"Rouge_1 Mid F1",0.3317618573023773,1628194352980,1
+"Rouge_1 High Precision",0.4726861301480842,1628194352980,1
+"Rouge_1 High recall",0.4019654200001146,1628194352980,1
+"Rouge_1 High F1",0.4298956952594035,1628194352980,1
+"Rouge_2 Low Precision",0.06184772400193972,1628194352980,1
+"Rouge_2 Low recall",0.05626972412346313,1628194352980,1
+"Rouge_2 Low F1",0.058680298802341754,1628194352980,1
+"Rouge_2 Mid Precision",0.1367034298993256,1628194352980,1
+"Rouge_2 Mid recall",0.11953160646342464,1628194352980,1
+"Rouge_2 Mid F1",0.12485064123505887,1628194352980,1
+"Rouge_2 High Precision",0.22739029631016827,1628194352980,1
+"Rouge_2 High recall",0.18851628169809986,1628194352980,1
+"Rouge_2 High F1",0.20306657551189072,1628194352980,1
+"Rouge_L Low Precision",0.18248956154159507,1628194352980,1
+"Rouge_L Low recall",0.18048774357814204,1628194352980,1
+"Rouge_L Low F1",0.18151380309623336,1628194352980,1
+"Rouge_L Mid Precision",0.2614974838710314,1628194352980,1
+"Rouge_L Mid recall",0.24286688705755238,1628194352980,1
+"Rouge_L Mid F1",0.24674586991996245,1628194352980,1
+"Rouge_L High Precision",0.3574471638807763,1628194352980,1
+"Rouge_L High recall",0.30836083808542225,1628194352980,1
+"Rouge_L High F1",0.32385446385474176,1628194352980,1
+"rougeLsum Low Precision",0.21468633089019287,1628194352980,1
+"rougeLsum Low recall",0.2057771050364415,1628194352980,1
+"rougeLsum Low F1",0.21170611912426093,1628194352980,1
+"rougeLsum Mid Precision",0.3060593850789648,1628194352980,1
+"rougeLsum Mid recall",0.27733553744690076,1628194352980,1
+"rougeLsum Mid F1",0.28530501988436374,1628194352980,1
+"rougeLsum High Precision",0.4094614601758424,1628194352980,1
+"rougeLsum High recall",0.34640369291505535,1628194352980,1
+"rougeLsum High F1",0.36454440079714096,1628194352980,1

reports/training_metrics.csv CHANGED Viewed

@@ -1,11 +1,9 @@
 Name,Value,Timestamp,Step
-"val_loss",5.029108047485352,1628177741756,14
-"epoch",0,1628177741756,14
-"val_loss",4.757647514343262,1628177893078,29
-"epoch",1,1628177893078,29
-"val_loss",4.493412494659424,1628177940684,44
-"epoch",2,1628177940684,44
-"train_loss",1.328701138496399,1628178045108,49
-"epoch",3,1628178045108,49
-"val_loss",4.228608131408691,1628178200552,59
-"epoch",3,1628178200552,59

 Name,Value,Timestamp,Step
+"val_loss",2.615034580230713,1628194199660,0
+"epoch",0,1628194199660,0
+"val_loss",2.6141018867492676,1628194229556,1
+"epoch",1,1628194229556,1
+"val_loss",2.6132164001464844,1628194259447,2
+"epoch",2,1628194259447,2
+"val_loss",2.612450361251831,1628194289914,3
+"epoch",3,1628194289914,3

src/__init__.py DELETED Viewed

@@ -1,12 +0,0 @@
-import os  # noqa: F401
-import sys  # noqa: F401
-from src.data.make_dataset import make_dataset  # noqa: F401
-from src.data.process_data import process_data  # noqa: F401
-from src.models.evaluate_model import evaluate_model  # noqa: F401
-from src.models.model import Summarization  # noqa: F401
-from src.models.predict_model import predict_model  # noqa: F401
-from src.models.train_model import train_model  # noqa: F401
-from src.visualization.visualize import visualize  # noqa: F401
-sys.path.append(os.path.dirname(os.path.realpath(__file__)))  # noqa: F401

src/data/__init__.py DELETED Viewed

File without changes

src/models/__init__.py DELETED Viewed

@@ -1,4 +0,0 @@
-from .model import Summarization  # noqa: F401
-from .train_model import train_model  # noqa: F401
-from .predict_model import predict_model  # noqa: F401
-from .evaluate_model import evaluate_model  # noqa: F401

src/models/predict_model.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import yaml
-from model import Summarization
 import pandas as pd

 import yaml
+from src.models.model import Summarization
 import pandas as pd

src/visualization/__init__.py DELETED Viewed

File without changes

src/visualization/visualize.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import streamlit as st
-from ..models import predict_model
 def visualize():
@@ -18,9 +18,6 @@ def visualize():
             sumtext = predict_model(text=text)
         st.write("# Generated Summary:")
         st.write("{}".format(sumtext))
-        with open("reports/visualization_metrics.txt", "w") as file1:
-            file1.writelines(text)
-            file1.writelines(sumtext)
 if __name__ == "__main__":

 import streamlit as st
+from src.models.predict_model import predict_model
 def visualize():
             sumtext = predict_model(text=text)
         st.write("# Generated Summary:")
         st.write("{}".format(sumtext))
 if __name__ == "__main__":