CONTENTS B C xvii A.1 Software and Data . . . . . . . . . . A.2 Hyperparameter Defaults . . . . . . Practical Considerations . . . . . . . . . . . B.1 Take-home Summary . . . . . . . . . B.2 Compute vs. Performance Trade-off Detailed Experiment Results . . . . . . . . C.1 Zoom-in Benchmark Evidence . . . . C.2 Absolute Benchmark Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 223 224 224 225 226 226 226 B Appendix - BDPC 230 A Existing DC Datasets . . . . . . . . . . . . . . . . . . . . . . . . 230 B Visualization of Proposed DC Datasets . . . . . . . . . . . . . . 231 C Appendix - DUDE A Baseline Experiments Setup . . . . . . . . . . A.1 Hyperparameter Defaults . . . . . . . A.2 Generative LLM Prompt Fine-tuning A.3 Confidence Estimation . . . . . . . . . A.4 Evaluation . . . . . . . . . . . . . . . B Qualitative Examples . . . . . . . . . . . . . B.1 Qualitative Examples - Competition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 232 232 232 233 235 235 241 D Appendix - KDD A Code and Datasets . . . . . . . . . . . B Implementation Details . . . . . . . . C Task Definitions . . . . . . . . . . . . D Additional Experiment Results . . . . D.1 Tobacco-3482 Results . . . . . D.2 PRImA Results . . . . . . . . . D.3 RVL-CDIP-N Results . . . . . D.4 Downstream DocVQA Results D.5 Ablation Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 244 244 246 247 249 249 249 249 249 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Curriculum 253 Publications 255