Beknopte samenvatting Menselijke communicatie is in toenemende mate documentgebaseerd, waarbij machines een breed aanbod aan visueel-rijke documenten moeten begrijpen om mensen in hun dagelijks leven te assisteren. Te midden van de digitale evolutie blijven documenten cruciale menselijke en organisatorische interacties faciliteren, maar zijn ze gebonden aan handmatige verwerking, wat inefficiëntie veroorzaakt. We onderzoeken waarom organisaties achterblijven bij het adopteren van geautomatiseerde documentverwerkingsoplossingen en schetsen twee primaire uitdagingen: de complexiteit van het algoritmisch verwerken van lange, multimodale documenten en de noodzaak van betrouwbaarheid en controle over daarmee samenhangende risico’s. Geautomatiseerde besluitvorming is essentieel voor het verbeteren van de efficiëntie van documentverwerking, maar de huidige stand van de technologie is nog niet betrouwbaar en robuust genoeg om ingezet te worden in autonome toepassingen. Het praktische doel dat gesteld wordt, is het ontwikkelen van systemen voor Intelligente Automatisering (IA) die in staat zijn om vertrouwen in hun acties te schatten, daarmee de doorvoer verhogend zonder extra kosten vanwege fouten. We analyseren de belangrijkste uitdagingen en stellen oplossingen voor om de kloof tussen onderzoek en praktische toepassingen te overbruggen, met een focus op realistische datasets en experimentele methodologieën. Voortbouwend op de fundamenten van Documentinterpretatie (DI), introduceert dit proefschrift geavanceerde methodologieën die Machinaal Leren, Natuurlijke Taalverwerking en Computer Visie combineren. Door de duidelijke hiaten in onderzoek aan te pakken, presenteert dit werk nieuwe methoden voor predictieve onzekerheidskwantificering (POK) naast praktische kaders voor het evalueren van de robuustheid en betrouwbaarheid van DI-technologieën. De bijdrage culmineert in de introductie van twee nieuwe datasets voor classificatie van multipagina documenten en een veelzijdige benchmark, DUDE , ontworpen om de state-of-the-art in DI rigoureus uit te dagen en te beoordelen. Uitgebreide experimenten met deze datasets v