Spaces:
Paused
Paused
vi | |
BEKNOPTE SAMENVATTING | |
onthullen dat er weliswaar vooruitgang is geboekt, maar dat er nog significant | |
veel ruimte is voor verbetering, met name in de lange-contextmodellering voor | |
de verwerking van multipagina documenten en gekalibreerd, selectief visueel | |
vraagbeantwoording van documenten. Meer schaalbaar DI wordt ook verkend, | |
waarbij de effectiviteit van kennisdistillatie (KD) voor modelcompressie in | |
visueel-rijke layoutanalyse (DLA) en classificatie van documenten aan het licht | |
komt. | |
Door middel van empirische studies en methodologische bijdragen, heeft dit | |
proefschrift de volgende bijdragen en bevindingen: | |
Ten eerste vinden we in een benchmarkstudie van gevestigde POK-methoden | |
op tekstclassificatie in de echte wereld dat onze nieuwe hybride POK-methode | |
’Concrete Dropout Ensemble’ het beste presteert, de kalibratie binnenshuis | |
verbeterend en detectie van nieuwe klassen, zelfs met een kleiner ensemble. | |
Gedetailleerde ablatie-experimenten onthullen de impact van voorafgaande | |
kennis, neurale architectuur en keuzes van hyperparameters op de kwaliteit van | |
POK-schatting. | |
Ten tweede identificeren we uitdagingen in de vooruitgang van DI en stellen een | |
formalisatie voor van multipagina documentclassificatiescenario’s, bouwen novel | |
datasets, en voeren een experimentele analyse uit die de belofte van multipagina | |
representatie-leren en inferentie toont. | |
Ten derde introduceren we DUDE, waarin veelzijdige uitdagingen en principes | |
worden voorgesteld voor een uitgebreide evaluatie. | |
Naast onze eigen | |
benchmarking organiseren we een competitie, waaruit blijkt dat hoewel nieuwere | |
modellen veelbelovend zijn, ze het moeilijk hebben met vragen die visueel bewijs | |
of complex redeneren vereisen. Bovendien vinden we ernstige problemen in het | |
vermogen van Grote Taalmodellen (LLMs) om over documenten in hun geheel | |
te redeneren, wat problemen benadrukt met hallucinatie, redeneren met lange | |
context en controle. | |
Ten vierde stellen we de eerste experimentele methodologie voor om documenten | |
te verrijken met semantische layoutstructuur met behulp van gedestilleerde | |
DLA-modellen. We passen KD toe op visuele documenttaken, waarbij we de | |
invloed van verschillende architectuurcomponenten van taken ontrafelen. | |
Ten slotte sluit het proefschrift af met een bespreking van de bevindingen en | |
implicaties voor toekomstig onderzoek, waarbij de noodzaak wordt benadrukt | |
voor vooruitgang in multipagina documentrepresentatie-leren en het belang van | |
realistische datasets en experimentele methodologieën om meetbaar vooruitgang | |
te boeken naar betrouwbare en robuuste IA-DI technologie. | |