ask_my_thesis / assets /txts /pg_0010.txt
jordyvl's picture
First commit
e0a78f5
raw
history blame
2.59 kB
vi
BEKNOPTE SAMENVATTING
onthullen dat er weliswaar vooruitgang is geboekt, maar dat er nog significant
veel ruimte is voor verbetering, met name in de lange-contextmodellering voor
de verwerking van multipagina documenten en gekalibreerd, selectief visueel
vraagbeantwoording van documenten. Meer schaalbaar DI wordt ook verkend,
waarbij de effectiviteit van kennisdistillatie (KD) voor modelcompressie in
visueel-rijke layoutanalyse (DLA) en classificatie van documenten aan het licht
komt.
Door middel van empirische studies en methodologische bijdragen, heeft dit
proefschrift de volgende bijdragen en bevindingen:
Ten eerste vinden we in een benchmarkstudie van gevestigde POK-methoden
op tekstclassificatie in de echte wereld dat onze nieuwe hybride POK-methode
’Concrete Dropout Ensemble’ het beste presteert, de kalibratie binnenshuis
verbeterend en detectie van nieuwe klassen, zelfs met een kleiner ensemble.
Gedetailleerde ablatie-experimenten onthullen de impact van voorafgaande
kennis, neurale architectuur en keuzes van hyperparameters op de kwaliteit van
POK-schatting.
Ten tweede identificeren we uitdagingen in de vooruitgang van DI en stellen een
formalisatie voor van multipagina documentclassificatiescenario’s, bouwen novel
datasets, en voeren een experimentele analyse uit die de belofte van multipagina
representatie-leren en inferentie toont.
Ten derde introduceren we DUDE, waarin veelzijdige uitdagingen en principes
worden voorgesteld voor een uitgebreide evaluatie.
Naast onze eigen
benchmarking organiseren we een competitie, waaruit blijkt dat hoewel nieuwere
modellen veelbelovend zijn, ze het moeilijk hebben met vragen die visueel bewijs
of complex redeneren vereisen. Bovendien vinden we ernstige problemen in het
vermogen van Grote Taalmodellen (LLMs) om over documenten in hun geheel
te redeneren, wat problemen benadrukt met hallucinatie, redeneren met lange
context en controle.
Ten vierde stellen we de eerste experimentele methodologie voor om documenten
te verrijken met semantische layoutstructuur met behulp van gedestilleerde
DLA-modellen. We passen KD toe op visuele documenttaken, waarbij we de
invloed van verschillende architectuurcomponenten van taken ontrafelen.
Ten slotte sluit het proefschrift af met een bespreking van de bevindingen en
implicaties voor toekomstig onderzoek, waarbij de noodzaak wordt benadrukt
voor vooruitgang in multipagina documentrepresentatie-leren en het belang van
realistische datasets en experimentele methodologieën om meetbaar vooruitgang
te boeken naar betrouwbare en robuuste IA-DI technologie.