Spaces:

jordyvl
/

ask_my_thesis

Paused

App Files Files Community

ask_my_thesis / assets /txts /pg_0010.txt

jordyvl

First commit

e0a78f5 7 months ago

raw

history blame

2.59 kB

	vi

	BEKNOPTE SAMENVATTING

	onthullen dat er weliswaar vooruitgang is geboekt, maar dat er nog significant
	veel ruimte is voor verbetering, met name in de lange-contextmodellering voor
	de verwerking van multipagina documenten en gekalibreerd, selectief visueel
	vraagbeantwoording van documenten. Meer schaalbaar DI wordt ook verkend,
	waarbij de effectiviteit van kennisdistillatie (KD) voor modelcompressie in
	visueel-rijke layoutanalyse (DLA) en classificatie van documenten aan het licht
	komt.
	Door middel van empirische studies en methodologische bijdragen, heeft dit
	proefschrift de volgende bijdragen en bevindingen:
	Ten eerste vinden we in een benchmarkstudie van gevestigde POK-methoden
	op tekstclassificatie in de echte wereld dat onze nieuwe hybride POK-methode
	’Concrete Dropout Ensemble’ het beste presteert, de kalibratie binnenshuis
	verbeterend en detectie van nieuwe klassen, zelfs met een kleiner ensemble.
	Gedetailleerde ablatie-experimenten onthullen de impact van voorafgaande
	kennis, neurale architectuur en keuzes van hyperparameters op de kwaliteit van
	POK-schatting.
	Ten tweede identificeren we uitdagingen in de vooruitgang van DI en stellen een
	formalisatie voor van multipagina documentclassificatiescenario’s, bouwen novel
	datasets, en voeren een experimentele analyse uit die de belofte van multipagina
	representatie-leren en inferentie toont.
	Ten derde introduceren we DUDE, waarin veelzijdige uitdagingen en principes
	worden voorgesteld voor een uitgebreide evaluatie.
	Naast onze eigen
	benchmarking organiseren we een competitie, waaruit blijkt dat hoewel nieuwere
	modellen veelbelovend zijn, ze het moeilijk hebben met vragen die visueel bewijs
	of complex redeneren vereisen. Bovendien vinden we ernstige problemen in het
	vermogen van Grote Taalmodellen (LLMs) om over documenten in hun geheel
	te redeneren, wat problemen benadrukt met hallucinatie, redeneren met lange
	context en controle.
	Ten vierde stellen we de eerste experimentele methodologie voor om documenten
	te verrijken met semantische layoutstructuur met behulp van gedestilleerde
	DLA-modellen. We passen KD toe op visuele documenttaken, waarbij we de
	invloed van verschillende architectuurcomponenten van taken ontrafelen.
	Ten slotte sluit het proefschrift af met een bespreking van de bevindingen en
	implicaties voor toekomstig onderzoek, waarbij de noodzaak wordt benadrukt
	voor vooruitgang in multipagina documentrepresentatie-leren en het belang van
	realistische datasets en experimentele methodologieën om meetbaar vooruitgang
	te boeken naar betrouwbare en robuuste IA-DI technologie.