Gigaword er for lille?

#1
by mindplay - opened

Er Gigaword stor nok til at træne an LLM til Dansk?

Jeg er bare en tilfældig programmør, jeg ved ikke en masse om LLM. :-)

Men fra hvad jeg har læst, så skal vi nok op i størrelsesorden af flere 1000 GB for at have et tilstrækkelige træningsssæt? Gigaword sættet er vidst kun et par GB stort?

Bare en tanke, men kunne man forestille sig, at bruge maskinoversættelse til at skabe et større korpus af tekst på dansk?

GPT-4 er ganske udmærket til at oversætte engelsk til dansk. Og det må man nok ikke. Men kunne man? 😏🤔

Sign up or log in to comment