Tegnsætning og store bogstaver
Det er jo nogle virkelig flotte benchmarks I har her, så jeg afprøvede modellen sammenlignet med den oprindelige Whisper Large v3. Den oprindelige genererer ret fine punktummer, kommaer og store bogstaver, men Hviske2 gør slet ikke. Er det forventeligt? Jeg har prøvet både websiden, opsætte den selv, og prompte den uden held.
Jeg kan se, at Coral datasættet som I har fin-tunet på heller ikke indeholder tegnsætning, så er det så simpelt som at Hviske 2 har mistet den evne i fin-tuningen?
Derudover, ser jeg desværre heller ikke tydeligt bedre kvalitet transskriberinger på "real-world" lydoptagelser med telefonopkald, er jeres erfaring at Hviske2 tydeligt slår Whisper i praksis, som CoRaL benchmark scoren godt kunne antyde den burde?
CoRal er primært et oplæst datasæt, uden tegnsætning. Hvad "praksis" reelt er, varierer meget af use-casen.
Jeg ved, at CoRal datasættet snart blive udvidet med transskribering af samtaler, og når det er ude, så regner vi med at træne modellen igen.