neurotechnology/Lt-Llama-2-7b-instruct-hf · QA atsakymų generavimas (chatbot)

10 days ago

Sveiki,

bandžiau modelį ir paleidimui konvertavau jį į GGUF. Papildomai pridėjau tekstinį failą, pagal kurį atsakymai gali būti atsakomi labiau konkretizuotai.

Bandžiau tą patį metodą tiek su ChatGPT, tiek su Gemini, atsakymai buvo geri, tačiau su LT Llama gaunami atsakymai yra maksimaliai blogi. Kiek pastebiu, tai failu naudojasi, bet visiškai neseka užduoto klausimo temos - paklausi apie vieną dalyką, atsako apie kitą.

Ar kas susidūrėte su tuo ir galbūt žinote, kaip tą išspręsti?

artena

Neurotechnology org 9 days ago

Labas,

7b - instruct modelis nera labai tinkamas qa atsakymų generavimui. Jis buvo apmokintas su ~50k kiekių instrukcijomis. Tai nėra labai didelis kiekis, todėl gali paprasčiausiai nesilaikyti duotų instrukcijų.
Aš klausimų - atsakymų duomenų generavimui naudočiau 7b base modeli, kuri patreniruočiau šitai užduočiai.

Cheatmeal

7 days ago

•

edited 7 days ago

Labas,

7b - instruct modelis nera labai tinkamas qa atsakymų generavimui. Jis buvo apmokintas su ~50k kiekių instrukcijomis. Tai nėra labai didelis kiekis, todėl gali paprasčiausiai nesilaikyti duotų instrukcijų.
Aš klausimų - atsakymų duomenų generavimui naudočiau 7b base modeli, kuri patreniruočiau šitai užduočiai.

Išbandžiau visus 4 (abu instruct ir ne instruct), tai matosi ryškus atsakymų kokybės skirtumas tarp 7B ir 13B.

Ties Instruct matėsi, kad kalba ne į temą, neseka klausimo esmės (bet naudojasi RAG principu pridėtu failu - klausimas apie vieną, bet traukia atsakymą iš kito punkto).

Ties ne instruct matosi aiškus kokybės skirtumas, klausimo esmę seka ir atsako žymiai geriau (pateikia žymiai daugiau informacijos ir į temą), tačiau atsirado šioks toks niuansas, kad labiau linkęs naudotis savo žiniomis, negu kontekstu iš failo. Kaip pavyzdys, papildomame duomenų rinkinyje yra nurodomas telefono numeris - konkretus, visą laiką vienodas, atsispindi beveik kiekviename pavyzdiniame atsakyme. Tačiau atsakymuose jau pateikia kažkokį kitą telefono numerį (arba dar kitą, jų yra du pagrinde) ir dažnai pastebiu, kad atsakymų formuluotė labiau panaši į straipsnių (matyt dėl to, kad modelyje pagrindas informacijos yra iš 15min, Delfi ir kt.)

Spėju šioje vietoje pagerinti atsakymų kokybę galėtų tik didesnis duomenų rinkinys iš mano specifinio atvejo? Kadangi bandžiau ChatGPT, Gemini ir Llama3.1, tai su atsakymais jie susidorojo pakankamai sklandžiai, bet tam turi įtakos ir tai, kad visi šie modeliai yra didžiuliai ir jiems užteko mano duomenų rinkinio, kuris nėra toks didelis, kaip norėtųsi. O Llama2 LT iš esmės pats yra nedidelis ir kai duomenų rinkinys nėra didelis, tai tarpusavyje jam trūksta tiek jau esančių "žinių", tiek papildomų.

Bent jau įžvelgiu pagrinde tokią bėdą iš to, ką teko stebėti.