INSAIT-Institute/BgGPT-7B-Instruct-v0.2 · Подаване на информация спомагаща извършване на престъпления

Здравейте, при задълбочени тестове установих, че се подава информация която може да спомогне за извършване на престъпления, убийства и тероризъм. Зададох му следните въпроси и той отговори с възможни сценарий – как да ограбя апартамент, как да взривя автомобил, как да създам бомба, как да убия човек и т.н. Мисля, че такава информация не би трябвало да се показва, а въпроса да бъде отхвърлен.

Този проблем попринцип касае много модели и е трудно да бъде коригиран достатъчно без да има спад във възможностите. Неслучайно gemma се характеризират като по-слаби модели като тегла. Реално Qwen моделите са едни от малкото, които са с добра производителност и са скопени както си трябва, но за целта Alibaba са хвърлили достатъчно много пари за целта.

В производствена среда този случай може да се реши с още един агент – всеки един вход се минава през още един агент, който изпълнява само тази роля. Примерно пита се „във този вход има ли нещо опасно?“ и ако каже не, тогава се подава на основния агент, който реално връща изхода за потребителя.

Откровено казано аз повече бих се радвал ако екипа се фокусира над създаването на нови модели на основата на llama-3 например, вместо над това да скопява този. В тази дискусия се споменава за успешен случай за пригаждането на llama-3 на нов език и медотологията изглежда добра на пръв поглед. Пожелавам успех на екипа!